データサイエンスとその応用に関する初心者向けガイド
公開: 2018-02-24データ、サイエンス、またはデータサイエンスという言葉は、読者に恐怖感や恐怖感を与えるのに十分ではありません。 正直なところ、テッセレーション、k-mean、k最近傍法、ユークリッド最小スパニングツリーなどの単語とは異なり、恐ろしいことは言うまでもなく、可愛すぎて不快感を与えることさえできません。データサイエンスの旅で出会うでしょう。
「データサイエンス」は恐怖を刺激するものではありませんが、この分野については何も説明していません。 誰もがデータが何であるかを知っています。 少なくとも素人の意味では。 データは本質的には単なる情報です。 一方、科学は、科学的方法に従ったあらゆる活動グループを意味するために使用できます。
したがって、この論理に従えば、データサイエンスは、大量のデータに対して科学的手法を使用する分野であると結論付けることができます。 しかし、何のために? そして、データサイエンスとは正確には何ですか?
それが今日の議論のトピックです。 この記事を読むと、次の質問に答えることができます。
- データサイエンスとは何ですか?
- データサイエンスパイプラインのさまざまなフェーズは何ですか?
- データサイエンスが機能しているところはどこで確認できますか?
目次
データサイエンスとは何ですか?
すべての百科事典の母であるウィキペディアは、データサイエンスを、科学的手法を使用してデータから知識と洞察を抽出することに焦点を当てた分野と定義しています。 しかし、それがあなたに伝えていないのは、私たち人間は生まれながらのデータサイエンティストであるということです。 どのように? どれどれ。
あなたは何をしていてもあなたの周りの世界を観察しています。 目覚める瞬間ごとに、あなたは周囲から詳細を取り込んで、それをあなたの脳に供給しています。 次に、これらの観察結果をデータに処理し、それを使用して意味を見つけ、次に何が起こりそうかを予測することで、周囲のことを理解します。
1時間遅れて仕事に出るときは、自宅で仕事をすることを伝えるために電話をかけます。 あなたは、あなたがオフィスにいることによって得るよりもあなたが交通で立ち往生しているあなたの時間を失う可能性が高いとあなたに結論させる途中で交通と停止のあなたの過去の観察を使用しています。 部屋に入ってチョコレートの包み紙が横になっているのを見ると、何気ない分析で、誰かがあなたの不在中にあなたのチョコレートを食べていたことがわかります。
注目すべき上位4つのデータ分析の役割
上記のいずれの場合でも、これらの計算と予測を頭の中で行うと、それを書き留めることなく、あなたは普通の人間です。 一方、先に進んでこれらのデータポイントを(もちろん機械可読形式で)記録してから、アプリケーションを実行するためのアルゴリズム(またはプロシージャ)とコンピュータプログラムを考案しようとする場合。 この「架空の」システムの出力が「トラフィックが減少する」、または「ルームメイトがチョコレートを食べた」という場合は、ビンゴ! あなたはデータサイエンティストです。
それは(理論的には)上記のアナロジーがそれを聞こえさせるのと同じくらい単純です。 一日の終わりには、データ、手順、アルゴリズム、およびツールがあります。 あなたはそれから知識を抽出する必要があります。 これを効率的に行うには、従わなければならないワークフロー/パイプラインがあります。 典型的なデータサイエンスパイプラインにすべてが含まれているものを見てみましょう。
データサイエンスパイプライン
データサイエンスパイプラインは、必要なデータの取得から正確な計算と予測まで、プロセス全体の流れについて話します。 このパイプラインの要素を見てみましょう。

データを取得する
これはデフォルトで、データサイエンスを実践するために最初に行う必要があることです–データを取得してください! ちょっとした注意–データを取得する際に考慮しなければならないことがいくつかあります。 最初にすべてのデータセットを特定する必要があります(インターネットまたは内部/外部データベースからのものである可能性があります)。 次に、データを使用可能な形式(CSV、XML、JSONなど)に抽出する必要があります。
データアナリストになるために習得するためのトップスキルとツールは次のとおりです
必要なスキル
- データベース管理:ニーズと要件に応じて、SQLまたはNoSQLのいずれか。
- これらのデータベースのクエリ
- ビデオ、オーディオ、テキスト、ドキュメントなどの形式で非構造化データを取得する。
- 分散ストレージ:Hadoop、Apache Spark、またはApacheFlink。
データのスクラブ/クリーニング
システムの最終出力は、入力したデータと同じくらい良いため、データのクリーニングを最も重要視する必要があります。 クリーニングとは、異常の除去、空の値/欠落している値の入力、データに一貫性があるかどうかの確認など、この種のことを指します。
必要なスキル
- スクリプト言語:Python、R、SAS
- データラングリングツール:Python Pandas、R
- 分散処理:Hadoop、MapReduce / Spark
探索的(探索的データ分析)
データがクリーンになったので、データのパターンを理解し始めます。 このフェーズでは、さまざまなタイプの視覚化と統計モデリングが使用されます。 基本的に、このフェーズは、データから隠された意味を引き出すことを目的としています。
探索的データ分析の分野には多くのことがあります。 それがあなたが楽しむものだと感じたら、同じことについての私たちの記事を読むことを忘れないでください。
このフェーズでパフォーマンスを向上させるには、「スパイダーマン感覚」がチクチクする必要があります。 気が狂って、奇妙なパターンやトレンドを見つけましょう。常に箱から出して何かを探してください。 ただし、その際は、解決しようとしている問題を忘れないでください。 箱から出して行き過ぎないでください。 探索的データ分析は芸術であり、芸術家は常に聴衆を念頭に置く必要があります。
必要なスキル
- Pythonライブラリ:Numpy、Matplotlib、Pandas、Scipy
- Rライブラリ:GGplot2、Dplyr
- 推論統計
- データの視覚化
- 実験計画
モデリング(機械学習)
これは楽しい部分です。 モデルは、統計的な意味での単なる一般的なルールです。 機械学習モデルは、ツールキットの単なるツールです。 さまざまなユースケースと目的を持つ非常に多くのアルゴリズムにアクセスできるため、簡単な調査でビジネスニーズに合ったアルゴリズムを見つけることができます。
データをクリーンアップし、(EDAフェーズで)重要な機能を見つけた後、予測ツールとして統計モデルを使用すると、全体的な意思決定が強化されます。 予測分析は、「何が起こったのか」を振り返る代わりに、「次に何が起こったのか」に答えることを目的としています。 そして「どうすればいいの?」

必要なスキル
- 機械学習:教師あり/教師なし/強化学習アルゴリズム
- 評価方法
- 機械学習ライブラリ:Python(Sci-kit Learn)/ R(CARET)
- 線形代数と多変量微積分
通訳(データストーリーテリング)
これは、パイプラインで最も困難なタスクの1つです。 ここでは、コミュニケーションを通じて発見したことを説明することを目指しています。 結局のところ、それはすべてあなたの聴衆とつながることです–そしてそれがストーリーテリングを鍵にするものです。
あなたがその重要性をあなたのオフィスの非技術者の束、あるいはあなたの上司にさえ伝えることができないならば、あなたの発見はほとんど役に立ちません。 物事をコントロールするための良い習慣は、たくさんのリハーサルをすることです。 あなたの発見に基づいて物語を組み立て、それを素人(できれば子供)に伝えてみてください。 彼らがそれを理解すれば、あなたの上司も理解するでしょう。 そして、そうでない場合は、アインシュタインが言ったことを知っています:
「6歳の子供に説明できないと、自分では理解できません。」
このフェーズは、真のビジネス洞察を引き出すことを目的としています。 ここでの主な課題は、調査結果を視覚化し、美しく理解しやすい方法で表示することです。
必要なスキル
- あなたのビジネスドメインの知識
- データ視覚化ツール:Tableau、D3.JS、Matplotlib、GGplot、Seabornなど。
- コミュニケーション:プレゼンテーションスキル–口頭と書面の両方。
これでパイプラインは終わりではありません。 システムを真に最大限に活用する場合は、必要に応じてモデルを更新していることを確認する必要があります。 データサイエンスでは、1つのサイズですべてに対応できるわけではないため、モデルを再検討して更新し続ける必要があります。
データ操作:データの嘘をどのように見つけることができますか?
データサイエンスの応用
今では明らかなように、データサイエンスは広義の用語であり、そのアプリケーションも同様です。 スマートフォンのほぼすべてのアプリケーションは、データで繁栄します。 したがって、データサイエンスの完全な遍在性のために、データサイエンスのすべてのアプリケーションをリストアップすることは事実上不可能であると言っても過言ではありません。
データサイエンスの魔法を使用している幅広い分野を見てみましょう。
1.インターネット検索
Googleはどのようにしてそのような*正確な*検索結果をほんの一瞬で返すのでしょうか? データサイエンス!
2.レコメンデーションシステム
FacebookやLinkedInの「知っている人」から、Amazonの「この製品を購入した人も気に入った…」、Spotifyの毎日の厳選された再生リスト、YouTubeの「おすすめの動画」まで、すべてがデータサイエンスによって支えられています。
3.画像/音声/文字認識
これは言うまでもありません。 データサイエンスではないにしても、「Siri」の背後にある頭脳は何だと思いますか? また、友達と一緒に写真をアップロードすると、Facebookは友達をどのように認識すると思いますか? それは魔法ではありません。 それは科学です–データサイエンス。
4.ゲーム
EA Sports、Sony、Nintendo、Zynga、およびこのドメインの他の巨人は、ゲーム体験をまったく新しいレベルに引き上げるためにそれを採用しました。 ゲームは現在、機械学習アルゴリズムを使用して開発および改善されているため、より高いレベルに移動するとアップグレードできます。
5.価格比較サイト
これらのウェブサイトはデータに支えられています。 彼らにとって、より多くの喜びがあります。 データは、APIを使用して関連するWebサイトから取得されます。 PriceGrabber、PriceRunner、Junglee、ShopzillaはそのようなWebサイトです。
Pythonでデータサイエンスを始めましょうまとめ…
あなたが技術のバックグラウンドを持っていて、データのために少し何かを持っているなら、データサイエンスはあなたの本当の呼びかけです。 一番良いところ? データサイエンスとその周辺では、やるべきことや探求することがたくさんあります。 これは、多くのツールとテクノロジーを網羅する総称です。いずれか1つを習得すると、増え続けるデータサイエンス市場で資産になります。 upGradは、データサイエンスに関するさまざまなコースを提供して、時代を先取りします。 それらをチェックすることを忘れないでください!
インドの業界全体のデータサイエンスの範囲は何ですか?
データサイエンスは、インドの多くの産業に大きな影響を与えています。 以下にリストされているすべての業界は、データサイエンスに大きく依存しており、データサイエンティストに優れた展望を提供します。
1.ヘルスケア:これは、医学、患者、および病気に関係するあらゆるものの包括的な言葉です。 データサイエンスは、より効率的な診断から医学研究に至るまで、この業界で重要な役割を果たし始めています。
2.銀行と保険-リスク評価と不正検出:銀行は、顧客プロファイル、以前の申請と支出、およびその他のさまざまな個人データ、特にローンと保険を収集します。 ここでデータサイエンスが登場します。データサイエンスはプロセスを簡素化し、リスクの低い人とリスクの高い人を区別するためです。
3.マーケティングと広告-すべてのデータをすぐに利用できるので、サービスや製品を効果的にマーケティングするために、ターゲットオーディエンスを分析して決定できます。
4.航空業界-データサイエンスは、航空機の経路とルートを分析するために航空業界で使用されています。
データサイエンティストはどのようにスキルを使用してビジネス上の問題を解決できますか?
データサイエンティストは、会社の要求に応じて、ビジネス上の課題を解決するために異なる戦略をとる必要があります。 データサイエンティストは、数学とコンピューターサイエンスのハイブリッドモデルを使用して、データから実用的な洞察を収集し、より良い意思決定を支援します。 現実のビジネス課題を解決するためのデータサイエンスのアプリケーションには、製品品質の向上、デジタル広告の配置の自動化、需要と成長の機会を予測することによる収益の増加、採用プロセスの自動化、ダイナミックな市場での価格設定などが含まれます。
データサイエンスの未来は何ですか?
データサイエンスの未来は非常にエキサイティングであり、ほぼすべての分野で幅広い実装が行われています。 グーグル、アマゾン、フェイスブックなどの最高のデジタルネイティブ企業のいくつかは、データに多額の投資を行っています。 進行中の研究と組み合わされた新興技術の台頭は、将来的に革新的なアプリケーションとユースケースにつながるでしょう。 キャリアの観点から、データサイエンスは多くの可能性を秘めています。
