データサイエンティスト:神話と現実
公開: 2018-04-05勢いを増すものはすべて、誰もが話しているものになる傾向があります。 そして、より多くの人々が何かについて話すほど、より多くの誤解や神話が積み重なっていきます。 データサイエンスと分析は、継続的に増加しているそのようなドメインの1つであり、それに伴い、関連する神話の数が増えています。
今日は、データサイエンティストの生活と仕事を中心に展開している、これらの神話や誤解のいくつかを明らかにします。 しかし、それに移る前に、まずデータサイエンティストの人生の典型的な日を理解しましょう。
組織には、さまざまなソースからさまざまな形式で時間の経過とともに収集された大量のデータがあります。 今、彼らはそれについて何かをすることにしました。 彼らは自分たちのデータを数えたいと思っています。 彼らは誰に目を向けますか?
データサイエンティスト!
はい、大多数が超自然的な存在であると混同しているデータサイエンティスト。 これらの人々は、あらゆる組織のデータ分析チームの中心であり、魂です。 彼らは重要な地位を占めており、あなたにとっては驚きかもしれませんが、彼らの通常の日は他のホワイトカラーの従業員の典型的な日とまったく同じです。
目次
ミーティング、ミーティング、その他のミーティング!
データサイエンティストは、要件を収集し、達成された作業について話し合い、その日の作業を計画するために、主に毎日会議に出席する必要があります。 組織の目標にとって重要であり、ビジネス上の問題を克服する社内会議もあります。 全体として、これらの会議の目的は、目前の問題をより明確に把握し、組織内の全員が前進することを確実にすることです。
データを探して、手付かずの状態にします。
彼らの一日の一部は、組織が直面している現実の問題を特定し、それらの問題の解決にデータを役立てる方法を見つけることに費やされます。 次に、より難しい部分があります。必要なデータのタイプとソースを決定することです。 経験豊富なデータサイエンティストは、常に最も関連性の高いソース、つまり価値を提供する可能性が高いソースからデータを選択します。
ただし、これには経験と専門知識が伴うものです。 したがって、データサイエンティストはそれにかなりの時間を費やす必要があります。
ただし、データの収集は半分の仕事しか行いません。 データサイエンティストは、データが検証され、クリーンアップされていることも確認する必要があります。 それらが不完全なデータで機能する場合、成功する可能性は指数関数的に減少します。
データサイエンスのための統計の基本的な基礎魔法を使ってみましょう。 分析を意味します。
データが完全にクリーンアップされると、データサイエンティストは、残りの時間をデータから傾向とパターンを特定することに費やします。 これは、データサイエンティストの仕事のもう一つの問題のある側面です。特に、このデータを効率的に分析するための決まった方法がないためです。 多くの場合、データサイエンティストは、ツールとアルゴリズムを設計するか、既存のものでそれらを微調整する必要があります。 これには、オープンマインドと実験への意欲が必要です。
物語を織ります。
データセットを分析した後、次に最も重要な部分、つまりデータの視覚化が行われます。 データサイエンティストは、主に非技術者である聴衆、会社の利害関係者やマーケターなどの前で調査結果を提示する必要があります。 これは必ずしも日常業務ではありませんが、物事を動かし続けるために頻繁に行う必要があります。 ここでのデータサイエンティストの重要な作業には、データの本質を捉えるだけでなく、すべてを美的に心地よい方法で提示する視覚化手法を考案することが含まれます。
データサイエンティストの役割は非常に動的です。 彼らにとって同じ日は2日ありません。 彼らの仕事は、彼らがつま先で立ち、常に思考の帽子をかぶることを含みます。 彼らが扱っているデータ、彼らが解決しようとしている問題、そして彼らが発見しようとしている洞察はすべて絶えず変化しています。 それが、データサイエンティストの役割を非常にユニークでエキサイティングなものにしている理由です。
データサイエンスとその応用に関する初心者向けガイドさて、一歩先を進んで、そのような、時にはばかげた、神話の多くを暴きましょう:ビデオ

Youtubeビデオ
神話#1:博士号を取得した専門家の統計家である必要があります。 統計で。 または、少なくとも、統計学の学位を持っている必要があります。
はい、統計学の正式な学位を取得することで、1日目から統計学のより良い実践に同意することができます。ただし、馬をそこに保持してください。データサイエンスの世界を見ると、数学に夢中になっている「ロケット科学者」よりも管理/非数学のバックグラウンド。
神話#2:データサイエンスに秀でるには、筋金入りのプログラマーである必要があります。 筋金入りであるほど良い。
繰り返しになりますが、ほんの数行前に説明した神話のように、これもデータサイエンティストの仕事についての誤った仮定に基づいています。 人々は、データサイエンティストであるためには、コードやアルゴリズムなどの行を書く必要があると考えています。 ただし、前に説明したルーチンに注意を払うと、そこには重要な「コーディング」が含まれていないことがわかります。 ほとんどのアルゴリズムまたはメソッドは、わずかな調整が必要な既製のものとして利用できます。 ただし、それを行うには論理的な心構えが必要です。
Pythonでデータサイエンスを始めましょう神話#3:データサイエンティストは、意味のある意味でのサイエンティストではありません。
すべての科学者は、デフォルトでデータサイエンティストです。 純粋な科学は常に観測データと共存してきました。 データをふるいにかけ、分類し、構造化し、分類し、理論化し、提示する能力がなければ、科学者は研究に一貫性をもたらすことができません。 同様に、データの中心を深く掘り下げていないデータサイエンティストは、調査結果を効果的に提示できません。 統計的管理は常に純粋な科学の基盤であり、現在、統計的管理はデータサイエンティストの基本的な責任です。 したがって、データサイエンティストが組織の顧客の行動の傾向とパターンを観察し、統計と実際の実験を使用してその結果を確認している場合、彼らは単純で単純な科学者です。
神話#4:データサイエンティストは、コストがかかり複雑な統計ツールを使用して作業を行います。
基本的に、データサイエンティストの仕事は、幅広いデータセットの隠れた傾向とパターンを探すことを彼らに要求します。 そのために、ユーザーフレンドリーな視覚化ツール、セルフサービスの検索駆動型ビジネスインテリジェンスツール、インタラクティブなデータ探索ツール、または統計的な習熟をあまり必要としない単純なツールを使用できます。 さらに、世界中の多くのビジネスアナリストは、主要なスプレッドシートアプリケーションの機能をモデル化することからも、深い洞察を見つけることができます。
神話#5:データサイエンスとは、データをHadoopクラスターにフィードし、MapReduceを使用することです。 単純!
人々が神話を広める前に探検しようとしたら、私たちはここにいないでしょう。 データサイエンティストと話をすると、HadoopやMapReduceよりもデータサイエンスと分析の方がはるかに多いことに気付くでしょう。 これら2つは、多くのツールのうちの2つにすぎません。 多くの場合、成功するデータサイエンスプロジェクトでは、さまざまな段階で一連のツールが使用されます。 したがって、データサイエンティストは、このドメインで行われている主要な技術的進歩に加えて、必要なときにいつでもツールやテクノロジーに適切に切り替えることが期待されます。 データサイエンスに関して言えば、1つの靴ですべてに対応できるわけではなく、データサイエンスの精神を人間に語らせる魔法のウィジャボードはありません。
データサイエンスをマスターするためのトップステップ、私がそれらを試したことを信じてください視野を広げて楽しんでいただければ幸いです。 私たちに固執します。 私たちはもっとそのような怪しい伝説で戻ってきます。
博士号ですデータサイエンティストになることは必須ですか?
これをよりよく理解するために、データサイエンティストの役割を2つの領域に分けてみましょう。
1.応用データサイエンスの役割-現在のアルゴリズムを使用し、それらがどのように機能するかを理解することが、応用データサイエンスの主な焦点です。 言い換えれば、これらのメソッドをプロジェクトに組み込むことがすべてです。 データサイエンスのキャリアに関連する大多数の人々は、このカテゴリに分類されます。 ほとんどの求人と職務記述書は、この役割でよく見られます。
2.研究の役割–研究の役割に興味がある場合は、博士号が必要になる場合があります。 データサイエンスにおける研究の役割には、新しいアルゴリズムのゼロからの作成、それらの研究、科学論文の執筆などが含まれます。
人工知能は近い将来、データサイエンティストに取って代わるのでしょうか?
データサイエンスの進化において、人工知能は最終的にデータサイエンティストが手動で実行する操作に取って代わると言っても過言ではありません。 ただし、コンピューターは、データをクリーンアップするか、効率的なモデルを開発するか、モデルの正確性に取り組むかなどを自分で決定することはできません。 これらの選択は、必要な資格を持っている人によって行われます。 データサイエンティストの必要性を減らすことを期待して、より高度なアルゴリズムを開発するためのイニシアチブが試みられているとしても、これがすぐに発生する可能性は低いです。 最先端のアルゴリズムを使用しても、企業を機能させ続けるには、適切な判断力とドメイン知識を持った人が必要です。
データサイエンスツールを習得するだけでデータサイエンティストになることはできますか?
統計ツールとライブラリの使用方法を知っていると、データ科学者としての資格があるというのはよくある誤解です。 これらのツールを使用すると、ツールをよりよく理解するのに役立ちますが、データサイエンスは、さまざまな能力を組み合わせたスキルセットです。 それに付随するツールについて学ぶことは、プロセスの1つの側面にすぎません。 PythonやRのようなツールを知っていることに加えて、問題解決のようなスキル、概念の完全な理解、およびビジネス上の問題に必要な正しいアプリケーションに関する情報も習得するために不可欠です。