ビッグデータエンジニア:神話と現実
公開: 2018-05-07組織に存在するデータは、1分ごとに増加しています。 このデータはさまざまな形式、サイズ、タイプであるため、効率的に分析することはもちろん、調査することも非常に困難です。 それを支援するために、ビッグデータエンジニアがいます! これらは、役に立たないビッグデータを有用なビッグデータに変換し、データサイエンティストがさらに調査および分析できるようにする責任がある人々です。
ビッグデータエンジニアは、データサイエンティストとエンジニアのミックスと正しく呼ぶことができます。 デフォルトでビッグデータを扱う組織には、ビッグデータエンジニアが必要です。
通常、ビッグデータエンジニアの役割では、次のスキルの1つ(または複数)を実行する必要があります。
目次
データ分析
- Hadoop、MapReduce、IBM Biginsights、Hortonworks、およびMapRは、ビッグデータエンジニアがデータ分析を実行するためのコマンドを持っていると期待されるツールの一部です。 ほとんどのエンジニアはMapReduceだけを使用した経験がある傾向がありますが(最も古いため、他のエンジニアはまったく新しいため)、基盤となるアルゴリズムにより、新しいテクノロジーをすばやく効率的に学ぶことが容易になります。
- データマイニングは、データ分析の重要な側面の1つです。 ビッグデータエンジニアは、データマイニングに関連する仕事を遂行するためにMahoutのようなテクノロジーに取り組んでいます。 ビッグデータエンジニアの最初の責任は、データをクリーンアップする前であっても、データを探すことです。 したがって、Mahoutまたはその他のデータマイニングツールに習熟している必要があります。
- 統計分析も重要な役割を果たしており、ビッグデータエンジニアはR、SPSS、SAS、MATLABなどをある程度指揮することが期待されています。
- ビッグデータエンジニアは、一日の終わりにエンジニアです。 彼らはプログラミングの基礎に精通している必要があります。 強力なプログラミングスキルのほとんどは、アルゴリズムのカスタム/特殊な実装にのみ必要になります。
データウェアハウジング
- データウェアハウジングとは、データをウェアハウスに吊り上げることです。 そのため、ビッグデータエンジニアは、MySQL、MS SQL Server、Oracle、または任意のリレーショナルデータベースのいずれかの実用的な知識を持っていることが期待されます。 これらのツールを使用すると、著名なビッグデータエンジニアは、組織に存在するリレーショナルデータにシームレスに取り組むことができます。
- 現在、すべてのデータが構造化されてリレーショナルになっているわけではありません。 これらの組織のデータのほとんどは非リレーショナルです。 したがって、NoSQL、HBase、HDFS、Cassandra、CouchDBなどの非リレーショナルデータベースの知識も、ビッグデータエンジニアにとって非常に役立ちます。
データ収集
- データ収集は、ビッグデータエンジニアのコアタスクの1つを形成します。 たとえば、データAPIを使用する必要があります。 データウェアハウスからデータをフェッチするためのRESTfulインターフェース。 このためには、スクリプト言語を実際に使用する必要があります。
- さらに、ビッグデータエンジニアはSQLとデータモデリングの専門家である必要があります。 これは、データを収集するときに非常に便利です。 データモデリングにより、ビッグデータエンジニアはデータとその相互依存性を明確に把握できます。
データの変換とクリーニング
- データが収集されたら、ビッグデータエンジニアの主な責任は、データをデータサイエンティストに適した形式に変換することです。 そのために、Informatica、DataStage、Redpoint、SSISなどのさまざまなETLツールが用意されています。 これらのツールのいずれかに習熟していると、ビッグデータエンジニアは以前に収集したデータを効率的に変換できます。
- データが変換されると、すべての異常と不整合が取り除かれます。 このデータはデータサイエンティストによってさらに分析され、彼の分析は彼が取得したデータと同じくらい良いものになるため、重要です。
ビッグデータエンジニアリングは比較的新しい分野であり、日々機会が増えています。 ビッグデータエンジニアは、前に説明したスキルのマスターです。 ただし、すべてのビッグデータエンジニアがこれらのスキルをすべて知っているわけではありません。 役割はそれぞれ異なるため、これらの分野の1つで他の分野よりも専門的な知識が必要になる場合があります。 ただし、これらのスキルの1つに精通している場合、通常、これらのスキルを他の分野に翻訳することはそれほど難しくありません。 今、私たちはビッグデータエンジニアの責任とタスクに関して同じページにいます。

さらに一歩進んで、彼らの生活、仕事、資格についてのいくつかの一般的な神話を打ち破りましょう。
神話#1:データサイエンティストとビッグデータエンジニアの通常の日には大きな違いはありません。
あなたが私たちのシリーズをフォローしているなら、あなたはもっとよく知っているでしょう。 データサイエンティストとは、データの傾向、意味、パターンを探し、組織の機能を向上させる実用的な洞察を作成しようとする人のことです。 一方、ビッグデータエンジニアは、明らかに、分析される前にデータを処理します。 彼は、データをクリーンアップし、データサイエンティストに可能な限り純粋な形式で提示する責任があります。

神話#2:ビッグデータエンジニアはデータサイエンティストよりもはるかに価値があります(またはその逆)。
これらの職務は両方とも、組織が機能するために独自の重要性を持っています。 効率的なビッグデータエンジニアがいなければ、データサイエンティストは良い結果を出すのに苦労するでしょう。 同様に、専門家のデータサイエンティストがいなければ、組織はデータをどのように作成するかを知ることはできません。 したがって、これらの役割を重要性に基づいて順序付けることはできません。結局のところ、これらのプロファイルは両方とも、成功するデータサイエンスチームの柱を形成しているからです。
ポップカルチャーにおけるビッグデータアプリケーション神話#3:ビッグデータエンジニアは大企業でのみ必要です。
先に述べたように、組織がビッグデータを扱う場合は、ビッグデータエンジニアが必要です。 今日、どの組織にも、規模の大小にかかわらず、テラバイト単位の顧客データがあります。 ドメインに関係なく、ビッグデータを理解して機能を向上させることができない企業はありません。 ビッグデータを取り巻くツールとテクノロジーがより安価でアクセスしやすくなるにつれて、ますます多くの中小企業がビッグデータルートを採用し、ビッグデータエンジニアと科学者を任命して時代の先を行く手助けをしています。

神話#4:ビッグデータエンジニアはエキスパートプログラマーである必要があります。
ビッグデータエンジニアは、コアプログラミング以上に、データ管理の専門家である必要があります。 多くの場合、ビッグデータエンジニアは自分のケースに合ったライブラリまたはフレームワークを使用しています。 これらは既製であり、手間のかかるプログラミングのほとんどを実行します。 それでも、ビッグデータエンジニアがプログラミングの基礎を明確に理解していることをお勧めします。 これは、特定のユースケースに応じて、アルゴリズム/フレームワーク/ライブラリを微調整/変更するのに役立ちます。 また、これらのビッグデータエンジニアは、ウェアハウスからデータを取得し、スクリプトを作成する必要があるデータをクリーンアップする責任があるため、スクリプト言語に関するある程度の知識が必要です。
神話#5:ビッグデータエンジニアはテクノロジー企業にのみ必要です
今日、組織は顧客をより的確にターゲティングすることを含め、あらゆることにデータを使用しています。 顧客データへの詳細な洞察により、どの組織でも成功するマーケティングキャンペーンを展開できます。 ビッグデータエンジニアは、技術者と非技術者の両方の組織に必要です。 適切なデータにアクセスできれば、ほぼすべての組織が仕事をより効率的に行えるようになります。
ビッグデータ:ツールとテクノロジーを知っている必要があります
まとめ
これで、今日の怪しい伝説は終わりを告げます。 しばらくお待ちください。このような怪しい伝説がさらに登場します。 破壊する必要のあるそのような神話に出くわしたことがあれば、私たちに知らせてください!
ビッグデータについて詳しく知りたい場合は、ビッグデータプログラムのソフトウェア開発スペシャライゼーションのPGディプロマをチェックしてください。このプログラムは、働く専門家向けに設計されており、7つ以上のケーススタディとプロジェクトを提供し、14のプログラミング言語とツール、実践的なハンズオンをカバーしています。ワークショップ、トップ企業との400時間以上の厳格な学習と就職支援。
世界のトップ大学からオンラインでソフトウェア開発コースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。
