初心者および経験者向けのトップ28データエンジニアインタビューの質問と回答
公開: 2020-03-11面接の準備をしていますが、どうすればいいのかわかりませんか? データエンジニアの面接の質問と回答のリストから始めることができます。
データエンジニアのインタビューは、クラックするのが最も難しいものの1つです。 知っておくべきことがたくさんあります。 しかし、心配しないでください。面接の質問のリストがこの点で役立ちます。 このリストを確認すると、採用担当者が尋ねる可能性のある多くの重要な質問に対する回答がわかります。 また、このリストは、面接の準備中に何を学び、学ぶべきかについてのアイデアを提供します。
始めましょう。
トップデータエンジニアインタビューの質問と回答
Q.1 –データエンジニアリングとは何ですか?
データエンジニアリングは、情報システムを開発および設計するためのソフトウェアエンジニアリングアプローチです。 データの収集と分析に焦点を当てています。 データサイエンティストはビッグデータを使用してさまざまなタスクを実行しますが、誰かが前にこのデータをすべて収集する必要があり、データエンジニアがそのタスクを実行します。 データエンジニアは、データベースの開発と保守にも責任があります。 データエンジニアは、生データを使用可能なデータに変換します。
Q.2 –データモデリングで何を理解していますか?
情報システムのデータを追跡できるように情報システムのデータモデルを作成する場合、それはデータモデリングと呼ばれます。 これらのデータモデルは、DB(データベース)のテーブルになります。 たとえば、顧客の行動を分析する場合、データベース内のすべての顧客がデータモデルになります。 これは、ルールに関連付けられたデータ値の概念的な表現です。
Q.3 – Hadoopとは何ですか?
Hadoopは、ビッグデータに関連する問題を解決するために複数のコンピューターのネットワークを使用できるようにするユーティリティのオープンソースソフトウェアコレクションです。 大量のデータを処理できるさまざまなコンポーネントがあります。 Hadoopの開発者はApacheファウンデーションです。 ユーティリティとコンポーネントの豊富なコレクションにより、多くの強力なビッグデータアプリケーションを効率的に実行できます。
Q.4 – Hadoopのさまざまなコンポーネントは何ですか?
Hadoopは主に4つのコンポーネントで構成されており、HDFS、MapReduce、YARN、およびHadoopCommonです。
HDFSは、Hadoopのすべてのデータを保存するファイルシステムです。 分散ストレージシステムとして高帯域幅を備えています。
MapReduceは大量のデータを処理します。 YARNはHadoopのリソース管理であり、それに応じて必要なリソースを割り当てます。 Hadoop Commonは、Hadoopで使用できるライブラリとユーティリティのグループです。
Q.5 – HDFSは何の略ですか?
HDFSはHadoopコンポーネントです。 HDFSはHadoop分散ファイルシステムの略です。
Q.6 – NameNodeとは何ですか?
NameNodeは、HDFSのデータストレージの一部であり、クラスターに存在するさまざまなファイルを追跡します。 NameNodeはデータを保存しません。 これらは、HDFSが実際のデータを格納するDataNodeのメタデータを格納します。
Q.7 –非構造化データと構造化データの違いは何ですか?
システムは非構造化データを非管理ファイル構造に格納しますが、構造化データのストレージはDBMSです。 構造化データのスキーマスケーリングは困難ですが、非構造化データを使用するのは非常に簡単です。 構造化データにはELT(抽出、変換、および読み込み)を使用します。 一方、バッチ処理またはデータ入力を実行する必要があります。
Q.8 –データモデリングには何種類の設計スキーマがありますか? 彼らは何ですか?
データモデリングには、スノーフレークスキーマとスタースキーマの2種類の設計スキーマがあります。
Q.9 –ブロックスキャナーが破損したデータブロックを検出するとどうなりますか? 説明。
これは、人気のあるデータエンジニアのインタビューの質問の1つです。 したがって、ブロックスキャナーが破損したデータブロックを検出する前に、必ず準備してください。DataNodeはそれをNameNodeに報告します。 次に、NameNodeは、既存のモデルの1つを使用して、破損したブロックのレプリカの作成を開始します。 システムが破損したデータブロックを削除しない場合、レプリケーションファクターと同じ数のレプリカが作成されます。 レプリケーション数は同じものと一致する必要があります。
Q.10 –Hadoopに存在するすべてのXML構成ファイルに名前を付けます。
Hadoopに存在するXML構成ファイルは、HDFSサイト、Mapredサイト、Yarnサイト、およびCoreサイトです。
Q.11 – HDFSのブロックとは何ですか? ブロックスキャナーとは何ですか?
Hadoopでは、ブロックはデータの最小単位です。 ブロックスキャナーは、DataNodeに存在するブロックをチェックおよび検証するコンポーネントです。 Hadoopは、保存を容易にするために、大きなデータファイルを小さなデータブロックに分割します。
Q.12- DataNodeはNameNodeにどのようなメッセージを送信しますか?
DataNodeはNameNodeにシグナルを送信して、それらが機能していることを通知します。 これらの信号の名前はハートビートです。 また、DataNodeがハートビートの送信に失敗した場合、NameNodeは、DataNodeが停止し、動作を停止したと判断します。
Q.13 –ビッグデータの中心的なVを述べてください。
ビッグデータの4つの中心的なVは、Velocity、Variety、Volume、およびVeracityです。
Q.14 – COSHHとはどういう意味ですか?
COSHHは、異種Hadoopシステムの分類と最適化に基づくスケジュールの略です。
Q.15 –スタースキーマについて説明してください。
スタースキーマは、スターに似た構造を持っています。 それがその名前の理由です。 星の中心には、さまざまなディメンションテーブルが関連付けられたファクトテーブルがあります。 データエンジニアはこれを使用して、実質的なデータセットをクエリします。
Q.16 –スノーフレークスキーマとは何ですか?
スノーフレークスキーマは、スタースキーマの一種です。 唯一の違いは、追加の寸法があり、その名前はスノーフレークのような構造に由来していることです。 正規化されたディメンションテーブルがあるため、他のテーブルがあります。
Q.17- Hadoopのレデューサーのコアメソッドは何ですか?
Reducerにはいくつかのコアメソッドがあります。 1つ目は、パラメーターを構成するsetup()であり、cleanup()は一時データセットをクリーンアップし、Reducerはreduce()メソッドをすべてのreducedタスクで実行します。

Q.18 – FSCKとは何ですか?
FSCKはファイルシステムチェックの略です。 これはHDFSのコマンドであり、このコマンドを使用してファイル内の問題や不整合を検出します。
Q.19 – Hadoopには複数のモードがありますか? もしそうなら、彼らは何ですか?
はい、Hadoopには3つの異なるモードがあります。 それらは、スタンドアロンモード、完全分散モード、および疑似分散モードです。
Q.20 – YARNは何の略ですか?
YARNはYetAnotherResourceNegotiatorの略です。
Q.21 – Hadoopをどのように保護しますか?
この目的のために、最初に保存時と転送中に暗号化を有効にします。 Hadoopで使用するプロトコルの安全なバージョンを使用する必要があります。 SASLがRPCデータを保護できるようにします。 SASLは、hadoop.rpc.protectionプロパティを介して有効にできます。
認証チャネルも保護します。 クライアントは、認証チャネルのタイムスタンプを使用してサービスチケットを取得できます。これを使用して、自己認証を行うことができます。
Q.22 – HDFS(Hadoop分散ファイルシステム)について詳しく教えてください。
Hadoopは、FS、HFTP、S3などの分散ファイルシステムを操作できます。 GoogleファイルシステムはHDFSの基盤であり、小規模なシステムの大規模なクラスターで実行できます。
Q.23 –スノーフレークとスタースキーマの違いは何ですか?
スタースキーマでは、データが冗長になる可能性が高くなりますが、スノーフレークスキーマの場合はそうではありません。 スタースキーマのDB設計は、スノーフレークよりも簡単です。 Snowflakeスキーマの複雑な結合により、キューブ処理が遅くなります。これは、Starスキーマでは発生しません。
Q.24 – Hadoopのハートビートとは何ですか?
Hadoopには、NameNodeとDataNodeの2種類のノードがあります。 NameNodeは、DataNodeのメタデータを保存し、それらのステータスを追跡する責任があります。 DataNodeは、NameNodeにシグナルを送信して、それらが生きていて機能していることを通知します。 この信号がハートビートです。
Q.25 –ビッグデータで何を理解していますか?
従来の方法では処理できない非構造化データと構造化データが大量にある場合、それはビッグデータと呼ばれます。 ビッグデータは、情報を収集するための非常に複雑なデータセットを分析および使用する分野です。 従来のデータ分析方法は、このような大量の複雑なデータではうまく機能しません。 ビッグデータでは、データエンジニアは生データを分析し、それを使用可能なデータに変換するタスクを担っています。
Q.26 –データエンジニアはどのような主題とプログラミング言語を知っておくべきですか?
データエンジニアは、傾向分析、機械学習、SQL、Hive QL、確率、回帰、線形代数を知っている必要があります。 データエンジニアは他の多くの主題を知ることができますが、これらは必須です。
Q.27 – HadoopのDASとNASの違いは何ですか?
これは、最も人気のあるデータエンジニアのインタビューの質問の1つなので、その回答に特に注意してください。 DASはDirectAttachedStorageの略で、NASはNetworkAttachedStorageの略です。 NASのストレージ容量はバイト単位で10^9から10^12です。 一方、DASのストレージ容量は10^9バイトです。 NASの管理コストもDASよりはるかに安いです。
Q.28 – Hadoopのノード間の距離とはどういう意味ですか? どのように計算しますか?
Hadoopでは、2つのノード間の距離は、最も近いノードまでの長さの合計に等しくなります。 getDistance()を使用して、Hadoop内の2つのノード間の距離を見つけることができます。
世界のトップ大学からデータサイエンスコースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。
結論
これらの面接の質問の助けを借りて、私たちはあなたが非常に簡単に準備することを確信しています。 データエンジニアリングのインタビューは、ストレスを感じる必要はありません。 会議の前に十分な睡眠をとることを確認してください。多くの人が不安になりすぎます。
また、データエンジニアリングやインタビューに関するご質問がございましたら、お気軽にお問い合わせください。 私たちはあなたを助けたいです。
データエンジニアのタスクと責任は何ですか?
データエンジニアの主な責任は、分析または運用の目的でデータを準備することです。 IT業界の一部として、これらのエンジニアは、複数のソースシステムからのデータを接続するデータパイプラインを作成します。 分析アプリケーションで使用するためにデータを構造化する前に、データを結合、統合、および精製します。 企業のほとんどの分析チームは、データをよりアクセスしやすくし、企業のビッグデータ環境を最大化するデータエンジニアとデータサイエンティストで構成されています。 エンジニアは、データサイエンティストに使用可能な形式でデータを提供します。データサイエンティストは、その情報を使用して、予測分析、機械学習、データマイニングアプリケーションのクエリとアルゴリズムを実行します。
データエンジニアとして働くために必要なスキルは何ですか?
データベースシステムの開発と管理に関する知識は、データエンジニアにとって必須です。 SQL、Python、Rなどのプログラミング言語に堪能であり、機械学習とアルゴリズムの基本を理解している必要があります。 データエンジニアは、ウェアハウジングソリューションとETL(抽出、転送、読み込み)ツールについても知っておく必要があります。 データサイエンスは非常に協力的な分野であり、データエンジニアは、データアナリストから最高技術責任者に至るまで、さまざまな利害関係者と協力しています。 したがって、優れたコミュニケーションスキルや高度な協力スキルなどのソフトスキルは、すべてのデータエンジニアのスキルセットの一部である必要があります。
データエンジニアリングは良いキャリアパスですか? データエンジニアは平均していくら稼ぎますか?
Dice 2020 Tech Job Reportによると、データエンジニアリングは、2019年にテクノロジーで最も急速に成長しているキャリアオプションであり、利用可能な機会の数は前年比で50%増加しています。 それは技術の世界で重要性を増しており、情報管理の需要が高まるにつれて、有利なキャリアオプションになりました。 エントリーレベルの給与は4,57,532ポンドで、データエンジニアの賃金は経験年数の増加とともに上昇します。 1〜4年の経験を持つデータエンジニアの平均給与は7,20,395ポンドですが、5〜9年の経験を持つ中堅のデータエンジニアと10〜19年の経験を持つ経験豊富なデータエンジニアの平均総収入は7,20ポンドです。それぞれ12,94,336ポンドと18,67,992ポンド。