20データマイニングインタビューの質問

公開: 2020-02-10

これは、AIとMLに十分な職務範囲があることを意味し、データマイニングは両方の不可欠な部分であるため、データマイニングの強固な基盤を構築する必要があります。データマイニングとは、生データを企業や組織が使用できる意味のある洞察に変換するために使用される手法を指します。データマイニングの基本的な側面には、データとデータベースの管理、データの前処理、データの検証、オンライン更新、複雑なデータセット内に隠された貴重なパターンの発見などがあります。基本的に、データマイニングは、大量のデータの自動分析に焦点を当てて、そこから隠れた傾向と洞察を抽出します。これがまさに、AI / MLで夢の仕事を始めたい場合に、面接官があなたの前に置くデータマイニングの質問に答える準備ができている必要がある理由です。

世界のトップ大学からデータサイエンス認定コースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

この投稿では、データマイニングの面接で最もよく寄せられる質問のリストをまとめました。これは、すべてのAI / ML志願者が知っておく必要のあるすべてのレベルのデータマイニングインタビューの質問と概念（基本レベルと上級レベルの両方）をカバーしています。

だから、さらに遅れることなく、すぐに始めましょう！

さまざまなデータマイニング手法に名前を付け、データマイニングの範囲を説明します。

さまざまなデータマイニング手法は次のとおりです。

予測–独立したインスタンスと依存したインスタンスの間の関係を発見します。たとえば、販売データを検討するときに、将来の利益を予測する場合、販売は独立したインスタンスとして機能しますが、利益は依存するインスタンスとして機能します。したがって、売上高と利益の履歴データに基づいて、関連する利益が予測値になります。
デシジョンツリー–デシジョンツリーのルートは、複数の回答を持つ条件/質問として機能します。各回答は、データに基づいて最終決定を決定するのに役立つ特定のデータにつながります。
シーケンシャルパターン–トランザクションデータまたは通常のイベントで同一のパターンを検出するために使用されるパターン分析を指します。たとえば、顧客の履歴データは、ブランドが過去1年間に発生したトランザクションのパターンを特定するのに役立ちます。
クラスタリング分析–この手法では、同様の特性を持つオブジェクトのクラスターが自動的に形成されます。クラスタリングメソッドは、クラスを定義してから、各クラスに適切なオブジェクトを配置します。
分類分析–このMLベースの方法では、特定のセットの各アイテムが事前定義されたグループに分類されます。線形計画法、ニューラルネットワーク、決定木などの高度な手法を使用します。
相関ルール学習–このメソッドは、単一のトランザクション内のアイテムの関係に基づいてパターンを作成します。

データマイニングの範囲は次のとおりです。

傾向と行動の予測–データマイニングは、大規模なデータセット/データベース内の予測情報を特定するプロセスを自動化します。
これまで知られていなかったパターンを発見する–データマイニングツールは、これまで隠されていた傾向を特定するために、多種多様なデータベースをスイープしてスクレイプします。これはパターン発見プロセスに他なりません。

データマイニングの種類は何ですか？

データマイニングは、次のタイプに分類できます。

統合
選択
データクリーニング
パターン評価
データ変換
知識表現

データパージとは何ですか？

データのパージは、データベース管理システムの重要な手順です。これは、データベース内の関連データを維持するのに役立ちます。これは、行と列の不要なNULL値を削除または削除することによってジャンクデータをクリーンアップするプロセスを指します。データベースに新しいデータをロードする必要があるときはいつでも、最初に、無関係なデータをパージすることが不可欠です。

データベースのデータパージを頻繁に行うと、大量のデータベースメモリを消費するジャンクデータを取り除くことができるため、データベースのパフォーマンスが低下します。

データウェアハウスとデータマイニングの根本的な違いは何ですか？

データウェアハウジングは、異なるソースからデータを抽出するために使用される手法です。その後、将来の使用のために洗浄および保管されます。一方、データマイニングは、クエリを使用して抽出されたデータを探索し、結果または結果を分析するプロセスです。これは、レポート、戦略計画、およびデータ内の貴重な洞察の視覚化に不可欠です。

データマイニングのさまざまな段階を説明します。

データマイニングには、主に3つの段階があります。

探索–この段階は、主に複数のソースからデータを収集し、クリーニングや変換などのさらなるアクティビティに備えてデータを準備することに重点を置いています。データがクリーンアップされて変換されると、洞察を得るために分析できます。

モデルの構築と検証–この段階では、さまざまなモデルをデータに適用し、結果を比較して最高のパフォーマンスを実現することにより、データを検証します。このステップは、パターン識別とも呼ばれます。ユーザーは、簡単な予測に最適なパターンを手動で特定する必要があるため、これは時間のかかるプロセスです。

展開–予測に最適なパターンが特定されると、推定された予測または結果を取得するためにデータセットに適用されます。

データマイニングクエリの用途は何ですか？

データマイニングクエリは、単一または複数の結果を作成するために、新しいデータへのモデルの適用を容易にするのに役立ちます。クエリは、特定のパターンに適合するケースをより効果的に取得できます。それらはトレーニングデータの統計的記憶を抽出し、モデルのパターンを表す典型的なケースのルールとともに正確なパターンを取得するのに役立ちます。さらに、クエリは回帰式やその他の計算を抽出してパターンを説明できます。また、モデルで使用されている個々のケースに関する詳細を取得することもできます。

データマイニングの「離散」および「連続」データとは何ですか？

データマイニングでは、離散データは有限であり、それに付随する意味を持つデータです。性別は、離散データの典型的な例です。一方、連続データは、適切に構造化された方法で変化し続けるデータです。年齢は、連続データの完璧な例です。

OLAPとは何ですか？ OLTPとの違いは何ですか？

OLAP（Online Analytical Processing）は、複雑な分析計算を伴う多くのビジネスインテリジェンスアプリケーションで使用されるテクノロジです。複雑な計算とは別に、OLAPは傾向分析と高度なデータモデリングに使用されます。 OLAPシステムを使用する主な目的は、クエリの応答時間を最小限に抑えると同時に、レポートの有効性を高めることです。 OLAPデータベースは、集約された履歴データを多次元スキーマに格納します。多次元データベースであるOLAPを使用すると、ユーザーはデータがさまざまなソースからどのように送信されているかを理解できます。

OLTPは、Online TransactionandProcessingの略です。バルクトランザクションと大量のデータを含むアプリケーションで使用されるため、OLAPとは本質的に異なります。これらのアプリケーションは、主にBFSIセクターで見られます。 OLTPアーキテクチャは、クロスネットワークトランザクションをサポートできるクライアントサーバーアーキテクチャです。

OLAPで使用できるさまざまなストレージモデルに名前を付けますか？

OLAPで使用できるさまざまなストレージモデルは次のとおりです。

MOLAP（多次元オンライン分析処理）–これは、データが標準のリレーショナルデータベースではなく多次元キューブに格納されるタイプのデータストレージです。クエリのパフォーマンスを向上させるのはこの機能です。
ROLAP（Relational Online Analytical Processing）–このデータストレージでは、データはリレーショナルデータベースに保存されるため、膨大な量のデータを処理できます。
HOLAP（Hybrid Online Analytical Processing）–これはMOLAPとROLAPの組み合わせです。 HOLAPはMOLAPモデルを使用してキューブから要約情報を抽出しますが、ドリルダウン機能の場合はROLAPモデルを使用します。

「キューブ」とは？

データマイニングでは、「キューブ」という用語は、データが保存されるデータストレージスペースを指します。キューブにデータを保存すると、データ分析のプロセスを迅速化するのに役立ちます。基本的に、キューブは多次元データの論理表現です。キューブのエッジにはディメンションメンバーがありますが、キューブの本体にはデータ値が含まれています。

会社が従業員データ（レコード）をキューブに格納していると仮定します。週単位または月単位で従業員のパフォーマンスを評価する場合は、週/月がキューブのディメンションになります。

データの集約と一般化とは何ですか？

データ集約は、データを結合または集約して、データ分析用のキューブを作成するプロセスです。一般化とは、データを一般化して意味のある洞察を生み出すことができるように、低レベルのデータを高レベルの概念に置き換えるプロセスです。

デシジョンツリーと時系列アルゴリズムについて説明します。

デシジョンツリーアルゴリズムでは、各ノードはリーフノードまたはデシジョンノードのいずれかです。アルゴリズムにオブジェクトを入力するたびに、決定が生成されます。デシジョンツリーは、データの規則性を使用して作成されます。ルートノードをリーフノードに接続するすべてのパスは、「AND」または「OR」または「BOTH」を使用して到達します。デシジョンツリーは自動データ準備の影響を受けないことに注意することが重要です。

時系列アルゴリズムは、値が時間（たとえば、人の年齢）に基づいて継続的に変化し続けるデータ型に使用されます。アルゴリズムをトレーニングし、データセットを予測するように調整すると、連続データを正常に追跡し、正確な予測を行うことができます。時系列アルゴリズムは、元のデータセットに基づいてデータの将来の傾向を予測できる特定のモデルを作成します。

クラスタリングとは何ですか？

データマイニングでは、クラスタリングは、抽象オブジェクトを類似のオブジェクトを含むクラスにグループ化するために使用されるプロセスです。ここでは、データオブジェクトのクラスターが1つのグループとして扱われます。したがって、分析プロセス中に、データパーティションはグループで発生し、グループは同一のデータに基づいてラベル付けされます。クラスター分析は、拡張性と次元性が高く、さまざまな属性、解釈可能性、および乱雑なデータを処理できるため、データマイニングにとって極めて重要です。

データクラスタリングは、画像処理、パターン認識、不正検出、市場調査など、いくつかのアプリケーションで使用されています。

データマイニング中に直面する一般的な問題は何ですか？

データマイニングプロセス中に、次の問題が発生する可能性があります。

不確実性の処理
欠測値の処理
ノイズの多いデータの処理
アルゴリズムの効率
ドメイン知識を組み込む
データのサイズと複雑さ
データの選択
データと発見された知識の間の矛盾。

構文を指定します–興味深い測定値の仕様、パターンの表示と視覚化の仕様、およびタスク関連のデータの仕様。

InterestingnessMeasuresSpecificationの構文は次のとおりです。

<interest_measure_name>のしきい値=threshold_value

パターンの表示と視覚化の仕様の構文は次のとおりです。

<result_form>として表示

タスク関連データ仕様の構文は次のとおりです。

データベースdatabase_nameを使用する

また

データウェアハウスを使用するdata_warehouse_name

att_or_dim_listに関連して

関係/キューブから[条件]order_listによる注文

grouping_listでグループ化

データマイニングのさまざまなレベルの分析に名前を付けますか？

データマイニングのさまざまなレベルの分析は次のとおりです。

ルールの導入
データの視覚化
遺伝的アルゴリズム
人工ニューラルネットワーク
最近傍法

STINGとは何ですか？

STINGはStatisticalInformationGridの略です。これは、すべてのオブジェクトが長方形のセルに含まれるグリッドベースの多重解像度クラスタリング手法です。セルはさまざまなレベルの解像度に保たれますが、これらのレベルはさらに階層構造で配置されます。

ETLとは何ですか？ 最高のETLツールをいくつか挙げてください。

ETLは、Extract、Transform、Loadの略です。これは、指定されたデータソースからデータを読み取り、必要なデータのサブセットを抽出できるソフトウェアです。この後、ルールとルックアップテーブルを使用してデータを変換し、目的の形式に変換します。最後に、load関数を使用して、結果のデータをターゲットデータベースにロードします。

最高のETLツールは次のとおりです。

オラクル
Ab Initio
データステージ
Informatica
データジャンクション
倉庫ビルダー

メタデータとは何ですか？

簡単に言うと、メタデータは、より大きなデータセットにつながる要約データです。メタデータには、使用される列の数、フィールドの順序、フィールドのデータ型、固定幅と制限された幅などの重要な情報が含まれています。

データマイニングの利点は何ですか？

データマイニングには、次の4つの主要な利点があります。

これは、生データを理解し、データ内に隠されたパターンを調査、識別、および理解するのに役立ちます。
大規模なデータベースで予測情報を見つけるプロセスを自動化するのに役立ち、それによって以前は隠されていたパターンを迅速に特定するのに役立ちます。
データをスクリーニングおよび検証し、データがどこから来ているのかを理解するのに役立ちます。
これは、より迅速でより良い意思決定を促進し、それによって企業が収益を増やし、運用コストを下げるために必要な行動を取るのを助けます。

これらが、データマイニングが、マーケティング、広告、IT / ITES、ビジネスインテリジェンス、さらには政府のインテリジェンスを含む多くの業界の不可欠な部分となった理由です。

これらのデータマイニングのインタビューの質問とその回答が、データマイニングの氷を壊すのに役立つことを願っています。これらはあなたが知っておくべきいくつかの基本的なレベルの質問ですが、それらはあなたが流れに入り、主題をより深く掘り下げるのを助けるでしょう。

データサイエンスについて知りたい場合は、IIIT-B＆upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

デシジョンツリーアルゴリズムを使用することの欠点は何ですか？

データにわずかな変更を加えただけでも、決定木の構造に大きな変化が生じ、不安定になる可能性があります。他のアルゴリズムと比較すると、決定木の計算はかなり複雑な場合があります。デシジョンツリーのトレーニングは、複雑さと時間がかかるため、比較的費用がかかります。回帰の適用と連続値の予測に関しては、ディシジョンツリー手法は失敗します。

データマイニングのクラスタリングと分類の違いは何ですか？

クラスタリングは教師なし学習の手法ですが、分類は教師あり学習の方法です。クラスタリングは、共通性に基づいてデータポイントをクラスターにグループ化するプロセスです。分類には、出力変数のクラスラベルの1つで入力データにラベルを付けることが含まれます。クラスタリングはデータセットをサブグループに分割し、同様の機能を持つ例をグループ化できるようにします。ラベル付けされたデータやトレーニングセットが機能することに依存していません。一方、分類は、トレーニングセットからの観測に基づいて新しいデータを分類します。

データマイニングのデメリットはありますか？

データマイニングを使用すると、多くのプライバシーの問題が発生します。データマイニングが独自の方法で単純なデータ収集への道を開いたという事実にもかかわらず。精度に関しては、まだ一定の限界があります。得られたデータが正しくない可能性があり、意思決定に問題が生じます。データマイニングのデータ収集手順では、多くのテクノロジーが使用されます。作成されるすべてのデータには、独自のストレージと維持が必要です。この結果、実装のコストが急騰する可能性があります。