ロジスティック回帰インタビューの質問と回答[新入生と経験者向け]

公開: 2020-09-24

機械学習、より具体的には分類に関しては、ロジスティック回帰はおそらく最も単純で最も広く使用されているアルゴリズムです。ロジスティック回帰は非常に理解しやすく、実装しやすいため、このアルゴリズムは、初心者や機械学習やデータサイエンスの旅を始めたばかりの人に最適です。

ロジスティック回帰という名前は、回帰を実装するために使用するアルゴリズムのように聞こえるかもしれませんが、真実はそれとはほど遠いものです。ロジスティック回帰は、そのニュアンスのため、実際に回帰タスクを実行するよりも、インスタンスを明確に定義されたクラスに実際に分類するのに適しています。

一言で言えば、このアルゴリズムは線形回帰出力を取り、結果を与える前に活性化関数を適用します。ロジスティック回帰が使用する活性化関数は、シグモイド関数（ロジスティック関数とも呼ばれます）の活性化関数です。シグモイド関数のプロパティに準拠して、連続値を提供する代わりに、0から1の範囲の数値を提供します。しきい値を設定すると、ロジスティック回帰の出力から分類するのが簡単になります。

データサイエンスと機械学習の分野がどのように進化しているかは誰もが知っています。より多くの機会が毎日作成されています。したがって、この競争の激しい世界では、正しい知識を持っていることを確認することが、夢の会社での適切な配置を確保するための鍵となります。この取り組みを支援するために、ロジスティック回帰の面接の質問のリストを用意しました。これは、プロのデータサイエンティストまたは機械学習の専門家になるための準備に役立ちます。

ロジスティック回帰インタビューの質問と回答

Q1。 TRUEまたはFALSEを使用して回答します。 ロジスティック回帰は、教師あり機械学習アルゴリズムの一種ですか？

回答はい、実際、ロジスティック回帰は教師あり機械学習アルゴリズムであるため、この質問に対する答えはTRUEになります。このアルゴリズムが機能する方法にある単純な理由。ロジスティック回帰から出力を取得するには、最初にデータをフィードする必要があります。

インスタンスから学習して正確な予測を行うには、インスタンスとこれらのインスタンスの正しいラベル付けを提供する必要があります。教師あり機械学習アルゴリズムでは、トレーニングと予測を正常に行うために、ターゲット変数（Y）とクラスインスタンスの両方、または入力情報（X）を提供するために使用される変数が必要になります。

Q2。 TRUEまたはFALSEを使用して回答します。 ロジスティック回帰は主に分類に使用されますか？

回答はい、この質問に対する答えは正しいです。実際、ロジスティック回帰は、実際の回帰を実行するのではなく、主に分類タスクに使用されます。回帰には線形回帰を使用します。両者は類似しているため、混乱しがちです。この間違いをしないでください。ロジスティック回帰では、ロジスティック関数を使用します。これは、分類タスクをはるかに快適にするシグモイド活性化関数に他なりません。

Q3。 TRUEまたはFALSEを使用してこの質問に答えてください。 ロジスティック回帰アルゴリズムの動作を模倣するニューラルネットワークを実装できますか？

回答はい、答えはTRUEになります。ニューラルネットワークは、ユニバーサル近似器としても知られています。これらは、ほとんどすべての機械学習アルゴリズムを模倣するために使用できます。全体像を把握するには、TensorFlow2.0のKerasAPIを使用している場合、シーケンシャルモデルに1つのレイヤーを追加し、このレイヤーをシグモイド活性化関数で作成するだけです。

Q4。 TRUEまたはFALSEを使用してこの質問に答えてください。 ロジスティック回帰を使用して、マルチクラス分類の問題を解決できますか？

回答短い答えはTRUEになります。しかし、長い答えはあなたに少し考えさせるでしょう。単一のロジスティック回帰モデルを使用するだけでマルチクラス分類を実装する方法はありません。ソフトマックスアクティベーション関数を備えたニューラルネットワークを使用するか、複雑な機械学習アルゴリズムを使用して、入力変数の多くのクラスを正常に予測する必要があります。

ただし、ロジスティック回帰を実際に使用してマルチクラス分類問題を解決する方法が1つあります。それは、1対すべてのアプローチを使用することです。 n個の分類器（nはクラスの数）をトレーニングする必要があります。各分類器は1つのクラスのみを予測します。したがって、3クラス分類（A、B、およびCとしましょう）の場合、2つの分類器をトレーニングする必要があります。1つはAではなくAを予測し、もう1つはBではなくBを予測し、最後の分類器です。 CではなくCを予測します。次に、ロジスティック回帰のみを使用してマルチクラス分類を実行できるように、これら3つのモデルすべてからの出力を統合して統合する必要があります。

Q5。 以下のリストからオプションの1つを選択してください。 ロジスティック回帰のアルゴリズムにトレーニングデータを適合させるために使用される基本的な方法は何ですか？

ジャッカード距離
最尤法
最小二乗誤差
上記のオプションはありません。

回答答えはBです。これは線形回帰で使用されるのと同じ方法であるため、最小二乗誤差であるオプションCを選択するのは簡単です。ただし、ロジスティック回帰では、最小二乗近似を使用してトレーニングインスタンスをモデルに適合させません。代わりに最尤法を使用します。

チェックアウト：機械学習プロジェクトのアイデア

Q6。 以下のリストからオプションの1つを選択してください。 ロジスティック回帰モデルの正確さを測定するために使用できないメトリックはどれですか？

受信者動作特性曲線（またはAUC-ROCスコア）の下の領域
対数損失
平均二乗誤差（またはMSE）
正確さ

回答選択する必要のある正しいオプションはC、つまり平均二乗誤差、またはMSEです。ロジスティック回帰アルゴリズムは実際には基本的な回帰アルゴリズムではなく分類アルゴリズムであるため、平均二乗誤差を使用して、作成したロジスティック回帰モデルのパフォーマンスを判断することはできません。主な理由は、モデルから受け取る出力と、クラスインスタンスに意味のある数値を割り当てることができないためです。

Q7。 以下のリストからオプションの1つを選択してください。 AICは、ロジスティック回帰モデルのパフォーマンスを判断するための優れたメトリックです。 AICは、線形回帰アルゴリズムのパフォーマンスを決定するために使用される決定係数法と非常によく似ています。 このAICについて実際に何が真実ですか？

一般的に、AICスコアが低いモデルが推奨されます。
実際には、AICスコアが大きいモデルが好まれます。
AICスコアに基づいてモデルを選択するかどうかは、状況によって大きく異なります。
上記のオプションはありません。

回答AICの値が最も小さいモデルが優先されます。したがって、質問に対する答えはオプションAになります。AICの値が可能な限り低いモデルを選択する主な理由は、モデルのパフォーマンスを調整するために追加されるペナルティが、実際には終わる。はい、AICまたは赤池情報量基準は、値が低いほど適合度が高いメトリックです。

実際には、過適合（選択したモデルはデータに存在する複雑さを見つけるのに十分なほど複雑ではないため、一般化できないことを意味します）でも過剰適合（モデルがトレーニングに完全に適合していることを意味します）でもないモデルを好みます。データとそれはより一般的な予測を行う能力を失っています）。したがって、過適合と過適合の両方を回避するために、適度に低いスコアを選択します。

Q8。 TRUEまたはFALSEを使用して回答します。 データをトレーニングロジスティック回帰モデルにフィードする前に、特徴列に存在する値を標準化する必要がありますか？

回答いいえ、ロジスティック回帰モデルのトレーニングに使用する必要がある特徴空間に存在する値を標準化する必要はありません。したがって、この質問に対する答えはFALSEになります。すべての値を標準化して、アルゴリズムを値に収束させる関数（通常は最急降下法）を支援することを選択します。このアルゴリズムは比較的単純であるため、実際にパフォーマンスに大きな違いをもたらすために、量をスケーリングする必要はありません。

学ぶ：初心者向けに説明された機械学習モデルのトップ5

Q9。 以下のリストからオプションの1つを選択してください。 変数選択のタスクを実行するために使用する手法はどれですか？

リッジ回帰
LASSO回帰
言及されているオプションはありません
LASSOとリッジ回帰の両方

回答この質問に対する答えは、B。LASSO回帰です。理由は単純です。LASSO回帰関数で発生するl2ペナルティには、一部の特徴の係数をゼロにする機能があります。係数はゼロであるため、関数の最終結果には影響しません。これは、これらの変数が思ったほど重要ではないことを意味します。このように、LASSO回帰の助けを借りて、変数選択を実行できます。

Q10。 以下のリストからオプションの1つを選択してください。 頭を獲得する確率を見つけることを目的として、公正なコインを所持していると仮定します。 計算されたオッズは何ですか？

頭を得る確率は0になるでしょうか
頭を得る確率は1になるでしょうか
頭を得る確率は0.5になるでしょうか
上記のオプションはありません。

回答この質問にうまく答えるには、オッズの意味と定義を理解する必要があります。オッズは、実際には2つの確率の比率として定義されます。つまり、特定のイベントが発生しない可能性に対する発生の確率です。公平なコインの場合、頭の可能性と頭がない確率は同じです。したがって、頭を得る確率は1つです。

Q11。 以下のオプションから正しい答えを選択してください。 ロジット関数は、オッズ関数の対数として定義されます。 このロジット関数の範囲は[0,1]の定義域にあると思いますか？

（-無限大、+無限大）
（0、+無限大）
（-無限大、0）
（0、1）

回答確率関数は、渡された値を受け取り、それを確率に変換します。つまり、関数の範囲は0と1の間に固定されます。ただし、オッズ関数は、確率関数から値を取得し、その範囲をゼロから無限大にする1つのことを行います。

したがって、対数関数への有効な入力はゼロから無限大になります。この領域の対数関数の範囲は、実数直線全体、または負の無限大から正の無限大までであることがわかっています。したがって、この質問に対する答えはオプションAです。

Q12。 以下のリストから、TRUEと思われるオプションを選択してください。

線形回帰の場合の誤差値は正規分布に従う必要がありますが、ロジスティック回帰の場合、値は標準正規分布に従う必要はありません。
ロジスティック回帰の場合のエラー値は正規分布に従う必要がありますが、線形回帰の場合、値は標準正規分布に従う必要はありません。
線形回帰とロジスティック回帰の両方の場合のエラー値は、正規分布に従う必要があります。
線形回帰とロジスティック回帰の両方の場合のエラー値は、正規分布に従う必要はありません。

回答これらのステートメントの束の中で唯一の真実のステートメントは最初のものです。したがって、質問に対する答えはオプションAになります。

Q13。 下のオプションのリストから正しいオプションを選択してください。 したがって、ロジスティック回帰モデルを任意のデータに適用したとしましょう。 得られた精度の結果は、トレーニングセットの場合はX、テストセットの場合はYです。 ここで、モデルにデータポイントを追加します。 それで、あなたによると、何が起こるべきですか？

トレーニングデータで取得した精度Xは増加するはずです。
トレーニングデータから取得した精度Xは低下するはずです。
テストデータから得られた精度Yは低下するはずです。
テストデータから得られた精度Yは、増加するか、同じままである必要があります。

回答トレーニングの精度は、モデルがすでに確認および学習したデータへの適合度に大きく依存します。したがって、モデルに入力される特徴の数を増やすと、トレーニング精度Xが増加します。その場合、特徴の数が増えたデータを適切に適合させるためにモデルをより複雑にする必要があるため、トレーニングの精度が向上します。

一方、テストの精度は、モデルに追加された機能が優れた重要な機能である場合にのみ向上します。そうでない場合、テスト中のモデルの精度はほぼ同じままになります。したがって、この質問に対する答えは、オプションAとDの両方になります。

Q14。 ロジスティック回帰の観点から、1対すべての方法に関して次のオプションから適切なオプションを選択してください。

n個のクラスを正しく分類するには、合計n個のモデルが必要になります。
n個のクラスに分類するには、n-1個のモデルが必要です。
n個のクラスを正常に分類するには、1つのモデルのみが必要です。
上記のオプションはありません。

回答n個の異なるクラスに分類するには、Onevs.Allアプローチでn個のモデルが必要になります。

Q15。 下のグラフを見て、下にリストされているオプションから1つのオプションを選択して質問に答えてください。 チャートにいくつの極小値が表示されますか？

グラフには極小値が1つだけあります。
このグラフには2つの極小値があります。
このグラフには3つの極小値があります。
このグラフには4つの極小値があります。

回答グラフの傾きは4つの異なる点（グラフがU字型のようなもの）でゼロになるため、答えがDになるように4つの極小値を持つと言っても過言ではありません。

また読む：線形回帰対。ロジスティック回帰

次は何？

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

ロジスティック回帰を学ぶのは難しいですか？

データサイエンスに関しては、ロジスティック回帰と線形回帰の両方が、さまざまなタイプの計算問題を解決するために広く使用されています。また、データサイエンスの分野で効率的に作業するには、これらの種類の回帰モデルの両方を理解し、慣れている必要があります。名前から、ロジスティック回帰はより高度な方程式モデルを使用していると推測できます。したがって、線形回帰と比較して、学習するのは少し難しいです。ただし、数学がどのように機能するかについての基本的な理解がある場合は、それを基にRまたはPythonプログラミングでパッケージを作成できます。

データサイエンスにおけるロジスティック回帰はどれほど重要ですか？

データサイエンティストとして成功するには、データの取得と処理、データの理解とモデルの構築、結果の評価、展開のパイプラインを理解することが不可欠です。そして、ロジスティック回帰は、このパイプラインの概念全体を理解するために非常に貴重です。ロジスティック回帰を理解すると、機械学習の概念をより深く理解できるようになります。さらに、特に非線形問題の場合、ロジスティック回帰のみを使用して非常に複雑な問題を簡単に解決できる場合があります。ロジスティック回帰は重要な統計ツールであり、統計は機械学習の不可分の一部です。また、ニューラルネットワークを研究したい場合は、ロジスティック回帰を知ることで優れたスタートを切ることができます。

ロジスティック回帰は実際に役立ちますか？

その名前にもかかわらず、ロジスティック回帰は、実際には回帰以上の分類フレームワークです。これは、機械学習における二項分類の問題を解決するために使用できる、より効率的で単純な方法またはアルゴリズムを提供します。簡単に実現でき、線形分離可能なクラスで優れたパフォーマンスを実現できます。ただし、非線形である決定境界がいくつかある場合、ロジスティック回帰はパフォーマンスが低下する傾向があります。場合によっては、ニューラルネットワークのようなよりコンパクトなアルゴリズムがより効率的で強力であると言われています。