33機械学習インタビューの質問と回答–ロジスティック回帰

公開: 2018-07-05

機械学習アルゴリズムに基づく一連のよくあるインタビューの質問の第2部へようこそ。 線形回帰に関する前のセクションがお役に立てば幸いです。

目次

ロジスティック回帰に関する質問への回答を見つけましょう。

1.ロジスティック関数とは何ですか? ロジスティック関数の値の範囲はどのくらいですか?

f(z)= 1 /(1 + e -z
ロジスティック関数の値の範囲は0から1です。Zの値は-無限大から+無限大まで変化します。

2.ロジスティック回帰が非常に人気があるのはなぜですか?

ロジスティック回帰は、-無限大から+無限大までの範囲のロジット(logodds)の値を0から1の範囲に変換できるため、有名です。ロジスティック関数はイベントの発生確率を出力するため、次のように適用できます。多くの実際のシナリオ。 ロジスティック回帰モデルが非常に人気があるのはこのためです。

3.ロジスティック回帰関数の式は何ですか?

f(z)= 1 /(1 + e- (α+ 1X1 + 2X2+…。+kXk)
データサイエンス、機械学習、ビッグデータの違い!

4.ロジスティック回帰モデルの確率を条件付き確率としてどのように表すことができますか?

P(ターゲット変数の離散値| X1、X2、X3….Xk)。 独立変数の値が与えられたときに、ターゲット変数が離散値(2項分類の問題の場合は0または1)をとる確率です。 たとえば、年齢、給与、KRAなどの属性を考慮して、従業員が属性(ターゲット変数)を取得する確率。

5.オッズとは何ですか?

これは、イベントが発生する確率とイベントが発生しない確率の比率です。 たとえば、宝くじに当選する確率が0.01であると仮定します。 その場合、勝てない確率は1- 0.01=0.99です。
宝くじに当選する確率=(当選する確率)/(当選しない確率)
宝くじに当選する確率=0.01/ 0.99
宝くじに当選する確率は1対99で、宝くじに当選しない確率は99対1です。

6.ロジスティックモデルとロジスティック関数の出力は何ですか?

ロジスティックモデルは、ロジット、つまり対数オッズを出力します。 ロジスティック関数は確率を出力します。
ロジスティックモデル=α+1X1+2X2+…。+kXk。 同じものの出力はロジットになります。
ロジスティック関数=f(z)= 1 /(1 + e- (α+ 1X1 + 2X2+…。+kXk) この場合、出力は確率になります。

7.ロジスティック回帰モデルの結果をどのように解釈しますか? または、ロジスティック回帰モデルのアルファとベータの意味は何ですか?

アルファは、ロジスティック回帰モデルのベースラインです。 すべての属性(X1、X2、………….Xk)がゼロの場合のインスタンスの対数オッズです。 実際のシナリオでは、すべての属性がゼロになる確率は非常に低くなります。 別の解釈では、Alphaは、どの属性も考慮されていない場合のインスタンスの対数オッズです。
ベータは、他のすべての属性を固定または変更しない(制御変数)ことにより、特定の属性の単位変更によって対数オッズが変化する値です。

8.オッズ比とは何ですか?

オッズ比は、2つのグループ間のオッズ比です。 たとえば、薬の有効性を確認しようとしているとしましょう。 この薬を「介入」群に投与し、プラセボを「対照」群に投与しました。
オッズ比(OR)=(介入群のオッズ)/(対照群のオッズ)
解釈
オッズ比=1の場合、介入群と​​対照群の間に差はありません。
オッズ比が1より大きい場合、対照群は介入群よりも優れています
オッズ比が1未満の場合、介入群は対照群よりも優れています。
機械学習の5つの画期的なアプリケーション

9.オッズ比の計算式は何ですか?

上記の式で、X1とX0は、オッズ比を計算する必要がある2つの異なるグループを表します X 1 iは、グループX1のインスタンス' i 'を表します X o iは、グループX0のインスタンス' i 'を表します。 ロジスティック回帰モデルの係数を表します。 ベースラインはこの式に含まれていないことに注意してください。

10.二項分類のロジスティック回帰の代わりに線形回帰を使用できないのはなぜですか?

二項分類の場合に線形回帰を使用できない理由は次のとおりです。
誤差項の分布:線形回帰とロジスティック回帰の場合のデータの分布は異なります。 線形回帰は、誤差項が正規分布していることを前提としています。 二項分類の場合、この仮定は当てはまりません。
モデル出力:線形回帰では、出力は連続です。 二項分類の場合、連続値の出力は意味がありません。 二項分類の問題の場合、線形回帰は0と1を超える可能性のある値を予測する場合があります。2つの異なるクラスにマッピングできる確率の形式で出力が必要な場合は、その範囲を0と1に制限する必要があります。ロジスティック回帰モデルは、ロジスティック/シグモイド関数を使用して確率を出力できます。線形回帰よりも優先されます。
残差誤差の分散:線形回帰は、ランダム誤差の分散が一定であると想定しています。 ロジスティック回帰の場合も、この仮定に違反します。

11.ロジスティック回帰モデルの場合、決定境界は線形ですか、それとも非線形ですか。

決定境界は、ターゲット変数を異なるクラスに分割する線です。 決定境界は線形または非線形のいずれかです。 ロジスティック回帰モデルの場合、決定境界は直線です。
ロジスティック回帰モデルの式=α+1X1+2X2+…。+kXk。 これは明らかに直線を表しています。 ロジスティック回帰は、直線が異なるクラスを分離できる場合にのみ適しています。 直線でそれができない場合は、非線形アルゴリズムを使用してより良い結果を得る必要があります。

12.尤度関数とは何ですか?

尤度関数は、データを観測する同時確率です。 たとえば、コインが100回投げられ、その投げから60個の頭が得られる確率を知りたいとします。 この例は、二項分布の式に従います。
p=単一のコイントスからの頭の確率
n = 100(コイン投げの数)
x = 60(頭の数–成功)
nx = 30(テールの数)
Pr(X = 60 | n = 100、p)
尤度関数は、100回のコイントスのトレイルで受け取ったヘッドの数が60である確率です。ここで、各コイントスで受け取ったヘッドの確率はpです。 ここで、コイントスの結果は二項分布に従います。
これは、次のようにリフレームできます。
Pr(X = 60 | n = 100、p)= cx p60x(1-p)100-60
c=定数
p=不明なパラメータ
尤度関数は、未知のパラメーターを使用して結果を観測する確率を示します。

13.最尤推定量(MLE)とは何ですか?

MLEは、尤度関数を最大化する未知のパラメーターのセット(推定量)を選択します。 MLEを見つける方法は、微積分を使用し、未知のパラメーターに関するロジスティック関数の導関数をゼロに設定することです。これを解くと、MLEが得られます。 二項モデルの場合、これは簡単ですが、ロジスティックモデルの場合、計算は複雑です。 コンピュータープログラムは、ロジスティックモデルのMLEを導出するために使用されます。
(質問に答えるための別のアプローチがあります。)
MLEは、数学モデルのパラメーターを推定するための統計的アプローチです。 MLEと通常の二乗推定では、従属変数が正規分布していると仮定した場合、線形回帰で同じ結果が得られます。 MLEは、独立変数については何も想定していません。

14. MLEのさまざまな方法は何ですか?また、各方法が優先されるのはいつですか?

ロジスティック回帰の場合、MLEには2つのアプローチがあります。 それらは条件付きおよび無条件のメソッドです。 条件付きメソッドと無条件メソッドは、異なる尤度関数を使用するアルゴリズムです。 無条件の式は、ポジティブ(チャーンなど)とネガティブ(チャーンなしなど)の同時確率を使用します。 条件式は、すべての可能な構成の確率に対する観測データの確率の比率です。
パラメータの数がインスタンスの数に比べて少ない場合は、無条件の方法が推奨されます。 パラメータの数がインスタンスの数に比べて多い場合は、条件付きMLEが優先されます。 統計家は、疑わしい場合は条件付きMLEを使用することを提案しています。 条件付きMLEは、常に偏りのない結果を提供します。
これらの6つの機械学習技術は、ヘルスケアを改善しています

15. MLEの条件付きおよび無条件の方法の長所と短所は何ですか?

条件付きメソッドは、不要なパラメーターを推定しません。 無条件の方法では、不要なパラメーターの値も推定されます。 無条件の公式は、同時確率で直接開発できます。 これは、条件付き確率では実行できません。 パラメータの数がインスタンスの数に比べて多い場合、無条件の方法では偏った結果が得られます。 このような場合、条件付きの結果は偏りがありません。

16.標準のMLEプログラムの出力は何ですか?

標準のMLEプログラムの出力は次のとおりです。
最尤値:これは、尤度関数の未知のパラメーター値をMLEパラメーター推定量に置き換えて得られる数値です。
推定分散共分散行列:この行列の対角線は、ML推定値の推定分散で構成されます。 非対角は、ML推定値のペアの共分散で構成されます。

17.ロジスティック回帰のコスト関数として平均二乗誤差(MSE)を使用できないのはなぜですか?

ロジスティック回帰では、シグモイド関数を使用し、非線形変換を実行して確率を取得します。 この非線形変換を2乗すると、極小値との非凸性につながります。 このような場合、最急降下法を使用してグローバル最小値を見つけることはできません。 このため、MSEはロジスティック回帰には適していません。 クロスエントロピーまたは対数損失は、ロジスティック回帰のコスト関数として使用されます。 ロジスティック回帰のコスト関数では、自信を持って間違った予測に大きなペナルティが課せられます。 自信を持って正しい予測が報われることは少なくなります。 このコスト関数を最適化することにより、収束が達成されます。

18.なぜ精度は分類問題の良い尺度ではないのですか?

精度は、誤検知と誤検知の両方に同等の重要性を与えるため、分類問題の適切な尺度ではありません。 ただし、これはほとんどのビジネス上の問題には当てはまらない場合があります。 たとえば、癌の予測の場合、癌を良性であると宣言することは、患者に癌に苦しんでいることを誤って通知するよりも深刻です。 精度は両方のケースに同等の重要性を与え、それらを区別することはできません。

19.分類問題におけるベースラインの重要性は何ですか?

ほとんどの分類問題は、不均衡なデータセットを扱います。 例としては、通信の解約、従業員の離職、癌の予測、不正の検出、オンライン広告のターゲティングなどがあります。 これらすべての問題において、ネガティブクラスと比較した場合、ポジティブクラスの数は非常に少なくなります。 場合によっては、サンプル全体の1%未満のポジティブクラスが一般的です。 このような場合、99%の精度は非常に良いように聞こえるかもしれませんが、実際にはそうではない場合があります。
ここでは、ネガティブは99%であるため、ベースラインは同じままです。 アルゴリズムがすべてのインスタンスを負と予測する場合、精度も99%になります。 この場合、すべてのポジティブが誤って予測されます。これは、どのビジネスにとっても非常に重要です。 すべてのポジティブが誤って予測されたとしても、99%の精度が達成されます。 したがって、ベースラインは非常に重要であり、アルゴリズムはベースラインと比較して評価する必要があります。

20.誤検知と誤検知とは何ですか?

誤検知とは、ネガティブが誤ってポジティブとして予測された場合です。 たとえば、顧客が実際には解約していないときに解約することを予測します。
フォールスネガティブは、ポジティブがネガティブとして誤って予測された場合です。 たとえば、顧客が実際に解約したときに解約しないと予測します。

21.真陽性率(TPR)、真陰性率(TNR)、偽陽性率(FPR)、および偽陰性率(FNR)とは何ですか?

TPRは、すべての真のラベルから正しく予測された陽性の比率を指します。 簡単に言えば、それは正しく予測された真のラベルの頻度です。
TPR = TP / TP + FN
TNRは、すべての偽のラベルから正しく予測されたネガの比率を指します。 これは、正しく予測された誤ったラベルの頻度です。
TNR = TN / TN + FP
FPRは、すべての真のラベルから誤って予測された陽性率を指します。 これは、誤って予測された誤ったラベルの頻度です。
FPR = FP / TN + FP
FNRは、すべての偽のラベルから誤って予測されたネガの比率を指します。 これは、誤って予測された真のラベルの頻度です。
FNR = FN / TP + FN

22.適合率と再現率とは何ですか?

精度は、予測された陽性に対する真の陽性の割合です。 言い換えれば、それは予測の精度です。 「正の予測値」とも呼ばれます。
精度=TP/ TP + FP
リコールは、真陽性率(TPR)と同じです。
教師なし機械学習はどのように機能しますか?

23. Fメジャーとは何ですか?

これは、適合率と再現率の調和平均です。 場合によっては、精度とリコールの間にトレードオフがあります。 このような場合、Fメジャーは低下します。 精度とリコールの両方が高い場合は高くなります。 手元のビジネスケースとデータ分析の目標に応じて、適切なメトリックを選択する必要があります。
Fメジャー=2X(適合率X再現率)/(適合率+再現率)

24.精度とは何ですか?

これは、行われたすべての予測のうちの正しい予測の数です。
精度=(TP + TN)/(予測の総数)

25.感度と特異性とは何ですか?

特異度は真陰性率と同じか、1 –偽陽性率に等しくなります。
特異性=TN/ TN+FP。
感度は真の陽性率です。
感度=TP/ TP + FN

26.ロジスティック回帰モデルの場合、カットオフポイントを選択するにはどうすればよいですか?

カットオフポイントは、ビジネス目標によって異なります。 ビジネスの目標に応じて、カットオフポイントを選択する必要があります。 たとえば、ローンのデフォルトについて考えてみましょう。 ビジネスの目的が損失を減らすことである場合、特異性を高くする必要があります。 利益を増やすことが目的であれば、それはまったく別の問題です。 予測されるすべてのデフォルトケースにローンを提供することを回避することによって利益が増加するわけではないかもしれません。 しかし、利益を増やすためにリスクがわずかに低いデフォルトのケースに企業がローンを支払わなければならない場合があります。 このような場合、利益を最大化する別のカットオフポイントが必要になります。 ほとんどの場合、企業は多くの制約を回避して運営されます。 ビジネス目標を満たすカットオフポイントは、制限がある場合とない場合で同じにはなりません。 これらすべてのポイントを考慮して、カットオフポイントを選択する必要があります。 経験則として、データセット内の陽性の割合に相当するカットオフ値を選択します。

機械学習とは何ですか、なぜそれが重要なのか

27.ロジスティック回帰はカテゴリ変数をどのように処理しますか?

ロジスティック回帰モデルへの入力は数値である必要があります。 アルゴリズムは、カテゴリ変数を直接処理できません。 したがって、アルゴリズムが処理するのに適した形式に変換する必要があります。 カテゴリ変数のさまざまなレベルには、ダミー変数と呼ばれる一意の数値が割り当てられます。 これらのダミー変数は、他の数値と同様にロジスティック回帰モデルによって処理されます。

28.累積応答曲線(CRV)とは何ですか?

分析結果を経営陣に伝えるために、ROC曲線よりも直感的な「累積応答曲線」が使用されます。 データサイエンスの分野以外の人にとって、ROC曲線を理解するのは非常に困難です。 CRVは、真の陽性率またはY軸で正しく分類された陽性の割合と、X軸で対象となる母集団の割合で構成されます。 母集団のパーセンテージは、モデルによって降順(確率または期待値のいずれか)でランク付けされることに注意することが重要です。 モデルが良好である場合、ランク付けされたリストの上位部分をターゲットにすることにより、すべての高いパーセンテージのポジティブがキャプチャされます。 ROC曲線と同様に、ランダムなパフォーマンスを表す対角線があります。 例として、このランダムなパフォーマンスを理解しましょう。 リストの50%がターゲットにされていると仮定すると、ポジティブの50%をキャプチャすることが期待されます。 この期待値は、ROC曲線に似た対角線によって捉えられます。

29.リフトカーブとは何ですか?

リフトは、ランダムなパフォーマンスと比較した場合のモデルのパフォーマンスの向上(真の陽性率の増加)です。 ランダムパフォーマンスとは、インスタンスの50%がターゲットにされている場合、ポジティブの50%を検出すると予想されることを意味します。 リフトは、モデルのランダムなパフォーマンスと比較されます。 モデルのパフォーマンスがランダムなパフォーマンスよりも優れている場合、そのリフトは1より大きくなります。
リフト曲線では、リフトがY軸にプロットされ、人口の割合(降順で並べ替え)がX軸にプロットされます。 ターゲット母集団の特定の割合では、高揚力のモデルが推奨されます。

30.外れ値ロジスティック回帰またはSVMの処理に優れているアルゴリズムはどれですか?

ロジスティック回帰は、外れ値に対応するために存在する場合、線形境界を見つけます。 ロジスティック回帰は、外れ値に対応するために線形境界をシフトします。 SVMは個々のサンプルの影響を受けません。 外れ値に対応するために線形境界に大きなシフトはありません。 SVMには、過剰適合を処理する複雑さの制御が組み込まれています。 これは、ロジスティック回帰の場合には当てはまりません。

31.ロジスティック回帰を使用して、マルチクラス分類の問題にどのように対処しますか?

ロジスティック回帰を使用してマルチクラス分類を処理する最も有名な方法は、1対すべてのアプローチを使用することです。 このアプローチでは、クラスの数に等しい数のモデルがトレーニングされます。 モデルは特定の方法で機能します。 たとえば、最初のモデルは、データポイントがクラス1に属しているか、他のクラスに属しているかに応じてデータポイントを分類します。 2番目のモデルは、データポイントをクラス2またはその他のクラスに分類します。 このようにして、各データポイントをすべてのクラスでチェックできます。

32.ROC曲線の使用とROC曲線のAUCを説明します。

ROC(受信者動作特性)曲線は、二項分類モデルのパフォーマンスを示しています。 これは基本的に、0から1の範囲のすべてのしきい値に対するTPR対FPR(真陽性率対偽陽性率)曲線です。ROC曲線では、ROC空間の各ポイントは異なる混同行列に関連付けられます。 ROCグラフの左下から右上への対角線は、ランダムな推測を表しています。 曲線下面積(AUC)は、分類器モデルがどれほど優れているかを示します。 AUCの値が高い(1に近い)場合、モデルは十分に機能していますが、値が低い(約0.5)場合、モデルは正しく機能しておらず、ランダムに推測しているだけです。

33.マルチクラス分類でROCの概念をどのように使用できますか?

ROC曲線の概念は、1対すべてのアプローチを使用することでマルチクラス分類に簡単に使用できます。 たとえば、「a」、「b」、「c」の3つのクラスがあるとします。 次に、最初のクラスはクラス'a'(真のクラス)を構成し、2番目のクラスはクラス'b'とクラス'c'の両方を一緒に構成します(偽のクラス)。 したがって、ROC曲線がプロットされます。 同様に、3つのクラスすべてについて、3つのROC曲線をプロットし、AUCの分析を実行します。
これまで、最も基本的な2つのMLアルゴリズムである線形回帰とロジスティック回帰について説明してきましたが、これらのリソースがお役に立てば幸いです。

世界のトップ大学からMLコースを学びましょう。 マスター、エグゼクティブPGP、または高度な証明書プログラムを取得して、キャリアを迅速に追跡します。

機械学習エンジニア:神話と現実

このシリーズの次のパートは、もう1つの非常に重要なMLアルゴリズムであるクラスタリングに基づいています。 以下のコメントセクションに疑問や質問を投稿してください。
共著– Ojas Agarwal

累積ゲインチャートとリフトチャートとは何ですか?

ゲインとリフトのグラフは、さまざまな方法でいくつかの機械学習モデルの効率を評価するための視覚的なアプローチです。 予測モデルの成功度を評価するのに役立つだけでなく、ターゲットグループの応答率がランダムに選択されたグループの応答率とどのように異なるかを視覚的に表示します。 これらの図は、ターゲットマーケティングなどの企業環境で役立ちます。 また、リスクモデリング、サプライチェーン分析などの他の分野にも適用できます。 言い換えると、ゲインチャートとリフトチャートは、不均衡なデータセットを含む分類の問題に対処する2つの方法です。

ロジスティック回帰を使用しているときに行われた仮定のいくつかは何ですか?

ロジスティック回帰を使用している間、いくつかの仮定が行われます。 それらの1つは、連続予測子には影響力のある値(極端な値または外れ値)がないことです。 2つのクラスに分けられるロジスティック回帰では、従属変数がバイナリであると想定されていますが、順序付きロジスティック回帰では、従属変数が順序付けられている必要があります。 また、予測子間に実質的な相互相関(つまり多重共線性)がないことも想定されています。 また、観測値は互いに独立していると見なされます。

機械学習について十分な知識がある場合、データサイエンティストの仕事に就くことはできますか?

データサイエンティストは、機械学習や予測モデリングなどの高度な分析テクノロジーを使用して、膨大な量のデータを収集、分析、解釈します。 次に、これらは会社のリーダーによって利用され、最良のビジネス選択を行います。 したがって、データマイニングや統計研究手法の理解などの他のスキルに加えて、機械学習はデータサイエンティストにとって重要な能力です。 ただし、データサイエンティストとして働きたい場合は、Hadoop、Pig、Hive、Sparkなどのビッグデータプラットフォームとテクノロジー、およびSQL、Pythonなどのプログラミング言語にも精通している必要があります。