33 Pertanyaan & Jawaban Wawancara Pembelajaran Mesin – Regresi Logistik
Diterbitkan: 2018-07-05Selamat datang di bagian kedua dari rangkaian pertanyaan wawancara umum berdasarkan algoritme pembelajaran mesin. Kami berharap bagian sebelumnya tentang Regresi Linier bermanfaat bagi Anda.
Daftar isi
Mari temukan jawaban atas pertanyaan tentang regresi logistik:
1. Apa yang dimaksud dengan fungsi logistik? Berapa kisaran nilai fungsi logistik?
f(z) = 1/(1+e -z )
Nilai fungsi logistik akan berkisar dari 0 hingga 1. Nilai Z akan bervariasi dari -tak terhingga hingga +tak terhingga.
2. Mengapa regresi logistik sangat populer?
Regresi logistik terkenal karena dapat mengubah nilai logit (logodds), yang dapat berkisar dari -tak terhingga hingga +tak terhingga hingga kisaran antara 0 dan 1. Sebagai fungsi logistik menghasilkan probabilitas terjadinya suatu peristiwa, itu dapat diterapkan pada banyak skenario kehidupan nyata. Karena alasan inilah model regresi logistik sangat populer.
3. Apa rumus untuk fungsi regresi logistik?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
Perbedaan antara Ilmu Data, Pembelajaran Mesin, dan Data Besar!
4. Bagaimana probabilitas model regresi logistik dinyatakan sebagai probabilitas bersyarat?
P(Nilai diskrit dari variabel Target | X1, X2, X3….Xk). Ini adalah probabilitas variabel target untuk mengambil nilai diskrit (baik 0 atau 1 dalam kasus masalah klasifikasi biner) ketika nilai variabel independen diberikan. Misalnya, probabilitas seorang karyawan akan atribut (variabel target) mengingat atributnya seperti usia, gaji, KRA, dll.
5. Apa itu peluang?
Adalah perbandingan antara peluang terjadinya suatu peristiwa dengan peluang tidak terjadinya peristiwa tersebut. Sebagai contoh, mari kita asumsikan bahwa peluang memenangkan lotre adalah 0,01. Maka peluang tidak menang adalah 1- 0,01 = 0,99.
Peluang menang lotre = (Probabilitas menang)/(Probabilitas tidak menang)
Peluang memenangkan lotre = 0,01/0,99
Peluang menang lotre adalah 1 banding 99, dan peluang tidak menang lotre adalah 99 banding 1.
6. Apa keluaran dari model logistik dan fungsi logistik?
Model logistik mengeluarkan log, yaitu peluang log; dan fungsi logistik menghasilkan probabilitas.
Model logistik = +1X1+2X2+….+kXk. Output yang sama akan menjadi log.
Fungsi logistik = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . Outputnya, dalam hal ini, akan menjadi probabilitas.

7. Bagaimana menginterpretasikan hasil model regresi logistik? Atau, apa arti dari alpha dan beta dalam model regresi logistik?
Alpha adalah dasar dalam model regresi logistik. Ini adalah peluang log untuk sebuah instance ketika semua atribut (X1, X2,………….Xk) adalah nol. Dalam skenario praktis, kemungkinan semua atribut menjadi nol sangat rendah. Dalam interpretasi lain, Alpha adalah peluang log untuk sebuah instance ketika tidak ada atribut yang dipertimbangkan.
Beta adalah nilai di mana peluang log berubah oleh perubahan unit dalam atribut tertentu dengan menjaga semua atribut lainnya tetap atau tidak berubah (variabel kontrol).
8. Apa itu rasio odds?
Odds ratio adalah rasio odds antara dua grup. Sebagai contoh, mari kita asumsikan bahwa kita mencoba memastikan keefektifan suatu obat. Kami memberikan obat ini pada kelompok 'intervensi' dan plasebo pada kelompok 'kontrol'.
Odds ratio (OR) = (peluang kelompok intervensi)/(peluang kelompok kontrol)
Penafsiran
Jika odds ratio = 1, maka tidak ada perbedaan antara kelompok intervensi dan kelompok kontrol
Jika odds ratio lebih besar dari 1, maka kelompok kontrol lebih baik daripada kelompok intervensi
Jika odds ratio kurang dari 1, maka kelompok intervensi lebih baik daripada kelompok kontrol.
5 Terobosan Aplikasi Machine Learning
9. Apa rumus menghitung odds ratio?
Dalam rumus di atas, X 1 dan X 0 mewakili dua kelompok berbeda yang rasio oddsnya perlu dihitung. X 1 i adalah singkatan dari instance ' i ' dalam grup X 1 . X o i adalah singkatan dari instance ' i ' dalam grup X 0 . singkatan dari koefisien model regresi logistik. Perhatikan bahwa garis dasar tidak termasuk dalam rumus ini.
10. Mengapa regresi linier tidak dapat digunakan sebagai pengganti regresi logistik untuk klasifikasi biner?
Alasan mengapa regresi linier tidak dapat digunakan dalam kasus klasifikasi biner adalah sebagai berikut:
Distribusi istilah kesalahan : Distribusi data dalam kasus regresi linier dan logistik berbeda. Regresi linier mengasumsikan bahwa istilah kesalahan terdistribusi secara normal. Dalam kasus klasifikasi biner, asumsi ini tidak berlaku.
Keluaran model : Dalam regresi linier, keluarannya kontinu. Dalam kasus klasifikasi biner, output dari nilai kontinu tidak masuk akal. Untuk masalah klasifikasi biner, regresi linier dapat memprediksi nilai yang dapat melampaui 0 dan 1. Jika kita menginginkan keluaran berupa probabilitas, yang dapat dipetakan ke dua kelas yang berbeda, maka jangkauannya harus dibatasi pada 0 dan 1. Sebagai model regresi logistik dapat menghasilkan probabilitas dengan fungsi logistik/sigmoid, lebih disukai daripada regresi linier.
Varians kesalahan Residual : Regresi linier mengasumsikan bahwa varians kesalahan acak adalah konstan. Asumsi ini juga dilanggar dalam kasus regresi logistik.
11. Apakah batas keputusan linier atau nonlinier dalam kasus model regresi logistik?
Batas keputusan adalah garis yang memisahkan variabel target ke dalam kelas yang berbeda. Batas keputusan bisa linier atau nonlinier. Dalam kasus model regresi logistik, batas keputusan adalah garis lurus.
Rumus model regresi logistik = +1X1+2X2+….+kXk. Ini jelas mewakili garis lurus. Regresi logistik hanya cocok untuk kasus di mana garis lurus dapat memisahkan kelas yang berbeda. Jika garis lurus tidak dapat melakukannya, maka algoritma nonlinier harus digunakan untuk mencapai hasil yang lebih baik.
12. Apa fungsi kemungkinan?
Fungsi kemungkinan adalah probabilitas bersama untuk mengamati data. Sebagai contoh, mari kita asumsikan bahwa sebuah koin dilempar 100 kali dan kita ingin mengetahui peluang mendapatkan 60 kepala dari pelemparan tersebut. Contoh ini mengikuti rumus distribusi binomial.
p = Peluang munculnya kepala dari satu pelemparan koin
n = 100 (jumlah lemparan koin)
x = 60 (jumlah kepala – sukses)
nx = 30 (jumlah ekor)
Pr(X=60 |n = 100, p)
Fungsi kemungkinan adalah probabilitas bahwa jumlah kepala yang diterima adalah 60 dalam 100 kali pelemparan koin, di mana probabilitas kepala yang diterima dalam setiap pelemparan koin adalah p. Di sini hasil lemparan koin mengikuti distribusi binomial.
Ini dapat dibingkai ulang sebagai berikut:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = konstan
p = parameter tidak diketahui
Fungsi kemungkinan memberikan probabilitas mengamati hasil menggunakan parameter yang tidak diketahui.
13. Apa itu Penaksir Kemungkinan Maksimum (MLE)?
MLE memilih set parameter yang tidak diketahui (estimator) yang memaksimalkan fungsi kemungkinan. Metode untuk menemukan MLE adalah dengan menggunakan kalkulus dan menetapkan turunan dari fungsi logistik sehubungan dengan parameter yang tidak diketahui ke nol, dan menyelesaikannya akan menghasilkan MLE. Untuk model binomial, ini akan mudah, tetapi untuk model logistik, perhitungannya rumit. Program komputer digunakan untuk menurunkan MLE untuk model logistik.
(Inilah pendekatan lain untuk menjawab pertanyaan.)
MLE adalah pendekatan statistik untuk memperkirakan parameter model matematika. Estimasi MLE dan kuadrat biasa memberikan hasil yang sama untuk regresi linier jika variabel dependen diasumsikan berdistribusi normal. MLE tidak mengasumsikan apa pun tentang variabel independen.
14. Apa saja perbedaan metode MLE dan kapan masing-masing metode lebih disukai?
Dalam kasus regresi logistik, ada dua pendekatan MLE. Mereka adalah metode bersyarat dan tidak bersyarat. Metode bersyarat dan tidak bersyarat adalah algoritma yang menggunakan fungsi kemungkinan yang berbeda. Rumus tak bersyarat menggunakan probabilitas gabungan positif (misalnya, churn) dan negatif (misalnya, non-churn). Rumus kondisional adalah rasio probabilitas data yang diamati dengan probabilitas semua konfigurasi yang mungkin.
Metode tanpa syarat lebih disukai jika jumlah parameter lebih rendah dibandingkan dengan jumlah instance. Jika jumlah parameter tinggi dibandingkan dengan jumlah instance, maka MLE bersyarat lebih disukai. Ahli statistik menyarankan bahwa MLE bersyarat digunakan jika ragu. MLE bersyarat akan selalu memberikan hasil yang tidak bias.
6 Teknik Pembelajaran Mesin Ini Meningkatkan Layanan Kesehatan
15. Apa keuntungan dan kerugian dari metode MLE bersyarat dan tidak bersyarat?
Metode bersyarat tidak memperkirakan parameter yang tidak diinginkan. Metode tanpa syarat juga memperkirakan nilai parameter yang tidak diinginkan. Rumus tanpa syarat dapat langsung dikembangkan dengan probabilitas gabungan. Ini tidak dapat dilakukan dengan probabilitas bersyarat. Jika jumlah parameter relatif tinggi terhadap jumlah instance, maka metode tanpa syarat akan memberikan hasil yang bias. Hasil bersyarat tidak akan bias dalam kasus seperti itu.
16. Apa keluaran dari program MLE standar?
Output dari program MLE standar adalah sebagai berikut:
Nilai kemungkinan maksimum : Ini adalah nilai numerik yang diperoleh dengan mengganti nilai parameter yang tidak diketahui dalam fungsi kemungkinan dengan estimator parameter MLE.
Estimasi varians-covariance matrix : Diagonal matriks ini terdiri dari estimasi varians dari estimasi ML. Off-diagonal terdiri dari kovarians dari pasangan estimasi ML.

17. Mengapa kita tidak dapat menggunakan Mean Square Error (MSE) sebagai fungsi biaya untuk regresi logistik?
Dalam regresi logistik, kami menggunakan fungsi sigmoid dan melakukan transformasi non-linier untuk mendapatkan probabilitas. Mengkuadratkan transformasi non-linier ini akan menghasilkan non-cembung dengan minimum lokal. Menemukan minimum global dalam kasus seperti itu menggunakan penurunan gradien tidak dimungkinkan. Karena alasan ini, MSE tidak cocok untuk regresi logistik. Cross-entropy atau log loss digunakan sebagai fungsi biaya untuk regresi logistik. Dalam fungsi biaya untuk regresi logistik, prediksi salah yang meyakinkan akan dihukum berat. Prediksi tepat yang percaya diri dihargai lebih sedikit. Dengan mengoptimalkan fungsi biaya ini, konvergensi tercapai.
18. Mengapa akurasi bukan ukuran yang baik untuk masalah klasifikasi?
Akurasi bukanlah ukuran yang baik untuk masalah klasifikasi karena memberikan kepentingan yang sama untuk positif palsu dan negatif palsu. Namun, ini mungkin tidak terjadi di sebagian besar masalah bisnis. Misalnya, dalam kasus prediksi kanker, menyatakan kanker sebagai kanker jinak lebih serius daripada memberi tahu pasien secara keliru bahwa ia menderita kanker. Akurasi memberikan kepentingan yang sama untuk kedua kasus dan tidak dapat membedakan keduanya.
19. Apa pentingnya baseline dalam masalah klasifikasi?
Sebagian besar masalah klasifikasi berurusan dengan kumpulan data yang tidak seimbang. Contohnya termasuk churn telekomunikasi, pengurangan karyawan, prediksi kanker, deteksi penipuan, penargetan iklan online, dan sebagainya. Dalam semua masalah ini, jumlah kelas positif akan sangat rendah jika dibandingkan dengan kelas negatif. Dalam beberapa kasus, adalah umum untuk memiliki kelas positif yang kurang dari 1% dari total sampel. Dalam kasus seperti itu, akurasi 99% mungkin terdengar sangat bagus tetapi, pada kenyataannya, mungkin tidak.
Di sini, negatifnya adalah 99%, dan karenanya, garis dasarnya akan tetap sama. Jika algoritme memprediksi semua instance sebagai negatif, maka akurasinya juga akan menjadi 99%. Dalam hal ini, semua hal positif akan diprediksi salah, yang sangat penting untuk bisnis apa pun. Meskipun semua hal positif diprediksi salah, akurasi 99% tercapai. Jadi, baseline sangat penting, dan algoritme perlu dievaluasi relatif terhadap baseline.
20. Apa itu positif palsu dan negatif palsu?
Positif palsu adalah kasus di mana negatif salah diprediksi sebagai positif. Misalnya, memprediksi bahwa pelanggan akan churn padahal sebenarnya dia tidak churn.
Negatif palsu adalah kasus di mana positif salah diprediksi sebagai negatif. Misalnya, memprediksi bahwa pelanggan tidak akan churn padahal sebenarnya dia churn.
21. Berapa true positive rate (TPR), true negative rate (TNR), false-positive rate (FPR), dan false-negative rate (FNR)?
TPR mengacu pada rasio positif yang diprediksi dengan benar dari semua label yang benar. Dengan kata sederhana, ini adalah frekuensi label benar yang diprediksi dengan benar.
TPR = TP/TP+FN
TNR mengacu pada rasio negatif yang diprediksi dengan benar dari semua label palsu. Ini adalah frekuensi label palsu yang diprediksi dengan benar.
TNR = TN/TN+FP
FPR mengacu pada rasio positif yang diprediksi secara salah dari semua label yang benar. Ini adalah frekuensi label palsu yang diprediksi secara tidak benar.
FPR = FP/TN+FP
FNR mengacu pada rasio negatif yang diprediksi secara salah dari semua label palsu. Ini adalah frekuensi label benar diprediksi salah.
FNR = FN/TP+FN
22. Apa yang dimaksud dengan presisi dan recall?
Presisi adalah proporsi positif sejati dari prediksi positif. Dengan kata lain, itu adalah keakuratan prediksi. Ini juga dikenal sebagai 'nilai prediksi positif'.
Presisi = TP/TP+FP
Recall sama dengan true positive rate (TPR).
Bagaimana Cara Kerja Pembelajaran Mesin Tanpa Pengawasan?
23. Apa itu ukuran-F?
Ini adalah rata-rata harmonik dari presisi dan ingatan. Dalam beberapa kasus, akan ada trade-off antara presisi dan penarikan kembali. Dalam kasus seperti itu, ukuran-F akan turun. Ini akan menjadi tinggi ketika presisi dan daya ingatnya tinggi. Bergantung pada kasus bisnis yang dihadapi dan tujuan analisis data, metrik yang sesuai harus dipilih.
F-measure = 2 X (Precision X Recall) / (Precision+Recall)
24. Apa itu akurasi?
Ini adalah jumlah prediksi yang benar dari semua prediksi yang dibuat.
Akurasi = (TP+TN)/(Jumlah Total Prediksi)
25. Apa yang dimaksud dengan sensitivitas dan spesifisitas?
Spesifisitas sama dengan tingkat negatif benar, atau sama dengan 1 – tingkat positif palsu.
Spesifisitas = TN/TN + FP.
Sensitivitas adalah tingkat positif yang sebenarnya.
Sensitivitas = TP/TP + FN
26. Bagaimana memilih titik potong dalam kasus model regresi logistik?
Titik pisah tergantung pada tujuan bisnis. Tergantung pada tujuan bisnis Anda, titik batas harus dipilih. Misalnya, mari kita pertimbangkan default pinjaman. Jika tujuan bisnis adalah untuk mengurangi kerugian, maka spesifisitasnya harus tinggi. Jika tujuannya adalah untuk meningkatkan keuntungan, maka itu adalah masalah yang sama sekali berbeda. Ini mungkin tidak terjadi bahwa keuntungan akan meningkat dengan menghindari pemberian pinjaman untuk semua kasus default yang diprediksi. Tetapi mungkin saja bisnis harus mengeluarkan pinjaman untuk kasus-kasus gagal bayar yang sedikit kurang berisiko untuk meningkatkan keuntungan. Dalam kasus seperti itu, titik batas yang berbeda, yang memaksimalkan keuntungan, akan diperlukan. Dalam sebagian besar kasus, bisnis akan beroperasi di sekitar banyak kendala. Titik pisah yang memenuhi tujuan bisnis tidak akan sama dengan dan tanpa batasan. Titik potong perlu dipilih dengan mempertimbangkan semua titik ini. Sebagai aturan praktis, pilih nilai batas yang setara dengan proporsi positif dalam kumpulan data.
Apa itu Pembelajaran Mesin dan Mengapa itu penting27. Bagaimana regresi logistik menangani variabel kategori?
Masukan ke model regresi logistik harus numerik. Algoritme tidak dapat menangani variabel kategoris secara langsung. Jadi, mereka perlu diubah menjadi format yang cocok untuk diproses oleh algoritma. Berbagai tingkat variabel kategori akan diberi nilai numerik unik yang dikenal sebagai variabel dummy. Variabel dummy ini ditangani oleh model regresi logistik seperti nilai numerik lainnya.
28. Apa yang dimaksud dengan kurva respon kumulatif (CRV)?
Untuk menyampaikan hasil analisis kepada manajemen, digunakan 'kurva respons kumulatif', yang lebih intuitif daripada kurva ROC. Kurva ROC sangat sulit dipahami bagi seseorang di luar bidang ilmu data. CRV terdiri dari tingkat positif sejati atau persentase positif yang diklasifikasikan dengan benar pada sumbu Y dan persentase populasi yang ditargetkan pada sumbu X. Penting untuk dicatat bahwa persentase populasi akan diberi peringkat oleh model dalam urutan menurun (baik probabilitas atau nilai yang diharapkan). Jika modelnya bagus, maka dengan menargetkan bagian teratas dari daftar peringkat, semua persentase positif yang tinggi akan ditangkap. Seperti kurva ROC, akan ada garis diagonal yang mewakili kinerja acak. Mari kita pahami kinerja acak ini sebagai contoh. Dengan asumsi bahwa 50% dari daftar ditargetkan, diharapkan akan menangkap 50% dari yang positif. Harapan ini ditangkap oleh garis diagonal, yang mirip dengan kurva ROC.
29. Apa kurva liftnya?
Peningkatan adalah peningkatan kinerja model (peningkatan tingkat positif sebenarnya) jika dibandingkan dengan kinerja acak. Performa acak berarti jika 50% dari instans ditargetkan, maka diharapkan akan mendeteksi 50% positifnya. Lift dibandingkan dengan kinerja acak model. Jika performa model lebih baik daripada performa acaknya, peningkatannya akan lebih besar dari 1.
Dalam kurva lift, lift diplot pada sumbu Y dan persentase populasi (diurutkan dalam urutan menurun) pada sumbu X. Pada persentase tertentu dari populasi target, model dengan daya angkat tinggi lebih disukai.
30. Algoritma mana yang lebih baik dalam menangani regresi logistik outlier atau SVM?
Regresi logistik akan menemukan batas linier jika ada untuk mengakomodasi outlier. Regresi logistik akan menggeser batas linier untuk mengakomodasi outlier. SVM tidak sensitif terhadap sampel individu. Tidak akan ada pergeseran besar dalam batas linier untuk mengakomodasi outlier. SVM hadir dengan kontrol kompleksitas bawaan, yang menangani overfitting. Ini tidak benar dalam kasus regresi logistik.
31. Bagaimana Anda akan menangani masalah klasifikasi multikelas menggunakan regresi logistik?
Metode paling terkenal untuk menangani klasifikasi multikelas menggunakan regresi logistik adalah menggunakan pendekatan satu lawan semua. Di bawah pendekatan ini, sejumlah model dilatih, yang sama dengan jumlah kelas. Model bekerja dengan cara tertentu. Misalnya, model pertama mengklasifikasikan titik data tergantung pada apakah itu milik kelas 1 atau kelas lain; model kedua mengklasifikasikan titik data ke dalam kelas 2 atau beberapa kelas lainnya. Dengan cara ini, setiap titik data dapat diperiksa di semua kelas.
32. Jelaskan penggunaan kurva ROC dan AUC dari Kurva ROC.
Kurva ROC (Receiver Operating Characteristic) menggambarkan kinerja model klasifikasi biner. Ini pada dasarnya adalah kurva TPR versus FPR (tingkat positif benar versus tingkat positif palsu) untuk semua nilai ambang mulai dari 0 hingga 1. Dalam kurva ROC, setiap titik di ruang ROC akan dikaitkan dengan matriks kebingungan yang berbeda. Garis diagonal dari kiri bawah ke kanan atas pada grafik ROC mewakili tebakan acak. Area Under the Curve (AUC) menandakan seberapa bagus model classifier. Jika nilai AUC tinggi (mendekati 1), maka model bekerja dengan memuaskan, sedangkan jika nilainya rendah (sekitar 0,5), maka model tidak bekerja dengan baik dan hanya menebak-nebak secara acak.
33. Bagaimana Anda bisa menggunakan konsep ROC dalam klasifikasi multiclass?
Konsep kurva ROC dapat dengan mudah digunakan untuk klasifikasi multiclass dengan menggunakan pendekatan one-vs-all. Sebagai contoh, katakanlah kita memiliki tiga kelas 'a', 'b', dan 'c'. Kemudian, kelas pertama terdiri dari kelas 'a' (kelas benar) dan kelas kedua terdiri dari kelas 'b' dan kelas 'c' bersama-sama (kelas palsu). Dengan demikian, kurva ROC diplot. Demikian pula, untuk ketiga kelas, kami akan memplot tiga kurva ROC dan melakukan analisis AUC kami.
Sejauh ini kami telah membahas dua algoritme ML paling dasar, Regresi Linier dan Logistik, dan kami harap sumber daya ini bermanfaat bagi Anda.
Pelajari Kursus ML dari Universitas top Dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

Bagian selanjutnya dari seri ini didasarkan pada Algoritma ML lain yang sangat penting, Clustering . Jangan ragu untuk memposting keraguan dan pertanyaan Anda di bagian komentar di bawah.
Ditulis bersama oleh – Ojas Agarwal
Apa yang dimaksud dengan grafik Keuntungan dan Peningkatan kumulatif?
Bagan Penguatan dan Peningkatan adalah pendekatan visual untuk menilai efisiensi beberapa model pembelajaran mesin dengan berbagai cara. Selain membantu Anda mengevaluasi seberapa sukses model prediksi Anda, model ini secara visual menampilkan perbedaan tingkat respons dari kelompok yang ditargetkan dari kelompok yang dipilih secara acak. Diagram ini berharga dalam pengaturan perusahaan, seperti target pemasaran. Mereka juga dapat diterapkan di bidang lain, seperti pemodelan risiko, analitik rantai pasokan, dan sebagainya. Dengan kata lain, grafik Gain dan Lift adalah dua cara untuk menangani kesulitan klasifikasi yang melibatkan kumpulan data yang tidak seimbang.
Apa saja asumsi yang dibuat saat menggunakan regresi logistik?
Beberapa asumsi dibuat saat menggunakan regresi logistik. Salah satunya adalah prediktor kontinu tidak memiliki nilai yang berpengaruh (nilai ekstrim atau outlier). Regresi logistik, yang dibagi menjadi dua kelas, mengandaikan variabel dependen adalah biner, sedangkan regresi logistik terurut mengharuskan variabel dependen diurutkan. Juga diasumsikan bahwa tidak ada interkorelasi substansial (yaitu multikolinearitas) di antara prediktor. Ini juga menganggap bahwa pengamatan independen satu sama lain.
Bisakah saya mendapatkan pekerjaan sebagai ilmuwan data jika saya memiliki pengetahuan yang adil tentang Pembelajaran Mesin?
Seorang Data Scientist mengumpulkan, menganalisis, dan menginterpretasikan volume data yang sangat besar menggunakan teknologi analitik canggih seperti Machine Learning dan Predictive Modeling. Ini kemudian dimanfaatkan oleh para pemimpin perusahaan untuk membuat pilihan bisnis terbaik. Jadi, selain keterampilan lain seperti penambangan data dan pemahaman tentang metodologi penelitian statistik, Pembelajaran Mesin adalah kompetensi penting bagi Ilmuwan Data. Tetapi jika Anda ingin bekerja sebagai Data Scientist, Anda juga harus terbiasa dengan platform dan teknologi big data seperti Hadoop, Pig, Hive, Spark, dan lainnya, serta bahasa pemrograman seperti SQL, Python, dan lainnya.