Analisis Data Menggunakan Python [Semua yang Perlu Anda Ketahui]
Diterbitkan: 2020-09-02Bagi siapa saja yang ingin memulai dengan Analisis data, bahasa pertama yang terlintas dalam pikiran adalah R atau Python. Dan alasan mengapa pengembang sekarang lebih condong ke Python adalah karena kemampuan beradaptasinya yang luas di bidang Pengembangan Perangkat Lunak generik. Oleh karena itu, analisis data menggunakan python adalah salah satu istilah yang paling sering didengar bagi seseorang yang memulai perjalanannya ke Ilmu Data.
Daftar isi
Mengapa Analisis Data?
Sekarang pertama, mengapa Analisis Data? Nah, ini adalah langkah pertama untuk mengetahui jenis data yang Anda kerjakan. Ini adalah langkah di mana Anda menemukan pola berharga dalam data, yang mungkin tidak Anda lihat sebaliknya. Secara keseluruhan, ini memberikan pemahaman intuitif tentang kumpulan data yang ada.
Di sini kita perlu menarik garis antara analisis data dan pra-pemrosesan data. Pra-pemrosesan data berkaitan dengan pemodelan set data Anda untuk memastikannya siap untuk pelatihan. Analisis data adalah untuk memahami kumpulan data, yang merupakan langkah awal untuk pra-pemrosesan data. Dalam analisis data, kami mencoba memodelkan data untuk melihatnya lebih baik dan, karenanya, mempelajari wawasan tentang kumpulan data yang ada.
Mengapa Python?
Pertanyaan kedua adalah, mengapa Python? Yah, kami telah menyatakan bahwa Python adalah bahasa yang diadaptasi secara luas. Ya, ini bukan satu-satunya pilihan dalam hal analisis data, tetapi ini adalah pilihan yang cukup bagus. Alasan lain mengapa itu digunakan lebih banyak! Python mudah dan memiliki komunitas pengembang yang besar untuk membantu Anda terkait analisis data menggunakan python . Selain itu, analisis data menggunakan Python cukup menyenangkan karena banyaknya pustaka kreatif yang ditawarkan untuk analisis dan visualisasi data.
Di Python, perpustakaan dasar untuk analisis data adalah Pandas. Ini adalah perpustakaan tingkat tinggi, dibangun di atas perpustakaan NumPy, yang untuk komputasi ilmiah dan analisis numerik. Panda mempermudah bekerja dengan data dengan menawarkan struktur datanya, yang dikenal sebagai DataFrame. DataFrame membantu dalam membaca dan menyimpan dataset Anda. Ini menyediakan fungsi dasar untuk membaca dan menulis kumpulan data, serta melihat metadata dan fungsi kueri untuk mengekstrak setiap wawasan dari kumpulan data.
Penting untuk dicatat bahwa visualisasi data merupakan bagian penting dari keseluruhan analisis data. Karena itu tidak hanya membantu Anda dalam memahami data dengan lebih baik, tetapi juga kepada mereka yang Anda berikan wawasannya. Kami akan membahas dua perpustakaan yang paling sering digunakan untuk visualisasi: Matplotlib dan Seaborn. Matplotlib adalah perpustakaan dasar untuk visualisasi apa pun dengan Python. Seaborn juga dibuat di atas Matplotlib, yang menawarkan beberapa fungsi visualisasi data paling kreatif.
Mengatur Lingkungan
Langkah pertama adalah mengatur lingkungan Anda. Saat melakukan analisis data menggunakan python , penting untuk memiliki lingkungan yang tepat untuk menyimpan semua pekerjaan Anda. Analisis data menggunakan python tidak hanya berupa skrip, tetapi akan menjadi interaksi diri Anda dengan dataset, dan untuk itu, Anda memerlukan tempat yang sesuai untuk bekerja.
Di python, layanan itu disediakan oleh Distribusi Anaconda. Tempat kerja terkemuka Anaconda adalah notebook Jupyter. Jadi, sekarang mengapa Jupyter? Nah, ini memungkinkan Anda memiliki visualisasi langsung di dalam notebook Anda. Ini juga memiliki beberapa fungsi ajaib yang memungkinkan Anda melihat output secara langsung tanpa secara eksplisit menyatakan di mana Anda menginginkannya.
Pustaka, Pandas, dan Matplotlib, sudah diinstal sebelumnya, dan karenanya tidak diperlukan penyiapan tambahan untuk menggunakannya.
Berikut sinopsis cara menyiasati melakukan analisis data menggunakan Python :
- Memuat Kumpulan Data
- Melihat metadata kumpulan data menggunakan Pandas
- Visualisasi data menggunakan Matplotlib
- Mengumpulkan wawasan tentang data
Impor Perpustakaan yang Diperlukan
Sebelum kita mulai melihat kode untuk langkah-langkahnya, cukup impor pustaka yang diperlukan dengan tag semu, seperti dengan nama yang akan kita panggil untuk keseluruhan program.
impor numpy sebagai np
impor panda sebagai pd
# untuk visualisasi data
impor matplotlib.pyplot sebagai plt
impor seaborn sebagai sns
Sekarang kita akan melihat setiap langkah dan mendiskusikan fungsi mana yang tersedia dan bagaimana menggunakannya.
Pertama, membaca dataset. Pandas menyediakan beberapa fungsi dasar untuk memuat kumpulan data ke dalam struktur data intinya: DataFrame. Kita dapat menggunakannya sebagai berikut.
data_df = pd.read_csv('hati.csv')
Output dari fungsi baca apa pun akan menjadi DataFrame. Selain pembaca CSV, panda menyediakan pembaca untuk hampir semua jenis data. Dari HTML ke JSON dan excel.
Selain itu, jika Anda tidak memiliki data apa pun dan ingin membuat kumpulan data Anda, Anda dapat dengan mudah menggunakan fungsi objek Seri Panda dan DataFrame.
Jadi, setelah Anda memiliki data, mari kita lanjutkan untuk melihat tentang apa data itu. Untuk mendapatkan tampilan data pertama, Anda dapat menggunakan fungsi seperti df.info atau df.describe untuk mengetahui struktur dataset Anda.
data_df.info()
data_df.deskripsi()
Setelah Anda mengetahui fitur apa yang ada dalam kumpulan data Anda, Anda mungkin ingin melihat nilainya. Anda dapat menggunakan fungsi df.head() untuk mendapatkan 5 sampel pertama.
data_df.head()
#atau
data_df.head(3)
Anda juga dapat menentukan jumlah sampel untuk mengganti nilai default 5. Anda juga dapat menggunakan fungsi df.tail() untuk mendapatkan 5 nilai terakhir dari kumpulan data.
data_df.ekor()
Ini hanya untuk mendapatkan gambaran umum tingkat tinggi tentang seperti apa tampilan data Anda. Setelah siap, Anda dapat memulai tugas visualisasi data utama, menggunakan Matplotlib. Masukkan kode berikut untuk membuat plot menjadi interaktif dan tampilan yang sama di buku catatan Anda sendiri.
%matplotlib sebaris
Kita akan melihat fungsionalitas dari 5 visualisasi teratas di matplotlib. Sebelum masuk ke dalamnya, kita harus mengetahui beberapa fungsi lain yang mengontrol plot kita. Fungsi-fungsi seperti:
- Label: xlabel(), ylabel(). Mereka adalah untuk label sumbu x dan sumbu y.
- Legenda: Digunakan untuk membuat legenda untuk plot.
- Judul: Untuk menetapkan judul untuk plot Anda
- Dan terakhir, show function untuk melihat plot.
Checkout: Gaji Analis Data di India
visualisasi
Mari kita lihat visualisasinya sekarang. Kita akan mulai dengan plot dasar. Plt.plot() digunakan untuk menghasilkan plot garis sederhana untuk data Anda. Fungsi ini membutuhkan dua parameter secara paksa, dan ini adalah data sumbu x dan data sumbu y. Anda dapat secara opsional memberikan gaya dan nama serta warna untuk plot. Berikut adalah tampilannya dalam kode.
plt.plot(data_df['chol'])
Plot kedua adalah Histogram. Histogram membantu Anda melihat frekuensi atau distribusi fitur tertentu. Ini membantu Anda dalam melihat bagaimana kuantitas berhubungan satu sama lain. Plt.hist() adalah fungsi dasar untuk membuat histogram pada data Anda. Anda dapat menyebutkan parameter bins untuk mengontrol nomor pada plot. Anda hanya perlu melewatkan data sumbu tunggal jika Anda menginginkan analisis univariat.
plt.hist(data_df['usia'])
Plot lain yang akan sering Anda lihat adalah plot batang. Ini membantu dalam menganalisis dan membandingkan fitur yang berbeda. Tidak seperti histogram, plot batang digunakan untuk bekerja dengan data kategorikal.

Anda dapat langsung menerapkan plot pada DataFrame, atau Anda dapat menentukan parameter di dalam fungsi plt.bar(). Berikut adalah cara kami menggunakannya.
df = pd.DataFrame(np.random.rand(15, 5), kolom=['t1', 't2', 't3', 't4', 't5'])
df.plot.bar()
Anda juga dapat menggunakan plot batang secara horizontal dengan menggunakan fungsi barh().
Grafik wawasan lainnya adalah boxplot. Ini membantu dalam memahami distribusi nilai dalam setiap fitur. Anda dapat menggunakan fungsi plt.boxplot() untuk menentukan data yang ingin Anda buatkan boxplotnya. Plot ini sangat berguna ketika Anda perlu melihat dispersi dalam dataset atau skewness dengan cepat. Berikut adalah bagaimana Anda dapat menggunakannya.
plt.boxplot(data_df['chol'])
Setiap kali Anda bekerja dengan data statistik, Anda pasti akan melihat plot pencar. Plot pencar membantu dalam mengamati hubungan antara dua fitur. Plot membutuhkan nilai numerik untuk data sumbu x maupun sumbu y. Anda cukup memberikan kedua nilai tersebut di fungsi plt.scatter() atau dapat langsung diterapkan pada DataFrame dengan menentukan nama kolom di atribut x dan y. Inilah cara Anda dapat menggunakannya:
plt.scatter(data_df['umur'], data_df['chol'])
Sekarang adalah waktu yang tepat untuk memperkenalkan Anda pada fungsi Seaborn. Plot pencar di seaborn lebih intuitif daripada matplotlib karena juga secara default menyediakan garis regresi dalam plot, untuk memvisualisasikan plot dengan lebih baik. Anda dapat menggunakan fungsi sns.lmplot() untuk membuat plot itu.
sns.lmplot('umur', 'chol', data=data_df)
Seperti yang Anda lihat pada plot di atas, garis regresi membantu memahami distribusi dengan lebih baik.
Peningkatan lain menggunakan seaborn adalah swarm plot. Ini digunakan untuk menggambar plot pencar kategoris. Salah satu keuntungan dari swarm plot dibandingkan dengan strip plot yang serupa adalah hanya menggunakan titik-titik yang tidak tumpang tindih. Jadi, ini adalah plot yang lebih bersih dan karenanya memberikan wawasan yang lebih baik.
sns.swarmplot(data_df['umur'], data_df['chol'])
Jadi, ini adalah berbagai jenis plot di Matplotlib dan Seaborn. Ini hanyalah puncak gunung es, dan ada ratusan cara lain untuk merencanakan data Anda untuk mengekstrak wawasan kreatif tentangnya.
Sekarang setelah Anda mengetahui plotnya, mari kita lihat bagaimana melakukan analisis data aktual menggunakan python . Kami akan melihat beberapa plot lagi dan melihat apa yang mereka tunjukkan kepada kami tentang analisis data menggunakan python .
Ayo mulai.
Setelah memuat data, hal pertama yang dilakukan analis data sekarang adalah membuat profil panda. Sekarang, ini juga dapat dilihat sebagai jalan pintas, tetapi jika Anda ingin melihat semua hubungan dan jumlah serta histogram variabel dalam kumpulan data, Anda dapat menggunakan pembuatan profil pandas. Sangat mudah untuk membuatnya, cukup unduh modul pandas-profiling dan masukkan kode berikut:
impor pandas_profile
profil = pandas_profiling.ProfileReport(data_df)
Profil
Seperti yang dapat Anda lihat, ada sejumlah besar informasi metadata dan juga informasi fitur individual. Ini bisa mengarah pada pemahaman yang bagus.
Hal kedua yang bisa kita lakukan adalah menghasilkan peta panas. Sekarang apa yang dilakukan peta panas adalah, ini menunjukkan korelasi setiap fitur dengan fitur lainnya. Dan jika kita menemukan nilai dengan korelasi yang lebih tinggi, itu berarti kedua fitur tersebut sangat mirip satu sama lain. Jadi, kita dapat menjatuhkan salah satu fitur, dan modelnya tetap akan berfungsi dengan baik.
sns.heatmap(data_df.corr(), annot = True , cmap='Jeruk')
Di sini kita dapat melihat tidak ada yang sangat terkait sehingga kita dapat memberi tahu insinyur model bahwa kita memerlukan semua fitur sebagai masukan.
Kita bisa melihat distribusi umurnya karena kita berhadapan dengan dataset penyakit jantung, mari kita lihat distribusinya, jadi kita bisa menggunakan distplot seaborn.
sns.distplot(data_df['umur'], warna = 'sian')
Dari plotnya, Anda dapat mengatakan bahwa kebanyakan orang yang menderita penyakit jantung berusia antara 50 dan 60 tahun. Dengan cara yang sama, kita juga dapat melihat beberapa fitur penting lainnya seperti tekanan darah saat istirahat, yang dilambangkan dengan tresbps. Kita bisa membuat plot kotak untuk melihat distribusinya, dibandingkan dengan nilai target, yaitu 0 dan 1.
sns.boxplot(data_df['target'], data_df['trestbps'], palet = 'twilight')
Kita dapat menyimpulkan dari plot bahwa jika seseorang memiliki tres bps yang lebih rendah, maka kemungkinan mereka menderita penyakit jantung lebih rendah daripada mereka yang memiliki nilai tres bps yang lebih tinggi.
Dengan cara yang sama, kita juga dapat melihat hubungannya dengan kadar kolesterol. Kami memang melihat orang dengan kadar kolesterol lebih rendah memiliki kemungkinan lebih rendah untuk menderita penyakit jantung.
Anda dapat mendokumentasikan semua wawasan ini dan memberikannya kepada insinyur pembelajaran mesin yang kemudian dapat menggunakan hal yang sama untuk membuat model yang efisien.
Kesimpulan
Jadi, ini adalah bagaimana Anda dapat melakukan analisis data menggunakan python . Ini hanyalah langkah pertama dalam perjalanan ilmu data. Untuk mempelajari lebih lanjut tentang mengekstrak wawasan kreatif dari data dan ilmu data secara keseluruhan, buka kursus yang ditawarkan oleh upGrad di sini . Anda akan menemukan spektrum kursus bermanfaat yang akan memandu analisis data secara efektif menggunakan python.
Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Bagaimana saya harus belajar Python untuk Analisis Data?
Jika Anda berada di jalur untuk mempelajari Python untuk Analisis Data, maka Anda berada di tempat yang tepat. Anda perlu memiliki pendekatan langkah-demi-langkah untuk membuat proses pembelajaran lebih sederhana untuk apa pun. Berikut adalah bagaimana prosesnya terlihat seperti:
1. Jelaskan tujuan belajar Python dan bagaimana Anda akan dapat menggunakannya di bidang Anda.
2.Unduh terminal Python yang diperlukan dan instal di sistem Anda.
3.Mulai mempelajari dasar-dasar Python dengan mengambil kursus yang berbeda dan mengetahui perpustakaan Python yang berbeda.
4. Kenali ekspresi reguler yang digunakan dalam Python.
5. Dapatkan pengetahuan mendalam tentang berbagai pustaka Python seperti Pandas, NumPy, Matplotlib, dan SciPy.
6. Mulai pelajari konsep analisis data dan bagaimana Anda dapat mengintegrasikan Python bersamanya.
7. Sekarang, Anda hanya perlu terus berlatih berbagai alat dan teknik untuk menjadi lebih baik dalam Python untuk Analisis Data. Dengan melalui pendekatan langkah demi langkah ini, Anda akan merasa cukup mudah untuk mempelajari Python dan menjadi lebih baik dalam bekerja dengan Analisis Data.
Bagaimana Python digunakan untuk Analisis Data?
Python dikenal sebagai sumber daya yang sangat penting untuk analisis data. Python membantu dalam berbagai cara untuk melakukan analisis data. Namun sebelum itu, Anda perlu menyiapkan data untuk analisis, melakukan analisis statistik, membuat visualisasi data yang dapat memberikan beberapa wawasan, memprediksi tren masa depan berdasarkan data yang tersedia, dan banyak lagi.
Python ditemukan sebagai elemen penting dari analisis data karena membantu dalam:
1. Mengimpor kumpulan data
2.Membersihkan dan menyiapkan data untuk melakukan analisis
3. Memanipulasi DataFrame Pandas
4. Meringkas kumpulan data
5. Mengembangkan model Machine Learning untuk analisis data dengan Python
Bisakah saya belajar Python dalam sebulan?
Ya, Anda pasti dapat mewujudkannya jika Anda mahir dengan bahasa pemrograman lain seperti Java, C, C++, dll. Jika dasar Anda jelas, Anda akan merasa cukup mudah untuk mempelajari Python bahkan dalam satu bulan. Selain itu, jika Anda berusaha dan mengikuti pendekatan langkah demi langkah dengan disiplin, Anda dapat belajar Python dalam sebulan bahkan ketika Anda tidak memiliki pengetahuan sebelumnya tentang bahasa pemrograman lain. Anda hanya perlu mengatur jadwal dan berdedikasi untuk belajar Python dalam sebulan.