Pendahuluan
Pandas adalah pustaka Python sumber terbuka yang terutama digunakan untuk analisis data. Kumpulan alat dalam paket Pandas adalah sumber daya penting untuk menyiapkan, mengubah, dan menggabungkan data dengan Python.
Pustaka Pandas didasarkan pada paket NumPy dan kompatibel dengan beragam modul yang ada. Penambahan dua struktur data tabular baru, Seri dan DataFrames , memungkinkan pengguna untuk memanfaatkan fitur yang serupa dengan yang ada di database atau spreadsheet relasional.
Artikel ini menunjukkan kepada Anda cara memasang Python Pandas dan memperkenalkan perintah dasar Panda.
Cara Memasang Python Pandas
Popularitas Python telah menghasilkan banyak distribusi dan paket. Manajer paket adalah alat efisien yang digunakan untuk mengotomatisasi proses instalasi, mengelola peningkatan, mengonfigurasi, dan menghapus paket dan dependensi Python.
Catatan: Versi Python 3.6.1 atau lebih baru merupakan prasyarat untuk instalasi Pandas. Gunakan panduan terperinci kami untuk memeriksa versi Python Anda saat ini. Jika Anda tidak memiliki versi Python yang diperlukan, Anda dapat menggunakan salah satu panduan terperinci ini:
- Cara menginstal Python 3.8 di Ubuntu 18.04 atau Ubuntu 20.04.
- Cara Menginstal Python 3 di Windows 10
- Cara Menginstal Versi Terbaru Python 3 di Centos 7
Instal Panda dengan Anaconda
Paket Anaconda sudah berisi perpustakaan Pandas. Periksa versi Pandas saat ini dengan mengetikkan perintah berikut di terminal Anda:
conda list pandas
Outputnya mengonfirmasi versi dan build Pandas.
Jika Pandas tidak ada di sistem Anda, Anda juga dapat menggunakan conda
alat untuk menginstal Panda:
conda install pandas
Anaconda mengelola seluruh transaksi dengan menginstal kumpulan modul dan dependensi.
Instal Panda dengan pip
Repositori perangkat lunak PyPI dikelola secara teratur dan memelihara versi terbaru perangkat lunak berbasis Python. Instal pip, pengelola paket PyPI, dan gunakan untuk menerapkan panda Python:
pip3 install pandas
Proses pengunduhan dan penginstalan memerlukan beberapa saat untuk diselesaikan.
Instal Pandas di Linux
Menginstal solusi yang sudah dikemas mungkin tidak selalu menjadi pilihan yang disukai. Anda dapat menginstal Pandas pada distribusi Linux apa pun menggunakan metode yang sama seperti modul lainnya. Misalnya, gunakan perintah berikut untuk menginstal modul Pandas dasar di Ubuntu 20.04:
sudo apt install python3-pandas -y
Ingatlah bahwa paket dalam repositori Linux sering kali tidak berisi versi terbaru yang tersedia.
Menggunakan Python Panda
Fleksibilitas Python memungkinkan Anda untuk menggunakan Panda dalam berbagai kerangka kerja. Ini termasuk editor kode Python dasar, perintah yang dikeluarkan dari shell Python terminal Anda, lingkungan interaktif seperti Spyder, PyCharm, Atom, dan banyak lainnya. Contoh dan perintah praktis dalam tutorial ini disajikan menggunakan Jupyter Notebook.
Mengimpor Pustaka Python Pandas
Untuk menganalisis dan mengerjakan data, Anda perlu mengimpor perpustakaan Pandas di lingkungan Python Anda. Mulai sesi Python dan impor Panda menggunakan perintah berikut:
import pandas as pd
import numpy as np
Ini dianggap praktik yang baik untuk mengimpor panda sebagai pd
dan numpy perpustakaan ilmiah sebagai np
. Tindakan ini memungkinkan Anda untuk menggunakan pd
atau np
saat mengetik perintah. Jika tidak, setiap kali perlu memasukkan nama modul lengkap.
Sangat penting untuk mengimpor perpustakaan Pandas setiap kali Anda memulai lingkungan Python baru.
Seri dan DataFrames
Python Pandas menggunakan Seri dan DataFrames untuk menyusun data dan mempersiapkannya untuk berbagai tindakan analitik. Kedua struktur data ini adalah tulang punggung fleksibilitas Panda. Pengguna yang sudah terbiasa dengan database relasional secara bawaan memahami konsep dan perintah dasar Panda.
Seri Panda
Seri mewakili objek dalam perpustakaan Pandas. Mereka memberikan struktur pada kumpulan data satu dimensi yang sederhana dengan memasangkan setiap elemen data dengan label unik. Seri terdiri dari dua larik – utama array yang menyimpan data dan indeks array yang menampung label berpasangan.
Gunakan contoh berikut untuk membuat Seri dasar. Dalam contoh ini, Seri menyusun nomor penjualan mobil yang diindeks oleh pabrikan:
s = pd.Series([10.8,10.7,10.3,7.4,0.25],
index = ['VW','Toyota','Renault','KIA','Tesla')
Setelah menjalankan perintah, ketik s
untuk melihat Seri yang baru saja Anda buat. Hasilnya mencantumkan produsen berdasarkan urutan yang mereka masukkan.
Anda dapat melakukan serangkaian fungsi yang kompleks dan beragam pada Seri, termasuk fungsi matematika, manipulasi data, dan operasi aritmatika antara Seri. Daftar lengkap parameter, atribut, dan metode Pandas tersedia di halaman resmi Pandas.
Bingkai Data Panda
DataFrame memperkenalkan dimensi baru ke struktur data Seri. Selain array indeks, kumpulan kolom yang diatur secara ketat menyediakan DataFrames dengan struktur seperti tabel. Setiap kolom dapat menyimpan tipe data yang berbeda. Coba buat dict secara manual objek yang disebut 'data' dengan data penjualan mobil yang sama:
data = { 'Company' : ['VW','Toyota','Renault','KIA','Tesla'],
'Cars Sold (millions)' : [10.8,10.7,10.3,7.4,0.25],
'Best Selling Model' : ['Golf','RAV4','Clio','Forte','Model 3']}
Teruskan objek 'data' ke pd.DataFrame()
konstruktor:
frame = pd.DataFrame(data)
Gunakan nama DataFrame, frame
, untuk menjalankan objek:
frame
DataFrame yang dihasilkan memformat nilai menjadi baris dan kolom.
Struktur DataFrame memungkinkan Anda untuk memilih dan memfilter nilai berdasarkan kolom dan baris, menetapkan nilai baru, dan mengubah posisi data. Seperti halnya Seri, halaman resmi Pandas menyediakan daftar lengkap parameter, atribut, dan metode DataFrame.
Membaca dan Menulis dengan Panda
Melalui Seri dan DataFrames, Pandas memperkenalkan serangkaian fungsi yang memungkinkan pengguna mengimpor file teks, format biner kompleks, dan informasi yang disimpan dalam database. Sintaks untuk membaca dan menulis data di Pandas sangatlah mudah:
pd.read_filetype = (filename or path)
– mengimpor data dari format lain ke dalam Pandas.df.to_filetype = (filename or path)
– mengekspor data dari Panda ke format lain.
Format yang paling umum mencakup CSV , XLXS , JSON , HTML, dan SQL .
Baca | Tulis |
---|---|
pd.read_csv ('nama file.csv') | df.to_csv ('nama file atau jalur') |
pd.read_excel ('nama file.xlsx') | df.to_excel ('nama file atau jalur') |
pd.read_json ('nama file.json') | df.to_json ('nama file atau jalur') |
pd.read_html ('nama file.htm') | df.to_html ('nama file atau jalur') |
pd.read_sql ('nama tabel') | df.to_sql ('Nama DB') |
Dalam contoh ini, nz_population File CSV berisi data populasi Selandia Baru selama 10 tahun sebelumnya. Impor file CSV menggunakan ke perpustakaan Pandas dengan perintah berikut:
pop_df = pd.read_csv('nz_population.csv')
Pengguna bebas menentukan nama untuk DataFrame (pop_df ). Ketik nama DataFrame yang baru dibuat untuk menampilkan larik data:
pop_df
Perintah Umum Panda
Setelah Anda mengimpor file ke perpustakaan Pandas, Anda dapat menggunakan serangkaian perintah langsung untuk menjelajahi dan memanipulasi kumpulan data.
Perintah DataFrame Dasar
Masukkan perintah berikut untuk mengambil ikhtisar pop_df DataFrame dari contoh sebelumnya:
pop_df.info()
Outputnya menyediakan jumlah entri, nama setiap kolom, tipe data, dan ukuran file.
Gunakan pop_df.head()
perintah untuk menampilkan 5 baris pertama DataFrame.
Ketik pop_df.tail()
perintah untuk menampilkan 5 baris terakhir pop_df DataFrame.
Pilih baris dan kolom tertentu menggunakan namanya dan iloc
atribut. Pilih satu kolom dengan menggunakan namanya dalam tanda kurung siku:
pop_df['population']
iloc
atribut memungkinkan Anda untuk mengambil subset baris dan kolom. Baris ditentukan di depan koma, dan kolom setelah koma. Perintah berikut mengambil data dari baris 6 hingga 16, dan kolom 2 hingga 4:
pop_df.iloc [6:15,2:4]
Tanda titik dua :
mengarahkan Panda untuk menampilkan seluruh subset yang ditentukan.
Ekspresi Bersyarat
Anda dapat memilih baris berdasarkan ekspresi bersyarat. Kondisi didefinisikan dalam tanda kurung siku []
. Perintah berikut memfilter baris dengan nilai kolom 'persen' lebih besar dari 0,50 persen.
pop_df [pop_df['percent'] > 0.50]
Agregasi Data
Gunakan fungsi untuk menghitung nilai dari seluruh array dan menghasilkan satu hasil. Tanda kurung siku []
juga memungkinkan pengguna untuk memilih satu kolom dan mengubahnya menjadi DataFrame. Perintah berikut membuat total_migration . baru DataFrame dari migrasi kolom di pop_df :
total_migration = pop_df['migration']
Verifikasi data dengan mencentang 5 baris pertama:
total_migration.head()
Hitung migrasi bersih ke Selandia Baru dengan df.sum()
fungsi:
total_migration = total_migration.sum()
total_migration
Output menghasilkan satu hasil yang mewakili jumlah total nilai dalam total_migration DataFrame.
Beberapa fungsi agregasi yang lebih umum meliputi:
df.mean()
– Hitung rata-rata nilai.df.median()
– Hitung median nilai.df.describe()
– Memberikan ringkasan statistik .df.min()/df.max()
– Nilai minimum dan maksimum dalam kumpulan data.df.idxmin()/df.idxmax()
– Nilai indeks minimum dan maksimum.
Fungsi penting ini hanya mewakili sebagian kecil dari tindakan dan operasi yang tersedia yang ditawarkan Pandas.