GNU/Linux >> Belajar Linux >  >> Ubuntu

Pengantar Panda Python

Pendahuluan

Pandas adalah pustaka Python sumber terbuka yang terutama digunakan untuk analisis data. Kumpulan alat dalam paket Pandas adalah sumber daya penting untuk menyiapkan, mengubah, dan menggabungkan data dengan Python.

Pustaka Pandas didasarkan pada paket NumPy dan kompatibel dengan beragam modul yang ada. Penambahan dua struktur data tabular baru, Seri dan DataFrames , memungkinkan pengguna untuk memanfaatkan fitur yang serupa dengan yang ada di database atau spreadsheet relasional.

Artikel ini menunjukkan kepada Anda cara memasang Python Pandas dan memperkenalkan perintah dasar Panda.

Cara Memasang Python Pandas

Popularitas Python telah menghasilkan banyak distribusi dan paket. Manajer paket adalah alat efisien yang digunakan untuk mengotomatisasi proses instalasi, mengelola peningkatan, mengonfigurasi, dan menghapus paket dan dependensi Python.

Catatan: Versi Python 3.6.1 atau lebih baru merupakan prasyarat untuk instalasi Pandas. Gunakan panduan terperinci kami untuk memeriksa versi Python Anda saat ini. Jika Anda tidak memiliki versi Python yang diperlukan, Anda dapat menggunakan salah satu panduan terperinci ini:

  • Cara menginstal Python 3.8 di Ubuntu 18.04 atau Ubuntu 20.04.
  • Cara Menginstal Python 3 di Windows 10
  • Cara Menginstal Versi Terbaru Python 3 di Centos 7

Instal Panda dengan Anaconda

Paket Anaconda sudah berisi perpustakaan Pandas. Periksa versi Pandas saat ini dengan mengetikkan perintah berikut di terminal Anda:

conda list pandas

Outputnya mengonfirmasi versi dan build Pandas.

Jika Pandas tidak ada di sistem Anda, Anda juga dapat menggunakan conda alat untuk menginstal Panda:

conda install pandas

Anaconda mengelola seluruh transaksi dengan menginstal kumpulan modul dan dependensi.

Instal Panda dengan pip

Repositori perangkat lunak PyPI dikelola secara teratur dan memelihara versi terbaru perangkat lunak berbasis Python. Instal pip, pengelola paket PyPI, dan gunakan untuk menerapkan panda Python:

pip3 install pandas

Proses pengunduhan dan penginstalan memerlukan beberapa saat untuk diselesaikan.

Instal Pandas di Linux

Menginstal solusi yang sudah dikemas mungkin tidak selalu menjadi pilihan yang disukai. Anda dapat menginstal Pandas pada distribusi Linux apa pun menggunakan metode yang sama seperti modul lainnya. Misalnya, gunakan perintah berikut untuk menginstal modul Pandas dasar di Ubuntu 20.04:

sudo apt install python3-pandas -y 

Ingatlah bahwa paket dalam repositori Linux sering kali tidak berisi versi terbaru yang tersedia.

Menggunakan Python Panda

Fleksibilitas Python memungkinkan Anda untuk menggunakan Panda dalam berbagai kerangka kerja. Ini termasuk editor kode Python dasar, perintah yang dikeluarkan dari shell Python terminal Anda, lingkungan interaktif seperti Spyder, PyCharm, Atom, dan banyak lainnya. Contoh dan perintah praktis dalam tutorial ini disajikan menggunakan Jupyter Notebook.

Mengimpor Pustaka Python Pandas

Untuk menganalisis dan mengerjakan data, Anda perlu mengimpor perpustakaan Pandas di lingkungan Python Anda. Mulai sesi Python dan impor Panda menggunakan perintah berikut:

import pandas as pd
import numpy as np

Ini dianggap praktik yang baik untuk mengimpor panda sebagai pd dan numpy perpustakaan ilmiah sebagai np . Tindakan ini memungkinkan Anda untuk menggunakan pd atau np saat mengetik perintah. Jika tidak, setiap kali perlu memasukkan nama modul lengkap.

Sangat penting untuk mengimpor perpustakaan Pandas setiap kali Anda memulai lingkungan Python baru.

Seri dan DataFrames

Python Pandas menggunakan Seri dan DataFrames untuk menyusun data dan mempersiapkannya untuk berbagai tindakan analitik. Kedua struktur data ini adalah tulang punggung fleksibilitas Panda. Pengguna yang sudah terbiasa dengan database relasional secara bawaan memahami konsep dan perintah dasar Panda.

Seri Panda

Seri mewakili objek dalam perpustakaan Pandas. Mereka memberikan struktur pada kumpulan data satu dimensi yang sederhana dengan memasangkan setiap elemen data dengan label unik. Seri terdiri dari dua larik – utama array yang menyimpan data dan indeks array yang menampung label berpasangan.

Gunakan contoh berikut untuk membuat Seri dasar. Dalam contoh ini, Seri menyusun nomor penjualan mobil yang diindeks oleh pabrikan:

s = pd.Series([10.8,10.7,10.3,7.4,0.25], 
      index = ['VW','Toyota','Renault','KIA','Tesla')

Setelah menjalankan perintah, ketik s untuk melihat Seri yang baru saja Anda buat. Hasilnya mencantumkan produsen berdasarkan urutan yang mereka masukkan.

Anda dapat melakukan serangkaian fungsi yang kompleks dan beragam pada Seri, termasuk fungsi matematika, manipulasi data, dan operasi aritmatika antara Seri. Daftar lengkap parameter, atribut, dan metode Pandas tersedia di halaman resmi Pandas.

Bingkai Data Panda

DataFrame memperkenalkan dimensi baru ke struktur data Seri. Selain array indeks, kumpulan kolom yang diatur secara ketat menyediakan DataFrames dengan struktur seperti tabel. Setiap kolom dapat menyimpan tipe data yang berbeda. Coba buat dict secara manual objek yang disebut 'data' dengan data penjualan mobil yang sama:

data = { 'Company' : ['VW','Toyota','Renault','KIA','Tesla'],
'Cars Sold (millions)' : [10.8,10.7,10.3,7.4,0.25],
'Best Selling Model' : ['Golf','RAV4','Clio','Forte','Model 3']}

Teruskan objek 'data' ke pd.DataFrame() konstruktor:

frame = pd.DataFrame(data)

Gunakan nama DataFrame, frame , untuk menjalankan objek:

frame

DataFrame yang dihasilkan memformat nilai menjadi baris dan kolom.

Struktur DataFrame memungkinkan Anda untuk memilih dan memfilter nilai berdasarkan kolom dan baris, menetapkan nilai baru, dan mengubah posisi data. Seperti halnya Seri, halaman resmi Pandas menyediakan daftar lengkap parameter, atribut, dan metode DataFrame.

Membaca dan Menulis dengan Panda

Melalui Seri dan DataFrames, Pandas memperkenalkan serangkaian fungsi yang memungkinkan pengguna mengimpor file teks, format biner kompleks, dan informasi yang disimpan dalam database. Sintaks untuk membaca dan menulis data di Pandas sangatlah mudah:

  • pd.read_filetype = (filename or path) – mengimpor data dari format lain ke dalam Pandas.
  • df.to_filetype = (filename or path) – mengekspor data dari Panda ke format lain.

Format yang paling umum mencakup CSV , XLXS , JSON , HTML, dan SQL .

Baca Tulis
pd.read_csv ('nama file.csv') df.to_csv ('nama file atau jalur')
pd.read_excel ('nama file.xlsx') df.to_excel ('nama file atau jalur')
pd.read_json ('nama file.json') df.to_json ('nama file atau jalur')
pd.read_html ('nama file.htm') df.to_html ('nama file atau jalur')
pd.read_sql ('nama tabel') df.to_sql ('Nama DB')

Dalam contoh ini, nz_population File CSV berisi data populasi Selandia Baru selama 10 tahun sebelumnya. Impor file CSV menggunakan ke perpustakaan Pandas dengan perintah berikut:

pop_df = pd.read_csv('nz_population.csv')

Pengguna bebas menentukan nama untuk DataFrame (pop_df ). Ketik nama DataFrame yang baru dibuat untuk menampilkan larik data:

pop_df

Perintah Umum Panda

Setelah Anda mengimpor file ke perpustakaan Pandas, Anda dapat menggunakan serangkaian perintah langsung untuk menjelajahi dan memanipulasi kumpulan data.

Perintah DataFrame Dasar

Masukkan perintah berikut untuk mengambil ikhtisar pop_df DataFrame dari contoh sebelumnya:

pop_df.info()

Outputnya menyediakan jumlah entri, nama setiap kolom, tipe data, dan ukuran file.

Gunakan pop_df.head() perintah untuk menampilkan 5 baris pertama DataFrame.

Ketik pop_df.tail() perintah untuk menampilkan 5 baris terakhir pop_df DataFrame.

Pilih baris dan kolom tertentu menggunakan namanya dan iloc atribut. Pilih satu kolom dengan menggunakan namanya dalam tanda kurung siku:

pop_df['population']

iloc atribut memungkinkan Anda untuk mengambil subset baris dan kolom. Baris ditentukan di depan koma, dan kolom setelah koma. Perintah berikut mengambil data dari baris 6 hingga 16, dan kolom 2 hingga 4:

pop_df.iloc [6:15,2:4]

Tanda titik dua : mengarahkan Panda untuk menampilkan seluruh subset yang ditentukan.

Ekspresi Bersyarat

Anda dapat memilih baris berdasarkan ekspresi bersyarat. Kondisi didefinisikan dalam tanda kurung siku [] . Perintah berikut memfilter baris dengan nilai kolom 'persen' lebih besar dari 0,50 persen.

pop_df [pop_df['percent'] > 0.50]

Agregasi Data

Gunakan fungsi untuk menghitung nilai dari seluruh array dan menghasilkan satu hasil. Tanda kurung siku [] juga memungkinkan pengguna untuk memilih satu kolom dan mengubahnya menjadi DataFrame. Perintah berikut membuat total_migration . baru DataFrame dari migrasi kolom di pop_df :

total_migration = pop_df['migration']

Verifikasi data dengan mencentang 5 baris pertama:

total_migration.head()

Hitung migrasi bersih ke Selandia Baru dengan df.sum() fungsi:

total_migration = total_migration.sum()
total_migration

Output menghasilkan satu hasil yang mewakili jumlah total nilai dalam total_migration DataFrame.

Beberapa fungsi agregasi yang lebih umum meliputi:

  • df.mean() – Hitung rata-rata nilai.
  • df.median() – Hitung median nilai.
  • df.describe() – Memberikan ringkasan statistik .
  • df.min()/df.max() – Nilai minimum dan maksimum dalam kumpulan data.
  • df.idxmin()/df.idxmax() – Nilai indeks minimum dan maksimum.

Fungsi penting ini hanya mewakili sebagian kecil dari tindakan dan operasi yang tersedia yang ditawarkan Pandas.


Ubuntu
  1. Bagaimana Cara Memperbarui Python Dari 3.4.3 Menjadi 3.5??

  2. Bagaimana Cara Menginstal Python 3.2 Di Ubuntu 13.04?

  3. Python Dibandingkan Dengan Bash?

  1. Python any() Fungsi di Linux

  2. Instalasi Python 3.3.2?

  3. Pengantar Docker

  1. Pengantar Volume Persisten Kubernetes

  2. Python abs() Fungsi

  3. Cara Menginstal Python 3.9 di Ubuntu 18.04