Lembar Cheat Pandas untuk Ilmu Data di Python

Lembar Cheat Panda

Apa itu Lembar Cheat Panda?

Library Pandas memiliki banyak fungsi, namun beberapa di antaranya membingungkan bagi sebagian orang. Kami di sini telah menyediakan sumber daya bermanfaat yang disebut Python Lembar Cheat Panda. Ini menjelaskan dasar-dasar Pandas dengan cara yang sederhana dan ringkas.

Baik Anda seorang pemula atau berpengalaman dengan Pandas, lembar contekan ini dapat berfungsi sebagai panduan referensi yang berguna. Ini mencakup berbagai topik, termasuk bekerja dengan struktur data Seri dan DataFrame, memilih dan mengurutkan data, dan menerapkan fungsi pada data Anda.

Singkatnya, Panda ini Python Cheat Sheet adalah sumber yang bagus bagi siapa pun yang ingin mempelajari lebih lanjut tentang penggunaan Python untuk Ilmu Data. Ini adalah alat referensi yang berguna. Ini dapat membantu Anda meningkatkan kemampuan Anda keterampilan analisis data dan bekerja lebih efisien dengan Pandas.

👉 Unduh PDF Lembar Cheat di sini

Menjelaskan fungsi penting di Pandas:

Untuk mulai bekerja dengan fungsi pandas, Anda perlu menginstal dan mengimpor pandas. Ada dua perintah untuk melakukan ini:

Langkah 1) # Instal Pandas

Instal pip panda

Langkah 2) # Impor Pandas

Impor panda sebagai pd

Sekarang, Anda dapat mulai bekerja dengan fungsi Pandas. Kami akan berupaya memanipulasi, menganalisis, dan membersihkan data. Berikut beberapa fungsi penting panda.

Struktur Data Panda

Seperti yang telah kita bahas bahwa Pandas memiliki dua struktur data yang disebut Seri dan DataFrames. Keduanya diberi label array dan dapat menampung tipe data apa pun. Satu-satunya perbedaan adalah bahwa Seri adalah larik satu dimensi, dan DataFrame adalah larik dua dimensi.

1. Seri

Ini adalah array berlabel satu dimensi. Itu dapat menampung semua tipe data.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. Bingkai Data

Ini adalah array berlabel dua dimensi. Itu dapat menampung semua tipe data dan ukuran kolom yang berbeda.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Lembar Cheat Panda

Mengimpor Data

Pandas memiliki kemampuan untuk mengimpor atau membaca berbagai jenis file di Notebook Anda.

Berikut adalah beberapa contoh yang diberikan di bawah ini.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Seleksi

Anda dapat memilih elemen berdasarkan lokasi atau indeksnya. Anda dapat memilih baris, kolom, dan nilai berbeda menggunakan teknik ini.

1. Seri

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. Bingkai Data

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Memilih berdasarkan Pengindeksan dan Pengaturan Boolean

1. Berdasarkan Posisi

df.iloc[0, 1]

df.iat[0, 1]

2. Berdasarkan Label

df.loc[[0],  ['Name']]

3. Berdasarkan Label/Posisi

df.loc[2] # Both are same
df.iloc[2]

4. Pengindeksan Boolean

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Pembersihan Data

Untuk Python Untuk tujuan lembar contekan pembersihan data, Anda dapat melakukan operasi berikut:

  • Ganti nama kolom menggunakan metode rename().
  • Perbarui nilai menggunakan metode at[] atau iat[] untuk mengakses dan mengubah elemen tertentu.
  • Buat salinan Seri atau bingkai data menggunakan metode copy().
  • Periksa nilai NULL menggunakan metode isnull(), dan hapus nilai tersebut menggunakan metode dropna().
  • Periksa nilai duplikat menggunakan metode duplikat(). Jatuhkan mereka menggunakan metode drop_duplikat().
  • Ganti nilai NULL menggunakan metode fill() dengan nilai yang ditentukan.
  • Ganti nilai menggunakan metode replace().
  • Urutkan nilai menggunakan metode sort_values().
  • Nilai peringkat menggunakan metode rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Mengambil Informasi

Anda dapat melakukan operasi ini untuk mengambil informasi:

  • Gunakan atribut bentuk untuk mendapatkan jumlah baris dan kolom.
  • Gunakan metode head() atau tail() untuk mendapatkan beberapa baris pertama atau terakhir sebagai sampel.
  • Gunakan metode info(), deskripsikan(), atau dtypes untuk memperoleh informasi tentang tipe data, jumlah, mean, deviasi standar, nilai minimum, dan maksimum.
  • Gunakan metode count(), min(), max(), sum(), mean(), dan median() untuk mendapatkan informasi statistik spesifik untuk nilai.
  • Gunakan metode loc[] untuk mendapatkan baris.
  • Gunakan metode groupby() untuk menerapkan fungsi GROUP BY untuk mengelompokkan nilai serupa dalam kolom DataFrame.

1. Informasi dasar

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Ringkasan

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Menerapkan Fungsi

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Penyelarasan Data Internal

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmatika Operations dengan Metode Isi

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filter, Urutkan, dan Kelompokkan Berdasarkan

Fungsi-fungsi berikut dapat digunakan untuk memfilter, mengurutkan, dan mengelompokkan berdasarkan Seri dan Kerangka Data.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Mengekspor Data

Pandas memiliki kemampuan mengekspor atau menulis data dalam berbagai format. Berikut adalah beberapa contoh yang diberikan di bawah ini.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Kesimpulan Lembar Cheat Pandas:

Panda adalah perpustakaan sumber terbuka Python untuk bekerja dengan kumpulan data. Kemampuannya untuk menganalisis, membersihkan, mengeksplorasi, dan memanipulasi data. Pandas dibangun di atas Numpy. Ini digunakan dengan program lain seperti Matplotlib dan Scikit-Belajar. Ini mencakup topik-topik seperti struktur data, pemilihan data, mengimpor data, pengindeksan Boolean, menghapus nilai, pengurutan, dan pembersihan data. Kami juga telah menyiapkan lembar contekan panda pdf untuk artikel. Pandas adalah perpustakaan di Python dan ilmu data menggunakan perpustakaan ini untuk bekerja dengan kerangka data dan seri pandas. Berbagai perintah panda telah kita bahas di cheatsheet ini.

Colab Lembar Cheat

File Latihan Colab saya untuk Pandas – Lembar Cheat Panda – Python untuk Ilmu Data.ipynb