Bảng cheat Pandas cho khoa học dữ liệu trong Python

Bảng cheat Pandas

Bảng cheat Pandas là gì?

Thư viện Pandas có nhiều chức năng, nhưng một số chức năng trong số này gây nhầm lẫn cho một số người. Ở đây chúng tôi đã cung cấp một nguồn tài nguyên hữu ích có tên là Python Bảng cheat gấu trúc. Nó giải thích những điều cơ bản về Pandas một cách đơn giản và ngắn gọn.

Cho dù bạn là người mới hay đã có kinh nghiệm với Pandas, bảng ghi chú này có thể đóng vai trò là hướng dẫn tham khảo hữu ích. Nó bao gồm nhiều chủ đề khác nhau, bao gồm làm việc với cấu trúc dữ liệu Chuỗi và DataFrame, chọn và sắp xếp dữ liệu cũng như áp dụng các hàm cho dữ liệu của bạn.

Tóm lại, Pandas này Python Bảng Cheat là một nguồn tài nguyên tốt cho bất kỳ ai muốn tìm hiểu thêm về cách sử dụng Python cho Khoa học dữ liệu. Nó là một công cụ tham khảo hữu ích. Nó có thể giúp bạn cải thiện kỹ năng phân tích dữ liệu và làm việc hiệu quả hơn với Pandas.

👉 Tải xuống bản PDF của Cheat Sheet tại đây

Giải thích các chức năng quan trọng trong Pandas:

Để bắt đầu làm việc với các hàm pandas, bạn cần cài đặt và nhập pandas. Có hai lệnh để thực hiện việc này:

Bước 1) # Cài đặt Pandas

Pip cài đặt gấu trúc

Bước 2) # Nhập Pandas

Nhập gấu trúc dưới dạng pd

Bây giờ, bạn có thể bắt đầu làm việc với các hàm Pandas. Chúng tôi sẽ làm việc để thao tác, phân tích và làm sạch dữ liệu. Dưới đây là một số chức năng quan trọng của gấu trúc.

Cấu trúc dữ liệu Pandas

Như chúng ta đã thảo luận rằng Pandas có hai cấu trúc dữ liệu được gọi là Series và DataFrames. Cả hai đều là mảng được gắn nhãn và có thể chứa bất kỳ loại dữ liệu nào. Có sự khác biệt duy nhất là Sê-ri là mảng một chiều và DataFrame là mảng hai chiều.

1. Dòng

Nó là một mảng có nhãn một chiều. Nó có thể chứa bất kỳ loại dữ liệu nào.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. Khung dữ liệu

Nó là một mảng có nhãn hai chiều. Nó có thể chứa bất kỳ loại dữ liệu và kích thước cột khác nhau.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Bảng cheat Pandas

Nhập dữ liệu

Gấu trúc có khả năng nhập hoặc đọc nhiều loại tệp khác nhau trong Notebook của bạn.

Dưới đây là một số ví dụ được đưa ra dưới đây.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Lựa chọn

Bạn có thể chọn các phần tử theo vị trí hoặc chỉ mục của nó. Bạn có thể chọn hàng, cột và các giá trị riêng biệt bằng các kỹ thuật này.

1. Dòng

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. Khung dữ liệu

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Chọn theo lập chỉ mục và cài đặt Boolean

1. Theo vị trí

df.iloc[0, 1]

df.iat[0, 1]

2. Theo nhãn

df.loc[[0],  ['Name']]

3. Theo Nhãn/Vị trí

df.loc[2] # Both are same
df.iloc[2]

4. Lập chỉ mục Boolean

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Làm sạch dữ liệu

Trong Python mục đích làm sạch dữ liệu, bạn có thể thực hiện các thao tác sau:

  • Đổi tên các cột bằng phương thức đổi tên().
  • Cập nhật giá trị bằng phương thức at[] hoặc iat[] để truy cập và sửa đổi các phần tử cụ thể.
  • Tạo một bản sao của Sê-ri hoặc khung dữ liệu bằng phương thức copy().
  • Kiểm tra các giá trị NULL bằng phương thức isnull() và loại bỏ chúng bằng phương thức dropna().
  • Kiểm tra các giá trị trùng lặp bằng phương thức trùng lặp(). Thả chúng bằng phương thức drop_duplicates().
  • Thay thế các giá trị NULL bằng phương thức fill () bằng một giá trị được chỉ định.
  • Thay thế các giá trị bằng phương thức thay thế().
  • Sắp xếp các giá trị bằng phương thức Sort_values().
  • Xếp hạng các giá trị bằng phương thức Rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Lấy thông tin

Bạn có thể thực hiện các thao tác này để lấy thông tin:

  • Sử dụng thuộc tính hình dạng để lấy số hàng và cột.
  • Sử dụng phương thức head() hoặc tail() để lấy một vài hàng đầu tiên hoặc cuối cùng làm mẫu.
  • Sử dụng phương thức info(), description() hoặc dtypes để lấy thông tin về kiểu dữ liệu, số lượng, giá trị trung bình, độ lệch chuẩn, giá trị tối thiểu và tối đa.
  • Sử dụng các phương thức count(), min(), max(), sum(), Mean() và middle() để thu được thông tin thống kê cụ thể cho các giá trị.
  • Sử dụng phương thức loc[] để lấy một hàng.
  • Sử dụng phương thức groupby() để áp dụng hàm GROUP BY để nhóm các giá trị tương tự trong một cột của DataFrame.

1. Thông tin cơ bản

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Tóm tắt thông tin

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Áp dụng hàm

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Căn chỉnh dữ liệu nội bộ

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Số học Operacác thao tác với Phương thức điền

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Lọc, sắp xếp và nhóm theo

Các hàm sau đây có thể được sử dụng để lọc, sắp xếp và nhóm theo Series và DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Xuất dữ liệu

Pandas có khả năng xuất hoặc ghi dữ liệu ở nhiều định dạng khác nhau. Dưới đây là một số ví dụ được đưa ra dưới đây.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Bảng cheat Pandas Kết luận:

Gấu trúc là thư viện mã nguồn mở ở Python để làm việc với các tập dữ liệu. Khả năng phân tích, làm sạch, khám phá và thao tác dữ liệu của nó. Pandas được xây dựng dựa trên Numpy. Nó được sử dụng với các chương trình khác như Matplotlib và scikit-học. Nó bao gồm các chủ đề như cấu trúc dữ liệu, lựa chọn dữ liệu, nhập dữ liệu, lập chỉ mục Boolean, loại bỏ giá trị, sắp xếp và làm sạch dữ liệu. Chúng tôi cũng đã chuẩn bị pdf bảng cheat gấu trúc cho bài viết. Pandas là một thư viện ở Python và khoa học dữ liệu sử dụng thư viện này để làm việc với chuỗi và khung dữ liệu gấu trúc. Chúng tôi đã thảo luận về các lệnh gấu trúc khác nhau trong bảng tóm tắt này.

Colab của Cheat Sheet

Tệp bài tập Colab của tôi dành cho Pandas – Bảng cheat gấu trúc – Python cho Khoa học dữ liệu.ipynb