Bảng cheat Pandas cho khoa học dữ liệu trong Python
Bảng cheat Pandas là gì?
Thư viện Pandas có nhiều chức năng, nhưng một số chức năng trong số này gây nhầm lẫn cho một số người. Ở đây chúng tôi đã cung cấp một nguồn tài nguyên hữu ích có tên là Python Bảng cheat gấu trúc. Nó giải thích những điều cơ bản về Pandas một cách đơn giản và ngắn gọn.
Cho dù bạn là người mới hay đã có kinh nghiệm với Pandas, bảng ghi chú này có thể đóng vai trò là hướng dẫn tham khảo hữu ích. Nó bao gồm nhiều chủ đề khác nhau, bao gồm làm việc với cấu trúc dữ liệu Chuỗi và DataFrame, chọn và sắp xếp dữ liệu cũng như áp dụng các hàm cho dữ liệu của bạn.
Tóm lại, Pandas này Python Bảng Cheat là một nguồn tài nguyên tốt cho bất kỳ ai muốn tìm hiểu thêm về cách sử dụng Python cho Khoa học dữ liệu. Nó là một công cụ tham khảo hữu ích. Nó có thể giúp bạn cải thiện kỹ năng phân tích dữ liệu và làm việc hiệu quả hơn với Pandas.
👉 Tải xuống bản PDF của Cheat Sheet tại đây
Giải thích các chức năng quan trọng trong Pandas:
Để bắt đầu làm việc với các hàm pandas, bạn cần cài đặt và nhập pandas. Có hai lệnh để thực hiện việc này:
Bước 1) # Cài đặt Pandas
Pip cài đặt gấu trúc
Bước 2) # Nhập Pandas
Nhập gấu trúc dưới dạng pd
Bây giờ, bạn có thể bắt đầu làm việc với các hàm Pandas. Chúng tôi sẽ làm việc để thao tác, phân tích và làm sạch dữ liệu. Dưới đây là một số chức năng quan trọng của gấu trúc.
Cấu trúc dữ liệu Pandas
Như chúng ta đã thảo luận rằng Pandas có hai cấu trúc dữ liệu được gọi là Series và DataFrames. Cả hai đều là mảng được gắn nhãn và có thể chứa bất kỳ loại dữ liệu nào. Có sự khác biệt duy nhất là Sê-ri là mảng một chiều và DataFrame là mảng hai chiều.
1. Dòng
Nó là một mảng có nhãn một chiều. Nó có thể chứa bất kỳ loại dữ liệu nào.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. Khung dữ liệu
Nó là một mảng có nhãn hai chiều. Nó có thể chứa bất kỳ loại dữ liệu và kích thước cột khác nhau.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Nhập dữ liệu
Gấu trúc có khả năng nhập hoặc đọc nhiều loại tệp khác nhau trong Notebook của bạn.
Dưới đây là một số ví dụ được đưa ra dưới đây.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Lựa chọn
Bạn có thể chọn các phần tử theo vị trí hoặc chỉ mục của nó. Bạn có thể chọn hàng, cột và các giá trị riêng biệt bằng các kỹ thuật này.
1. Dòng
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. Khung dữ liệu
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Chọn theo lập chỉ mục và cài đặt Boolean
1. Theo vị trí
df.iloc[0, 1] df.iat[0, 1]
2. Theo nhãn
df.loc[[0], ['Name']]
3. Theo Nhãn/Vị trí
df.loc[2] # Both are same df.iloc[2]
4. Lập chỉ mục Boolean
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Làm sạch dữ liệu
Trong Python mục đích làm sạch dữ liệu, bạn có thể thực hiện các thao tác sau:
- Đổi tên các cột bằng phương thức đổi tên().
- Cập nhật giá trị bằng phương thức at[] hoặc iat[] để truy cập và sửa đổi các phần tử cụ thể.
- Tạo một bản sao của Sê-ri hoặc khung dữ liệu bằng phương thức copy().
- Kiểm tra các giá trị NULL bằng phương thức isnull() và loại bỏ chúng bằng phương thức dropna().
- Kiểm tra các giá trị trùng lặp bằng phương thức trùng lặp(). Thả chúng bằng phương thức drop_duplicates().
- Thay thế các giá trị NULL bằng phương thức fill () bằng một giá trị được chỉ định.
- Thay thế các giá trị bằng phương thức thay thế().
- Sắp xếp các giá trị bằng phương thức Sort_values().
- Xếp hạng các giá trị bằng phương thức Rank().
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Lấy thông tin
Bạn có thể thực hiện các thao tác này để lấy thông tin:
- Sử dụng thuộc tính hình dạng để lấy số hàng và cột.
- Sử dụng phương thức head() hoặc tail() để lấy một vài hàng đầu tiên hoặc cuối cùng làm mẫu.
- Sử dụng phương thức info(), description() hoặc dtypes để lấy thông tin về kiểu dữ liệu, số lượng, giá trị trung bình, độ lệch chuẩn, giá trị tối thiểu và tối đa.
- Sử dụng các phương thức count(), min(), max(), sum(), Mean() và middle() để thu được thông tin thống kê cụ thể cho các giá trị.
- Sử dụng phương thức loc[] để lấy một hàng.
- Sử dụng phương thức groupby() để áp dụng hàm GROUP BY để nhóm các giá trị tương tự trong một cột của DataFrame.
1. Thông tin cơ bản
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Tóm tắt thông tin
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Áp dụng hàm
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Căn chỉnh dữ liệu nội bộ
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Số học Operacác thao tác với Phương thức điền
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Lọc, sắp xếp và nhóm theo
Các hàm sau đây có thể được sử dụng để lọc, sắp xếp và nhóm theo Series và DataFrame.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Xuất dữ liệu
Pandas có khả năng xuất hoặc ghi dữ liệu ở nhiều định dạng khác nhau. Dưới đây là một số ví dụ được đưa ra dưới đây.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Bảng cheat Pandas Kết luận:
Gấu trúc là thư viện mã nguồn mở ở Python để làm việc với các tập dữ liệu. Khả năng phân tích, làm sạch, khám phá và thao tác dữ liệu của nó. Pandas được xây dựng dựa trên Numpy. Nó được sử dụng với các chương trình khác như Matplotlib và scikit-học. Nó bao gồm các chủ đề như cấu trúc dữ liệu, lựa chọn dữ liệu, nhập dữ liệu, lập chỉ mục Boolean, loại bỏ giá trị, sắp xếp và làm sạch dữ liệu. Chúng tôi cũng đã chuẩn bị pdf bảng cheat gấu trúc cho bài viết. Pandas là một thư viện ở Python và khoa học dữ liệu sử dụng thư viện này để làm việc với chuỗi và khung dữ liệu gấu trúc. Chúng tôi đã thảo luận về các lệnh gấu trúc khác nhau trong bảng tóm tắt này.
Colab của Cheat Sheet
Tệp bài tập Colab của tôi dành cho Pandas – Bảng cheat gấu trúc – Python cho Khoa học dữ liệu.ipynb