Pandas Cheat Sheet за Data Science в Python
Какво е Pandas Cheat Sheet?
Библиотеката Pandas има много функции, но някои от тях са объркващи за някои хора. Тук сме предоставили наличен полезен ресурс, наречен Python Pandas Cheat Sheet. Той обяснява основите на Pandas по прост и стегнат начин.
Независимо дали сте начинаещ или имате опит с Pandas, този измамен лист може да ви послужи като полезно справочно ръководство. Той обхваща различни теми, включително работа със структури от данни Series и DataFrame, избор и подреждане на данни и прилагане на функции към вашите данни.
Накратко, това Pandas Python Cheat Sheet е добър ресурс за всеки, който иска да научи повече за използването Python за Data Science. Това е удобен справочен инструмент. Може да ви помогне да подобрите вашите умения за анализ на данни и да работят по-ефективно с Pandas.
👉 Изтеглете PDF файла Cheat Sheet тук
Обяснение на важни функции в Pandas:
За да започнете да работите с функциите на pandas, трябва да инсталирате и импортирате pandas. Има две команди за това:
Стъпка 1) # Инсталирайте Pandas
Pip инсталирайте pandas
Стъпка 2) # Импортирайте Pandas
Импортиране на панди като pd
Сега можете да започнете да работите с функциите на Pandas. Ще работим за манипулиране, анализиране и почистване на данните. Ето някои важни функции на пандите.
Структури на данни на Pandas
Както вече обсъдихме, Pandas има две структури от данни, наречени Series и DataFrames. И двата са етикетирани масиви и могат да съдържат всеки тип данни. Има единствената разлика, че Series е едноизмерен масив, а DataFrame е двуизмерен масив.
1. Серия
Това е едномерен етикетиран масив. Може да съдържа всеки тип данни.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Това е двуизмерен етикетиран масив. Може да съдържа всякакъв тип данни и различни размери колони.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Импортиране на данни
Pandas имат способността да импортират или четат различни типове файлове във вашия Бележник.
Ето някои примери, дадени по-долу.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
селекция
Можете да изберете елементи по тяхното местоположение или индекс. Можете да изберете редове, колони и отделни стойности, като използвате тези техники.
1. Серия
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Избор чрез булево индексиране и настройка
1. По длъжност
df.iloc[0, 1] df.iat[0, 1]
2. По етикет
df.loc[[0], ['Name']]
3. По етикет/позиция
df.loc[2] # Both are same df.iloc[2]
4. Булево индексиране
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Почистване на данни
За Python за целите на измамнически лист за почистване на данни можете да извършите следните операции:
- Преименувайте колоните с помощта на метода rename().
- Актуализирайте стойностите с помощта на метода at[] или iat[] за достъп и модифициране на определени елементи.
- Създайте копие на серия или рамка с данни, като използвате метода copy().
- Проверете за NULL стойности с помощта на метода isnull() и ги пуснете с помощта на метода dropna().
- Проверете за дублирани стойности с помощта на метода duplicated(). Пуснете ги с помощта на метода drop_duplicates().
- Заменете NULL стойности, като използвате метода fill () с определена стойност.
- Заменете стойностите с помощта на метода replace().
- Сортирайте стойностите с помощта на метода sort_values().
- Класирайте стойностите с помощта на метода rank().
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Извличане на информация
Можете да извършите тези операции, за да извлечете информация:
- Използвайте атрибута shape, за да получите броя на редовете и колоните.
- Използвайте метода head() или tail(), за да получите първите или последните няколко реда като проба.
- Използвайте метода info(), describe() или dtypes, за да получите информация за типа на данните, броя, средната стойност, стандартното отклонение, минималните и максималните стойности.
- Използвайте методите count(), min(), max(), sum(), mean() и median(), за да получите специфична статистическа информация за стойности.
- Използвайте метода loc[], за да получите ред.
- Използвайте метода groupby(), за да приложите функцията GROUP BY, за да групирате подобни стойности в колона на DataFrame.
1. Основна информация
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Обобщение
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Прилагане на функции
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Вътрешно подравняване на данните
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Аритметика Operaции с методи за попълване
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Филтриране, сортиране и групиране по
Следните функции могат да се използват за филтриране, сортиране и групиране по Series и DataFrame.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Експортиране на данни
Pandas има способността да експортира или записва данни в различни формати. Ето някои примери, дадени по-долу.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Pandas Cheat Sheet Заключение:
Пандите е библиотека с отворен код в Python за работа с масиви от данни. Способността му да анализира, почиства, изследва и манипулира данни. Pandas е изграден върху Numpy. Използва се с други програми като Matplotlib и scikit-learn. Обхваща теми като структури от данни, избор на данни, импортиране на данни, булево индексиране, премахване на стойности, сортиране и почистване на данни. Подготвили сме също така панди cheat sheet pdf за статия. Pandas е библиотека в Python и науката за данни използва тази библиотека за работа с рамки от данни и серии на pandas. Обсъдихме различни команди на pandas в този измамен лист.
Colab на Cheat Sheet
Моят файл за упражнения в Colab за Pandas – Pandas Cheat Sheet – Python за Data Science.ipynb