Panda's Cheatsheet voor datawetenschap in Python

Wat is Panda's Cheatsheet?
De Panda-bibliotheek heeft veel functies, maar sommige hiervan zijn voor sommige mensen verwarrend. We hebben hier een nuttige bron beschikbaar gesteld, genaamd de Python Panda's spiekbriefje. Het legt de basisprincipes van Panda's op een eenvoudige en beknopte manier uit.
Of je nu een nieuweling bent of ervaring hebt met Panda's, dit spiekbriefje kan dienen als een handig naslagwerk. Het behandelt een verscheidenheid aan onderwerpen, waaronder het werken met serie- en dataframe-datastructuren, het selecteren en ordenen van gegevens en het toepassen van functies op uw gegevens.
Kortom, deze Panda's Python Cheat Sheet is een goede bron voor iedereen die meer wil weten over het gebruik ervan Python voor Datawetenschap. Het is een handig naslagwerk. Het kan u helpen uw vaardigheden op het gebied van data-analyse en werk efficiënter met Panda's.
👉 Download hier de pdf van Cheat Sheet
Belangrijke functies in Panda's uitgelegd:
Om met panda's-functies te kunnen werken, moet je panda's installeren en importeren. Er zijn twee opdrachten om dit te doen:
Stap 1) # Panda's installeren
Pip installeer panda's
Stap 2) # Panda's importeren
Importeer panda's als pd
Nu kunt u aan de slag met Pandas-functies. We zullen werken aan het manipuleren, analyseren en opschonen van de gegevens. Hier zijn enkele belangrijke functies van panda's.
Gegevensstructuren van Panda's
Zoals we al hebben besproken, heeft Pandas twee datastructuren genaamd Series en DataFrames. Beide zijn gelabelde arrays en kunnen elk gegevenstype bevatten. Het enige verschil is dat Series een eendimensionale array is en DataFrame een tweedimensionale array.
1. Serie
Het is een eendimensionale gelabelde array. Het kan elk gegevenstype bevatten.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Het is een tweedimensionaal gelabelde array. Het kan elk gegevenstype en kolommen van verschillende grootte bevatten.
data = {'RollNo' : [101, 102, 75, 99],
'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()
Gegevens importeren
Panda's hebben de mogelijkheid om verschillende soorten bestanden in uw Notebook te importeren of te lezen.
Hier volgen enkele voorbeelden hieronder.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Selectie
U kunt elementen selecteren op locatie of index. Met deze technieken kunt u rijen, kolommen en afzonderlijke waarden selecteren.
1. Serie
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Selecteren via Booleaanse indexering en instelling
1. Op positie
df.iloc[0, 1] df.iat[0, 1]
2. Op etiket
df.loc[[0], ['Name']]
3. Op label/positie
df.loc[2] # Both are same df.iloc[2]
4. Booleaanse indexering
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Gegevens opschonen
Voor Python Voor doeleinden van data-cleaning cheat sheet kunt u de volgende bewerkingen uitvoeren:
- Hernoem kolommen met behulp van de rename() methode.
- Werk waarden bij met behulp van de methode at[] of iat[] om toegang te krijgen tot specifieke elementen en deze te wijzigen.
- Maak een kopie van een serie of dataframe met behulp van de copy() -methode.
- Controleer op NULL-waarden met behulp van de isnull()-methode en verwijder deze met behulp van de dropna()-methode.
- Controleer op dubbele waarden met behulp van de methode duplicated(). Zet ze neer met de methode drop_duplicates().
- Vervang NULL-waarden met behulp van de fill () -methode door een opgegeven waarde.
- Vervang waarden met behulp van de methode Replace().
- Sorteer waarden met behulp van de sort_values() methode.
- Rangschik waarden met behulp van de rang() methode.
# Renaming columns
df.columns = ['a','b','c']
df.head()
# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})
# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()
# Counting duplicates in a column
df.duplicated(subset='Name')
# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])
# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')
# Checks for Null Values
s.isnull()
# Checks for non-Null Values - reverse of isnull()
s.notnull()
# Checks for Null Values df
df.isnull()
# Checks for non-Null Values - reverse of isnull()
df.notnull()
# Drops all rows that contain null values
df.dropna()
# Drops all columns that contain null values
df.dropna(axis=1)
# Replaces all null values with 'Guru99'
df.fillna('Guru99')
# Replaces all null values with the mean
s.fillna(s.mean())
# Converts the datatype of the Series to float
s.astype(float)
# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')
# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])
# Drop from rows (axis=0)
s.drop(['B', 'D'])
# Drop from columns(axis=1)
df.drop('Name', axis=1)
# Sort by labels with axis
df.sort_index()
# Sort by values with axis
df.sort_values(by='RollNo')
# Ranking entries
df.rank()
# s1 is pointing to same Series as s
s1 = s
# s_copy of s, but not pointing same Series
s_copy = s.copy()
# df1 is pointing to same DataFrame as df
df1 = s
# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()
Informatie ophalen
U kunt de volgende bewerkingen uitvoeren om informatie op te halen:
- Gebruik het vormkenmerk om het aantal rijen en kolommen te verkrijgen.
- Gebruik de methode head() of tail() om de eerste of laatste paar rijen als voorbeeld te verkrijgen.
- Gebruik de methode info(), beschrijven() of dtypes om informatie te verkrijgen over het gegevenstype, het aantal, het gemiddelde, de standaarddeviatie, de minimum- en maximumwaarden.
- Gebruik de methoden count(), min(), max(), sum(), mean() en median() om specifieke statistische informatie voor waarden te verkrijgen.
- Gebruik de loc[] methode om een rij te verkrijgen.
- Gebruik de methode groupby() om de functie GROUP BY toe te passen om vergelijkbare waarden in een kolom van een DataFrame te groeperen.
1. Basis informatie
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Overzicht
# For adding all values column-wise
df.sum()
# For min column-wise
df.min()
# For max column-wise
df.max()
# For mean value in number column
df.mean()
# For median value in number column
df.median()
# Count non-Null values
s.count()
# Count non-Null values
df.count()
# Return Series of given column
df['Name'].tolist()
# Name of columns
df.columns.tolist()
# Creating subset
df[['Name', 'Course']]
# Return number of values in each group
df.groupby('Name').count()
Functies toepassen
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Interne gegevensuitlijning
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Rekenkunde Operamet vulmethoden
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Filteren, sorteren en groeperen op
De volgende functies kunnen worden gebruikt voor het filteren, sorteren en groeperen op Series en DataFrame.
# Filter rows where column is greater than 100
df[df['RollNo']>100]
# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]
# Sorts values in ascending order
s.sort_values()
# Sorts values in descending order
s.sort_values(ascending=False)
# Sorts values by RollNo in ascending order
df.sort_values('RollNo')
# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)
Gegevens exporteren
Pandas heeft de mogelijkheid om gegevens in verschillende formaten te exporteren of te schrijven. Hier volgen enkele voorbeelden hieronder.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Conclusie van het Panda's Cheat Sheet:
Pandas is een open-sourcebibliotheek in Python voor het werken met datasets. Het vermogen om gegevens te analyseren, op te schonen, te verkennen en te manipuleren. Pandas is bovenop Numpy gebouwd. Het wordt gebruikt met andere programma's zoals Matplotlib en Scikit-Leren. Het behandelt onderwerpen als datastructuren, dataselectie, het importeren van data, Booleaanse indexering, het laten vallen van waarden, sorteren en het opschonen van data. We hebben ook panda's spiekbriefje pdf voor artikel opgesteld. Panda's is een bibliotheek in Python en data science gebruikt deze bibliotheek voor het werken met panda-dataframes en -reeksen. In deze cheatsheet hebben we verschillende panda-opdrachten besproken.
Colab van Cheatsheet
Mijn Colab-oefenbestand voor Panda's – Panda's spiekbriefje – Python voor Data Science.ipynb

