Panda's Cheatsheet voor datawetenschap in Python
Wat is Panda's Cheatsheet?
De Panda-bibliotheek heeft veel functies, maar sommige hiervan zijn voor sommige mensen verwarrend. We hebben hier een nuttige bron beschikbaar gesteld, genaamd de Python Panda's spiekbriefje. Het legt de basisprincipes van Panda's op een eenvoudige en beknopte manier uit.
Of je nu een nieuweling bent of ervaring hebt met Panda's, dit spiekbriefje kan dienen als een handig naslagwerk. Het behandelt een verscheidenheid aan onderwerpen, waaronder het werken met serie- en dataframe-datastructuren, het selecteren en ordenen van gegevens en het toepassen van functies op uw gegevens.
Kortom, deze Panda's Python Cheat Sheet is een goede bron voor iedereen die meer wil weten over het gebruik ervan Python voor Datawetenschap. Het is een handig naslagwerk. Het kan u helpen uw vaardigheden op het gebied van data-analyse en werk efficiënter met Panda's.
👉 Download hier de pdf van Cheat Sheet
Belangrijke functies in Panda's uitgelegd:
Om met panda's-functies te kunnen werken, moet je panda's installeren en importeren. Er zijn twee opdrachten om dit te doen:
Stap 1) # Panda's installeren
Pip installeer panda's
Stap 2) # Panda's importeren
Importeer panda's als pd
Nu kunt u aan de slag met Pandas-functies. We zullen werken aan het manipuleren, analyseren en opschonen van de gegevens. Hier zijn enkele belangrijke functies van panda's.
Gegevensstructuren van Panda's
Zoals we al hebben besproken, heeft Pandas twee datastructuren genaamd Series en DataFrames. Beide zijn gelabelde arrays en kunnen elk gegevenstype bevatten. Het enige verschil is dat Series een eendimensionale array is en DataFrame een tweedimensionale array.
1. Serie
Het is een eendimensionale gelabelde array. Het kan elk gegevenstype bevatten.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Het is een tweedimensionaal gelabelde array. Het kan elk gegevenstype en kolommen van verschillende grootte bevatten.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Gegevens importeren
Panda's hebben de mogelijkheid om verschillende soorten bestanden in uw Notebook te importeren of te lezen.
Hier volgen enkele voorbeelden hieronder.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Selectie
U kunt elementen selecteren op locatie of index. Met deze technieken kunt u rijen, kolommen en afzonderlijke waarden selecteren.
1. Serie
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Selecteren via Booleaanse indexering en instelling
1. Op positie
df.iloc[0, 1] df.iat[0, 1]
2. Op etiket
df.loc[[0], ['Name']]
3. Op label/positie
df.loc[2] # Both are same df.iloc[2]
4. Booleaanse indexering
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Gegevens opschonen
Voor Python Voor doeleinden van data-cleaning cheat sheet kunt u de volgende bewerkingen uitvoeren:
- Hernoem kolommen met behulp van de rename() methode.
- Werk waarden bij met behulp van de methode at[] of iat[] om toegang te krijgen tot specifieke elementen en deze te wijzigen.
- Maak een kopie van een serie of dataframe met behulp van de copy() -methode.
- Controleer op NULL-waarden met behulp van de isnull()-methode en verwijder deze met behulp van de dropna()-methode.
- Controleer op dubbele waarden met behulp van de methode duplicated(). Zet ze neer met de methode drop_duplicates().
- Vervang NULL-waarden met behulp van de fill () -methode door een opgegeven waarde.
- Vervang waarden met behulp van de methode Replace().
- Sorteer waarden met behulp van de sort_values() methode.
- Rangschik waarden met behulp van de rang() methode.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Informatie ophalen
U kunt de volgende bewerkingen uitvoeren om informatie op te halen:
- Gebruik het vormkenmerk om het aantal rijen en kolommen te verkrijgen.
- Gebruik de methode head() of tail() om de eerste of laatste paar rijen als voorbeeld te verkrijgen.
- Gebruik de methode info(), beschrijven() of dtypes om informatie te verkrijgen over het gegevenstype, het aantal, het gemiddelde, de standaarddeviatie, de minimum- en maximumwaarden.
- Gebruik de methoden count(), min(), max(), sum(), mean() en median() om specifieke statistische informatie voor waarden te verkrijgen.
- Gebruik de loc[] methode om een rij te verkrijgen.
- Gebruik de methode groupby() om de functie GROUP BY toe te passen om vergelijkbare waarden in een kolom van een DataFrame te groeperen.
1. Basis informatie
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Overzicht
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Functies toepassen
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Interne gegevensuitlijning
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Rekenkunde Operamet vulmethoden
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Filteren, sorteren en groeperen op
De volgende functies kunnen worden gebruikt voor het filteren, sorteren en groeperen op Series en DataFrame.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Gegevens exporteren
Pandas heeft de mogelijkheid om gegevens in verschillende formaten te exporteren of te schrijven. Hier volgen enkele voorbeelden hieronder.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Conclusie van het Panda's Cheat Sheet:
Pandas is een open-sourcebibliotheek in Python voor het werken met datasets. Het vermogen om gegevens te analyseren, op te schonen, te verkennen en te manipuleren. Pandas is bovenop Numpy gebouwd. Het wordt gebruikt met andere programma's zoals Matplotlib en Scikit-Leren. Het behandelt onderwerpen als datastructuren, dataselectie, het importeren van data, Booleaanse indexering, het laten vallen van waarden, sorteren en het opschonen van data. We hebben ook panda's spiekbriefje pdf voor artikel opgesteld. Panda's is een bibliotheek in Python en data science gebruikt deze bibliotheek voor het werken met panda-dataframes en -reeksen. In deze cheatsheet hebben we verschillende panda-opdrachten besproken.
Colab van Cheatsheet
Mijn Colab-oefenbestand voor Panda's – Panda's spiekbriefje – Python voor Data Science.ipynb