Panda's Cheatsheet voor datawetenschap in Python

Panda's spiekbriefje

Wat is Panda's Cheatsheet?

De Panda-bibliotheek heeft veel functies, maar sommige hiervan zijn voor sommige mensen verwarrend. We hebben hier een nuttige bron ter beschikking gesteld, genaamd de Python Pandas Cheat Sheet. Het legt de basisprincipes van Panda's op een eenvoudige en beknopte manier uit.

Of je nu een nieuweling bent of ervaring hebt met Panda's, dit spiekbriefje kan dienen als een handig naslagwerk. Het behandelt een verscheidenheid aan onderwerpen, waaronder het werken met serie- en dataframe-datastructuren, het selecteren en ordenen van gegevens en het toepassen van functies op uw gegevens.

Samenvattend is dit Pandas Python Cheat Sheet een goede bron voor iedereen die meer wil weten over het gebruik van Python voor Data Science. Het is een handig naslagwerk. Het kan u helpen uw vaardigheden op het gebied van data-analyse en werk efficiënter met Panda's.

👉 Download hier de pdf van Cheat Sheet

Belangrijke functies in Panda's uitgelegd:

Om met panda's-functies te kunnen werken, moet je panda's installeren en importeren. Er zijn twee opdrachten om dit te doen:

Stap 1) # Panda's installeren

Pip installeer panda's

Stap 2) # Panda's importeren

Importeer panda's als pd

Nu kunt u aan de slag met Pandas-functies. We zullen werken aan het manipuleren, analyseren en opschonen van de gegevens. Hier zijn enkele belangrijke functies van panda's.

Gegevensstructuren van Panda's

Zoals we al hebben besproken, heeft Pandas twee datastructuren genaamd Series en DataFrames. Beide zijn gelabelde arrays en kunnen elk gegevenstype bevatten. Het enige verschil is dat Series een eendimensionale array is en DataFrame een tweedimensionale array.

1. Serie

Het is een eendimensionale gelabelde array. Het kan elk gegevenstype bevatten.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Het is een tweedimensionaal gelabelde array. Het kan elk gegevenstype en kolommen van verschillende grootte bevatten.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Panda's spiekbriefje

Gegevens importeren

Panda's hebben de mogelijkheid om verschillende soorten bestanden in uw Notebook te importeren of te lezen.

Hier volgen enkele voorbeelden hieronder.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Selectie

U kunt elementen selecteren op locatie of index. Met deze technieken kunt u rijen, kolommen en afzonderlijke waarden selecteren.

1. Serie

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Selecteren via Booleaanse indexering en instelling

1. Op positie

df.iloc[0, 1]

df.iat[0, 1]

2. Op etiket

df.loc[[0],  ['Name']]

3. Op label/positie

df.loc[2] # Both are same
df.iloc[2]

4. Booleaanse indexering

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Gegevens opschonen

Voor spiekbriefjes voor het opschonen van Python-gegevens kunt u het volgende uitvoerenwing operabanden:

  • Hernoem kolommen met behulp van de rename() methode.
  • Werk waarden bij met behulp van de methode at[] of iat[] om toegang te krijgen tot specifieke elementen en deze te wijzigen.
  • Maak een kopie van een serie of dataframe met behulp van de copy() -methode.
  • Controleer op NULL-waarden met behulp van de isnull()-methode en verwijder deze met behulp van de dropna()-methode.
  • Controleer op dubbele waarden met behulp van de methode duplicated(). Zet ze neer met de methode drop_duplicates().
  • Vervang NULL-waarden met behulp van de fill () -methode door een opgegeven waarde.
  • Vervang waarden met behulp van de methode Replace().
  • Sorteer waarden met behulp van de sort_values() methode.
  • Rangschik waarden met behulp van de rang() methode.
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Informatie ophalen

Deze kun je uitvoeren operaom informatie op te halen:

  • Gebruik het vormkenmerk om het aantal rijen en kolommen te verkrijgen.
  • Gebruik de methode head() of tail() om de eerste of laatste paar rijen als voorbeeld te verkrijgen.
  • Gebruik de methode info(), beschrijven() of dtypes om informatie te verkrijgen over het gegevenstype, het aantal, het gemiddelde, de standaarddeviatie, de minimum- en maximumwaarden.
  • Gebruik de methoden count(), min(), max(), sum(), mean() en median() om specifieke statistische informatie voor waarden te verkrijgen.
  • Gebruik de loc[] methode om een ​​rij te verkrijgen.
  • Gebruik de methode groupby() om de functie GROUP BY toe te passen om vergelijkbare waarden in een kolom van een DataFrame te groeperen.

1. Basis informatie

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Overzicht

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Functies toepassen

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Interne gegevensuitlijning

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Rekenkunde Operamet vulmethoden

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filteren, sorteren en groeperen op

Deze volgenwing functies kunnen worden gebruikt voor filteren, sorteren en groeperen op serie en dataframe.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Gegevens exporteren

Pandas heeft de mogelijkheid om gegevens in verschillende formaten te exporteren of te schrijven. Hier volgen enkele voorbeelden hieronder.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Conclusie van het Panda's Cheat Sheet:

Pandas is een open-sourcebibliotheek in Python voor het werken met datasets. Het vermogen om gegevens te analyseren, op te schonen, te verkennen en te manipuleren. Pandas is bovenop Numpy gebouwd. Het wordt gebruikt met andere programma's zoals Matplotlib en Scikit-Leren. Het behandelt onderwerpen als datastructuren, dataselectie, het importeren van data, Booleaanse indexering, het laten vallen van waarden, sorteren en het opschonen van data. We hebben ook panda's spiekbriefje pdf voor artikel opgesteld. Pandas is een bibliotheek in Python en data science gebruikt deze bibliotheek voor het werken met panda-dataframes en -reeksen. We hebben in deze cheatsheet verschillende panda-opdrachten besproken.

Colab van Cheatsheet

Mijn Colab-oefenbestand voor Panda's – Pandas Cheat Sheet – Python voor Data Science.ipynb