Pandas Cheat Sheet pro Data Science in Python

Cheat Sheet pro pandy

Co je to Pandas Cheat Sheet?

Knihovna Pandas má mnoho funkcí, ale některé z nich jsou pro některé lidi matoucí. Zde jsme poskytli užitečný dostupný zdroj s názvem Python Cheat Sheet pro pandy. Vysvětluje základy Pandy jednoduchým a stručným způsobem.

Ať už jste začátečník nebo máte zkušenosti s Pandas, tento cheat list může sloužit jako užitečná referenční příručka. Pokrývá řadu témat, včetně práce s datovými strukturami Series a DataFrame, výběru a řazení dat a aplikace funkcí na vaše data.

Stručně řečeno, tyto Pandy Python Cheat Sheet je dobrým zdrojem pro každého, kdo se chce dozvědět více o používání Python pro Data Science. Je to šikovný referenční nástroj. Může vám to pomoci zlepšit vaše dovednosti analýzy dat a pracovat efektivněji s Pandas.

👉 Stáhněte si PDF Cheat Sheet zde

Vysvětlení důležitých funkcí v Pandas:

Chcete-li začít pracovat s funkcemi pandy, musíte pandy nainstalovat a importovat. K tomu slouží dva příkazy:

Krok 1) # Nainstalujte Pandy

Pip nainstalujte pandy

Krok 2) # Importujte pandy

Importujte pandy jako pd

Nyní můžete začít pracovat s funkcemi Pandas. Budeme pracovat na manipulaci, analýze a čištění dat. Zde jsou některé důležité funkce pand.

Datové struktury Pandas

Jak jsme již diskutovali, Pandas má dvě datové struktury nazývané Series a DataFrames. Obě jsou označená pole a mohou obsahovat libovolný datový typ. Jediný rozdíl je v tom, že Series je jednorozměrné pole a DataFrame je dvourozměrné pole.

1. Řada

Je to jednorozměrné označené pole. Může obsahovat jakýkoli typ dat.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Jedná se o dvourozměrné označené pole. Může obsahovat jakýkoli datový typ a různé velikosti sloupců.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Cheat Sheet pro pandy

Import dat

Pandy mají schopnost importovat nebo číst různé typy souborů ve vašem notebooku.

Zde je několik příkladů uvedených níže.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Výběr

Prvky můžete vybrat podle jejich umístění nebo indexu. Pomocí těchto technik můžete vybrat řádky, sloupce a odlišné hodnoty.

1. Řada

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Výběr podle logického indexování a nastavení

1. Podle pozice

df.iloc[0, 1]

df.iat[0, 1]

2. Podle štítku

df.loc[[0],  ['Name']]

3. Podle štítku/pozice

df.loc[2] # Both are same
df.iloc[2]

4. Booleovské indexování

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Čištění dat

Pro Python pro účely cheatů pro čištění dat můžete provádět následující operace:

  • Přejmenujte sloupce pomocí metody rename().
  • Aktualizujte hodnoty pomocí metody at[] nebo iat[] pro přístup ke konkrétním prvkům a jejich úpravu.
  • Vytvořte kopii série nebo datového rámce pomocí metody copy().
  • Zkontrolujte hodnoty NULL pomocí metody isnull() a zrušte je pomocí metody dropna().
  • Zkontrolujte duplicitní hodnoty pomocí metody duplicated(). Zrušte je pomocí metody drop_duplicates().
  • Nahraďte hodnoty NULL pomocí metody fill () zadanou hodnotou.
  • Nahraďte hodnoty pomocí metody replace() .
  • Seřaďte hodnoty pomocí metody sort_values().
  • Seřaďte hodnoty pomocí metody rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Načítání informací

Chcete-li získat informace, můžete provést tyto operace:

  • Pomocí atributu tvar získáte počet řádků a sloupců.
  • Pomocí metody head() nebo tail() získáte prvních nebo posledních několik řádků jako vzorek.
  • K získání informací o datovém typu, počtu, průměru, směrodatné odchylce, minimálních a maximálních hodnotách použijte metodu info(), description() nebo dtypes.
  • Pomocí metod count(), min(), max(), sum(), mean() a medián() získáte specifické statistické informace o hodnotách.
  • K získání řádku použijte metodu loc[].
  • Pomocí metody groupby() použijte funkci GROUP BY k seskupení podobných hodnot ve sloupci DataFrame.

1. Základní informace

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Shrnutí

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Použití funkcí

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Vnitřní zarovnání dat

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetika Operas metodami výplně

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtr, řazení a seskupování

Tyto následující funkce lze použít pro filtrování, řazení a seskupování podle Series a DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Export dat

Pandas má možnost exportovat nebo zapisovat data v různých formátech. Níže uvádíme několik příkladů.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas Cheat Sheet Závěr:

Pandy je knihovna s otevřeným zdrojovým kódem Python pro práci s datovými sadami. Jeho schopnost analyzovat, čistit, zkoumat a manipulovat s daty. Pandas je postavena na vrcholu Numpy. Používá se s jinými programy, jako je Matplotlib a scikit-učit se. Pokrývá témata, jako jsou datové struktury, výběr dat, import dat, logické indexování, vypouštění hodnot, řazení a čištění dat. K článku jsme také připravili cheat sheet pdf pro pandy. Pandy jsou knihovnou Python a datová věda používá tuto knihovnu pro práci s datovými snímky a sériemi pandas. V tomto cheatsheetu jsme probrali různé příkazy pandy.

Colab of Cheat Sheet

Můj soubor cvičení Colab pro Pandy – Cheat Sheet pro pandy – Python pro Data Science.ipynb