Pandas Cheat Sheet pentru Data Science în Python

Panda Cheat Sheet

Ce este Pandas Cheat Sheet?

Biblioteca Pandas are multe funcții, dar unele dintre acestea sunt confuze pentru unii oameni. Am oferit aici o resursă utilă disponibilă numită Python Cheat Sheet Pandas. Acesta explică elementele de bază ale lui Pandas într-un mod simplu și concis.

Indiferent dacă sunteți începător sau experimentați cu Pandas, această fișă de cheat poate servi drept ghid de referință util. Acesta acoperă o varietate de subiecte, inclusiv lucrul cu structurile de date Series și DataFrame, selectarea și ordonarea datelor și aplicarea funcțiilor datelor dvs.

Pe scurt, acest Panda Python Cheat Sheet este o resursă bună pentru oricine dorește să afle mai multe despre utilizare Python pentru Data Science. Este un instrument de referință la îndemână. Vă poate ajuta să vă îmbunătățiți abilități de analiză a datelor și lucrează mai eficient cu Pandas.

👉 Descărcați PDF-ul Cheat Sheet aici

Explicarea funcțiilor importante în Pandas:

Pentru a începe să lucrați cu funcțiile panda, trebuie să instalați și să importați panda. Există două comenzi pentru a face acest lucru:

Pasul 1) # Instalați Pandas

Pip instalează panda

Pasul 2) # Import Pandas

Importa panda ca pd

Acum, puteți începe să lucrați cu funcțiile Pandas. Vom lucra pentru a manipula, analiza și curăța datele. Iată câteva funcții importante ale panda.

Structuri de date Pandas

După cum am discutat deja, Pandas are două structuri de date numite Series și DataFrames. Ambele sunt matrice etichetate și pot conține orice tip de date. Există singura diferență că Series este o matrice unidimensională, iar DataFrame este o matrice bidimensională.

1. Seria

Este o matrice etichetată unidimensională. Poate deține orice tip de date.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Este o matrice etichetată bidimensională. Poate conține orice tip de date și diferite dimensiuni de coloane.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Panda Cheat Sheet

Importul datelor

Pandas au capacitatea de a importa sau de a citi diferite tipuri de fișiere în Notebook.

Iată câteva exemple prezentate mai jos.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Selecţie

Puteți selecta elemente după locația sau indexul lor. Puteți selecta rânduri, coloane și valori distincte folosind aceste tehnici.

1. Seria

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Selectarea prin indexare booleană și setare

1. După poziție

df.iloc[0, 1]

df.iat[0, 1]

2. După Etichetă

df.loc[[0],  ['Name']]

3. După Etichetă/Poziție

df.loc[2] # Both are same
df.iloc[2]

4. Indexare booleană

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Curatarea datelor

Pentru Python În scopul curățării datelor, puteți efectua următoarele operațiuni:

  • Redenumiți coloanele folosind metoda rename().
  • Actualizați valorile folosind metoda at[] sau iat[] pentru a accesa și modifica anumite elemente.
  • Creați o copie a unei Serii sau a unui cadru de date folosind metoda copy().
  • Verificați valorile NULL utilizând metoda isnull() și aruncați-le folosind metoda dropna().
  • Verificați dacă există valori duplicate folosind metoda duplicated(). Aruncă-le folosind metoda drop_duplicates().
  • Înlocuiți valorile NULL utilizând metoda de umplere () cu o valoare specificată.
  • Înlocuiți valorile folosind metoda replace().
  • Sortați valorile folosind metoda sort_values().
  • Clasați valorile folosind metoda rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Preluarea informațiilor

Puteți efectua aceste operațiuni pentru a prelua informații:

  • Utilizați atributul shape pentru a obține numărul de rânduri și coloane.
  • Utilizați metoda head() sau tail() pentru a obține primele sau ultimele rânduri ca probă.
  • Utilizați metoda info(), describe() sau dtypes pentru a obține informații despre tipul de date, număr, medie, abatere standard, valori minime și maxime.
  • Utilizați metodele count(), min(), max(), sum(), mean() și median() pentru a obține informații statistice specifice pentru valori.
  • Utilizați metoda loc[] pentru a obține un rând.
  • Utilizați metoda groupby() pentru a aplica funcția GROUP BY pentru a grupa valori similare într-o coloană a unui DataFrame.

1. Informatii de baza

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Rezumat

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Aplicarea Funcțiilor

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Alinierea internă a datelor

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetica Operacu metode de umplere

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrați, sortați și grupați după

Următoarele funcții pot fi utilizate pentru filtrarea, sortarea și gruparea după Serii și DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Exportarea datelor

Pandas are capacitatea de a exporta sau scrie date în diferite formate. Iată câteva exemple prezentate mai jos.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas Cheat Sheet Concluzie:

ursi panda este o bibliotecă open-source în Python pentru lucrul cu seturi de date. Capacitatea sa de a analiza, curăța, explora și manipula date. Pandas este construit deasupra lui Numpy. Este folosit cu alte programe precum Matplotlib și Scikit-Learn. Acesta acoperă subiecte precum structurile de date, selecția datelor, importarea datelor, indexarea booleană, eliminarea valorilor, sortarea și curățarea datelor. Am pregătit, de asemenea, fișa de trucuri panda pdf pentru articol. Pandas este o bibliotecă în Python iar știința datelor folosește această bibliotecă pentru a lucra cu cadre și serii de date panda. Am discutat despre diverse comenzi panda în această foaie de cheat.

Colab de Cheat Sheet

Fișierul meu de exerciții Colab pentru Pandas – Cheat Sheet Pandas - Python pentru Data Science.ipynb