Pandas Cheat Sheet za podatkovnu znanost u Python

Pandas Cheat Sheet

Što je Pandas Cheat Sheet?

Knjižnica Pandas ima mnoge funkcije, ali neke od njih zbunjuju neke ljude. Ovdje smo ponudili koristan resurs koji se zove Python Pandas Cheat Sheet. Objašnjava osnove Panda na jednostavan i sažet način.

Bilo da ste početnik ili imate iskustva s Pandama, ova varalica može poslužiti kao koristan referentni vodič. Obuhvaća razne teme, uključujući rad s podatkovnim strukturama Series i DataFrame, odabir i redoslijed podataka te primjenu funkcija na vaše podatke.

Ukratko, ove Pande Python Cheat Sheet je dobar izvor za svakoga tko želi naučiti više o korištenju Python za podatkovnu znanost. To je praktičan referentni alat. Može vam pomoći da poboljšate svoj vještine analize podataka i učinkovitije raditi s Pandama.

👉 Preuzmite PDF Cheat Sheet ovdje

Objašnjavanje važnih funkcija u Pandas:

Da biste počeli raditi s pandas funkcijama, trebate instalirati i uvesti pandas. Postoje dvije naredbe za to:

Korak 1) # Instalirajte Pande

Pip instalirajte pande

Korak 2) # Uvezite pande

Uvezi pande kao pd

Sada možete početi raditi s Pandas funkcijama. Radit ćemo na manipuliranju, analizi i čišćenju podataka. Evo nekoliko važnih funkcija pandi.

Pandas strukture podataka

Kao što smo već spomenuli, Pandas ima dvije strukture podataka koje se zovu Series i DataFrames. Oba su označena polja i mogu sadržavati bilo koju vrstu podataka. Postoji jedina razlika u tome što je Series jednodimenzionalni niz, a DataFrame dvodimenzionalni niz.

1. Serija

To je jednodimenzionalni označeni niz. Može sadržavati bilo koju vrstu podataka.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

To je dvodimenzionalno označeno polje. Može sadržavati bilo koju vrstu podataka i različite veličine stupaca.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Pandas Cheat Sheet

Uvoz podataka

Pande imaju mogućnost uvoza ili čitanja raznih vrsta datoteka u vašoj bilježnici.

Evo nekoliko primjera navedenih u nastavku.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Izbor

Elemente možete odabrati prema njihovom položaju ili indeksu. Pomoću ovih tehnika možete odabrati retke, stupce i različite vrijednosti.

1. Serija

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Odabir Booleovim indeksiranjem i postavkom

1. Po poziciji

df.iloc[0, 1]

df.iat[0, 1]

2. Po etiketi

df.loc[[0],  ['Name']]

3. Po oznaci/poziciji

df.loc[2] # Both are same
df.iloc[2]

4. Booleovo indeksiranje

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Čišćenje podataka

Za Python u svrhu varalice za čišćenje podataka, možete izvesti sljedeće operacije:

  • Preimenujte stupce pomoću metode rename().
  • Ažurirajte vrijednosti pomoću metode at[] ili iat[] za pristup i izmjenu određenih elemenata.
  • Stvorite kopiju serije ili podatkovnog okvira pomoću metode copy().
  • Provjerite vrijednosti NULL pomoću metode isnull() i ispustite ih pomoću metode dropna().
  • Provjerite duplicirane vrijednosti pomoću metode duplicated(). Ispustite ih pomoću metode drop_duplicates().
  • Zamijenite NULL vrijednosti pomoću metode fill () navedenom vrijednošću.
  • Zamijenite vrijednosti pomoću metode replace().
  • Sortirajte vrijednosti pomoću metode sort_values().
  • Rangiranje vrijednosti pomoću metode rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Dohvaćanje informacija

Možete izvršiti ove operacije za dohvaćanje informacija:

  • Koristite atribut oblika da dobijete broj redaka i stupaca.
  • Upotrijebite metodu head() ili tail() za dobivanje prvih ili posljednjih nekoliko redaka kao uzorka.
  • Upotrijebite metodu info(), describe() ili dtypes za dobivanje informacija o vrsti podataka, broju, srednjoj vrijednosti, standardnoj devijaciji, minimalnim i maksimalnim vrijednostima.
  • Koristite metode count(), min(), max(), sum(), mean() i median() za dobivanje specifičnih statističkih informacija za vrijednosti.
  • Koristite metodu loc[] da dobijete red.
  • Koristite metodu groupby() za primjenu funkcije GROUP BY za grupiranje sličnih vrijednosti u stupcu DataFramea.

1. Osnovne informacije

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Sažetak

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Primjena funkcija

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Interno usklađivanje podataka

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetika Operacije s metodama popunjavanja

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtriraj, sortiraj i grupiraj prema

Ove sljedeće funkcije mogu se koristiti za filtriranje, sortiranje i grupiranje prema serijama i DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Izvoz podataka

Pandas ima mogućnost izvoza ili pisanja podataka u različitim formatima. Evo nekoliko primjera navedenih u nastavku.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas Cheat Sheet Zaključak:

pande je biblioteka otvorenog koda u Python za rad sa skupovima podataka. Njegova sposobnost analiziranja, čišćenja, istraživanja i manipuliranja podacima. Pandas je izgrađen na vrhu Numpyja. Koristi se s drugim programima kao što su Matplotlib i scikit-lear. Pokriva teme kao što su strukture podataka, odabir podataka, uvoz podataka, Booleovo indeksiranje, ispuštanje vrijednosti, sortiranje i čišćenje podataka. Također smo pripremili pandas cheat sheet pdf za članak. Pandas je knjižnica u Python a znanost o podacima koristi ovu biblioteku za rad s pandama podatkovnim okvirima i serijama. Raspravljali smo o raznim pandas naredbama u ovoj varalici.

Colab of Cheat Sheet

Moja Colab datoteka vježbi za Pande – Pandas Cheat Sheet – Python za znanost o podacima.ipynb