Pandas Cheat Sheet za podatkovnu znanost u Python
Što je Pandas Cheat Sheet?
Knjižnica Pandas ima mnoge funkcije, ali neke od njih zbunjuju neke ljude. Ovdje smo ponudili koristan resurs koji se zove Python Pandas Cheat Sheet. Objašnjava osnove Panda na jednostavan i sažet način.
Bilo da ste početnik ili imate iskustva s Pandama, ova varalica može poslužiti kao koristan referentni vodič. Obuhvaća razne teme, uključujući rad s podatkovnim strukturama Series i DataFrame, odabir i redoslijed podataka te primjenu funkcija na vaše podatke.
Ukratko, ove Pande Python Cheat Sheet je dobar izvor za svakoga tko želi naučiti više o korištenju Python za podatkovnu znanost. To je praktičan referentni alat. Može vam pomoći da poboljšate svoj vještine analize podataka i učinkovitije raditi s Pandama.
👉 Preuzmite PDF Cheat Sheet ovdje
Objašnjavanje važnih funkcija u Pandas:
Da biste počeli raditi s pandas funkcijama, trebate instalirati i uvesti pandas. Postoje dvije naredbe za to:
Korak 1) # Instalirajte Pande
Pip instalirajte pande
Korak 2) # Uvezite pande
Uvezi pande kao pd
Sada možete početi raditi s Pandas funkcijama. Radit ćemo na manipuliranju, analizi i čišćenju podataka. Evo nekoliko važnih funkcija pandi.
Pandas strukture podataka
Kao što smo već spomenuli, Pandas ima dvije strukture podataka koje se zovu Series i DataFrames. Oba su označena polja i mogu sadržavati bilo koju vrstu podataka. Postoji jedina razlika u tome što je Series jednodimenzionalni niz, a DataFrame dvodimenzionalni niz.
1. Serija
To je jednodimenzionalni označeni niz. Može sadržavati bilo koju vrstu podataka.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
To je dvodimenzionalno označeno polje. Može sadržavati bilo koju vrstu podataka i različite veličine stupaca.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Uvoz podataka
Pande imaju mogućnost uvoza ili čitanja raznih vrsta datoteka u vašoj bilježnici.
Evo nekoliko primjera navedenih u nastavku.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Izbor
Elemente možete odabrati prema njihovom položaju ili indeksu. Pomoću ovih tehnika možete odabrati retke, stupce i različite vrijednosti.
1. Serija
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Odabir Booleovim indeksiranjem i postavkom
1. Po poziciji
df.iloc[0, 1] df.iat[0, 1]
2. Po etiketi
df.loc[[0], ['Name']]
3. Po oznaci/poziciji
df.loc[2] # Both are same df.iloc[2]
4. Booleovo indeksiranje
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Čišćenje podataka
Za Python u svrhu varalice za čišćenje podataka, možete izvesti sljedeće operacije:
- Preimenujte stupce pomoću metode rename().
- Ažurirajte vrijednosti pomoću metode at[] ili iat[] za pristup i izmjenu određenih elemenata.
- Stvorite kopiju serije ili podatkovnog okvira pomoću metode copy().
- Provjerite vrijednosti NULL pomoću metode isnull() i ispustite ih pomoću metode dropna().
- Provjerite duplicirane vrijednosti pomoću metode duplicated(). Ispustite ih pomoću metode drop_duplicates().
- Zamijenite NULL vrijednosti pomoću metode fill () navedenom vrijednošću.
- Zamijenite vrijednosti pomoću metode replace().
- Sortirajte vrijednosti pomoću metode sort_values().
- Rangiranje vrijednosti pomoću metode rank().
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Dohvaćanje informacija
Možete izvršiti ove operacije za dohvaćanje informacija:
- Koristite atribut oblika da dobijete broj redaka i stupaca.
- Upotrijebite metodu head() ili tail() za dobivanje prvih ili posljednjih nekoliko redaka kao uzorka.
- Upotrijebite metodu info(), describe() ili dtypes za dobivanje informacija o vrsti podataka, broju, srednjoj vrijednosti, standardnoj devijaciji, minimalnim i maksimalnim vrijednostima.
- Koristite metode count(), min(), max(), sum(), mean() i median() za dobivanje specifičnih statističkih informacija za vrijednosti.
- Koristite metodu loc[] da dobijete red.
- Koristite metodu groupby() za primjenu funkcije GROUP BY za grupiranje sličnih vrijednosti u stupcu DataFramea.
1. Osnovne informacije
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Sažetak
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Primjena funkcija
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Interno usklađivanje podataka
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Aritmetika Operacije s metodama popunjavanja
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Filtriraj, sortiraj i grupiraj prema
Ove sljedeće funkcije mogu se koristiti za filtriranje, sortiranje i grupiranje prema serijama i DataFrame.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Izvoz podataka
Pandas ima mogućnost izvoza ili pisanja podataka u različitim formatima. Evo nekoliko primjera navedenih u nastavku.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Pandas Cheat Sheet Zaključak:
pande je biblioteka otvorenog koda u Python za rad sa skupovima podataka. Njegova sposobnost analiziranja, čišćenja, istraživanja i manipuliranja podacima. Pandas je izgrađen na vrhu Numpyja. Koristi se s drugim programima kao što su Matplotlib i scikit-lear. Pokriva teme kao što su strukture podataka, odabir podataka, uvoz podataka, Booleovo indeksiranje, ispuštanje vrijednosti, sortiranje i čišćenje podataka. Također smo pripremili pandas cheat sheet pdf za članak. Pandas je knjižnica u Python a znanost o podacima koristi ovu biblioteku za rad s pandama podatkovnim okvirima i serijama. Raspravljali smo o raznim pandas naredbama u ovoj varalici.
Colab of Cheat Sheet
Moja Colab datoteka vježbi za Pande – Pandas Cheat Sheet – Python za znanost o podacima.ipynb