Pandas-huijauslehti tietotieteelle sisään Python
Mikä on Pandas Cheat Sheet?
Pandas-kirjastolla on monia toimintoja, mutta jotkut niistä ovat hämmentäviä joillekin ihmisille. Olemme tässä tarjonneet hyödyllisen resurssin nimeltä Python Panda-huijauslehti. Se selittää Pandan perusteet yksinkertaisesti ja ytimekkäästi.
Olitpa aloittelija tai kokenut Pandan kanssa, tämä huijauslehti voi toimia hyödyllisenä oppaana. Se kattaa useita aiheita, mukaan lukien työskentely Series- ja DataFrame-tietorakenteiden kanssa, tietojen valitseminen ja järjestäminen sekä toimintojen käyttäminen tietoihisi.
Yhteenvetona tämä Panda Python Cheat Sheet on hyvä resurssi kaikille, jotka haluavat oppia lisää käytöstä Python Data Sciencelle. Se on kätevä referenssityökalu. Se voi auttaa sinua parantamaan data-analyysitaidot ja työskennellä tehokkaammin Pandan kanssa.
👉 Lataa Cheat Sheetin PDF tästä
Pandan tärkeiden toimintojen selitys:
Pandatoimintojen käytön aloittamiseksi sinun on asennettava ja tuotava pandat. Tämän tekemiseen on kaksi komentoa:
Vaihe 1) # Asenna Pandas
Pip asennus pandat
Vaihe 2) # Tuo pandat
Tuo pandat pd-muodossa
Nyt voit alkaa työskennellä Pandas-toimintojen kanssa. Pyrimme käsittelemään, analysoimaan ja puhdistamaan tietoja. Tässä on joitain pandan tärkeitä tehtäviä.
Pandasin tietorakenteet
Kuten olemme jo keskustelleet, Pandasilla on kaksi tietorakennetta nimeltä Series ja DataFrames. Molemmat ovat merkittyjä taulukoita ja voivat sisältää minkä tahansa tietotyypin. On Ainoa ero, että Series on yksiulotteinen taulukko ja DataFrame on kaksiulotteinen taulukko.
1. Sarja
Se on yksiulotteinen merkitty taulukko. Se voi sisältää minkä tahansa tietotyypin.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Se on kaksiulotteinen merkitty taulukko. Se voi sisältää minkä tahansa tietotyypin ja erikokoisia sarakkeita.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Tietojen tuominen
Pandat pystyvät tuomaan tai lukemaan erilaisia tiedostoja muistikirjaasi.
Alla on joitain esimerkkejä.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Valinta
Voit valita elementtejä niiden sijainnin tai indeksin mukaan. Voit valita rivejä, sarakkeita ja erillisiä arvoja käyttämällä näitä tekniikoita.
1. Sarja
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Valinta Boolen indeksoinnilla ja asetuksilla
1. Aseman mukaan
df.iloc[0, 1] df.iat[0, 1]
2. Etiketin mukaan
df.loc[[0], ['Name']]
3. Merkin/paikan mukaan
df.loc[2] # Both are same df.iloc[2]
4. Boolen indeksointi
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Tietojen puhdistus
varten Python tietojen puhdistusta varten, voit suorittaa seuraavat toiminnot:
- Nimeä sarakkeet uudelleen käyttämällä rename()-menetelmää.
- Päivitä arvot at[]- tai iat[]-menetelmällä päästäksesi ja muokataksesi tiettyjä elementtejä.
- Luo kopio sarjasta tai datakehyksestä käyttämällä copy()-menetelmää.
- Tarkista NULL-arvot käyttämällä isnull()-menetelmää ja pudota ne dropna()-menetelmällä.
- Tarkista päällekkäiset arvot käyttämällä duplicated()-menetelmää. Pudota ne käyttämällä drop_duplicates()-metodia.
- Korvaa NULL-arvot täyttö () -menetelmällä määritetyllä arvolla.
- Korvaa arvot korvaa()-menetelmällä.
- Lajittele arvot käyttämällä sort_values()-menetelmää.
- Luokittele arvot rank()-menetelmällä.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Tietojen hakeminen
Voit suorittaa nämä toiminnot tietojen hakemiseksi:
- Käytä shape-attribuuttia saadaksesi rivien ja sarakkeiden lukumäärän.
- Käytä head()- tai tail()-menetelmää saadaksesi muutaman ensimmäisen tai viimeisen rivin näytteeksi.
- Käytä info(), description() tai dtypes-menetelmää saadaksesi tietoa tietotyypistä, luvusta, keskiarvosta, keskihajonnasta, minimi- ja maksimiarvoista.
- Käytä menetelmiä count(), min(), max(), summa(), keskiarvo() ja mediaani() saadaksesi erityisiä tilastotietoja arvoista.
- Käytä loc[]-menetelmää saadaksesi rivin.
- Käytä groupby()-menetelmää käyttääksesi GROUP BY -funktiota samankaltaisten arvojen ryhmittelyyn DataFramen sarakkeessa.
1. Perustiedot
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Yhteenveto
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Toimintojen käyttäminen
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Sisäisten tietojen kohdistus
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Aritmetiikka Operatäyttömenetelmillä
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Suodata, lajittele ja ryhmittele
Näitä seuraavia toimintoja voidaan käyttää suodattamiseen, lajitteluun ja ryhmittelyyn sarjan ja datakehyksen mukaan.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Tietojen vienti
Pandalla on mahdollisuus viedä tai kirjoittaa tietoja eri muodoissa. Alla on joitain esimerkkejä.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Panda-huijausarkin johtopäätös:
Panda on avoimen lähdekoodin kirjasto Python tietojoukkojen käsittelyyn. Sen kyky analysoida, puhdistaa, tutkia ja käsitellä tietoja. Pandat on rakennettu Numpyn päälle. Sitä käytetään muiden ohjelmien kanssa, kuten Matplotlib ja Scikit-Opi. Se kattaa aiheita, kuten tietorakenteet, tietojen valinta, tietojen tuonti, Boolen indeksointi, arvojen pudottaminen, lajittelu ja tietojen puhdistaminen. Olemme myös laatineet panda-huijausarkin pdf-tiedoston artikkelia varten. Pandas on kirjastossa Python ja datatiede käyttää tätä kirjastoa pandatietokehysten ja -sarjojen kanssa työskentelemiseen. Olemme keskustelleet erilaisista pandakomennoista tässä cheatsheetissa.
Colab of Cheat Sheet
Colab-harjoitustiedostoni pandoille – Panda-huijauslehti - Python for Data Science.ipynb