Panda petuleht andmeteaduse jaoks Python
Mis on Panda Cheat Sheet?
Panda raamatukogul on palju funktsioone, kuid mõned neist on mõne inimese jaoks segadusse ajavad. Oleme siin pakkunud kasulikku saadaolevat ressurssi nimega Python Panda petuleht. See selgitab Pandade põhitõdesid lihtsalt ja lühidalt.
Olenemata sellest, kas olete algaja või Pandadega kogenud, võib see petuleht olla kasulik juhend. See hõlmab mitmesuguseid teemasid, sealhulgas seeria- ja DataFrame'i andmestruktuuridega töötamist, andmete valimist ja järjestamist ning funktsioonide rakendamist teie andmetele.
Kokkuvõttes see Pandas Python Cheat Sheet on hea ressurss kõigile, kes soovivad kasutamise kohta lisateavet Python andmeteaduse jaoks. See on mugav viitetööriist. See võib aidata teil oma andmeanalüüsi oskus ja töötage Pandadega tõhusamalt.
👉 Laadige petulehe PDF alla siit
Pandade oluliste funktsioonide selgitamine:
Pandafunktsioonidega töötamise alustamiseks peate installima ja importima pandad. Selleks on kaks käsku:
Samm 1) # Installige Pandas
Pip install pandad
Samm 2) # Import Pandad
Importige pandad pd-na
Nüüd saate Panda funktsioonidega töötada. Töötame andmetega manipuleerimise, analüüsimise ja puhastamise nimel. Siin on mõned pandade olulised funktsioonid.
Panda andmestruktuurid
Nagu oleme juba arutanud, on Pandadel kaks andmestruktuuri, mida nimetatakse Series ja DataFrames. Mõlemad on märgistatud massiivid ja võivad sisaldada mis tahes andmetüüpi. On Ainus erinevus, et Series on ühemõõtmeline massiiv ja DataFrame on kahemõõtmeline massiiv.
1. Sari
See on ühemõõtmeline märgistatud massiiv. See võib sisaldada mis tahes tüüpi andmeid.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
See on kahemõõtmeline märgistatud massiiv. See võib sisaldada mis tahes andmetüüpi ja erineva suurusega veerge.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Andmete importimine
Pandadel on võimalus teie sülearvutisse importida või lugeda erinevat tüüpi faile.
Siin on mõned allpool toodud näited.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Valik
Saate valida elemente nende asukoha või indeksi järgi. Nende tehnikate abil saate valida ridu, veerge ja erinevaid väärtusi.
1. Sari
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Valimine Boole'i indekseerimise ja seadistuse järgi
1. Positsiooni järgi
df.iloc[0, 1] df.iat[0, 1]
2. Sildi järgi
df.loc[[0], ['Name']]
3. Sildi/positsiooni järgi
df.loc[2] # Both are same df.iloc[2]
4. Boole'i indekseerimine
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Andmete puhastamine
eest Python petulehtede andmete puhastamise eesmärgil saate teha järgmisi toiminguid:
- Nimetage veerud ümber meetodi rename() abil.
- Värskendage väärtusi kasutades at[] või iat[] meetodit, et pääseda juurde ja muuta konkreetseid elemente.
- Looge seeriast või andmeraamist koopia, kasutades meetodit copy().
- Kontrollige NULL-väärtusi, kasutades meetodit isnull () ja loobuge need meetodi dropna () abil.
- Kontrollige dubleeritud väärtusi, kasutades meetodit duplicated(). Loobuge need meetodi drop_duplicates() abil.
- Asendage NULL väärtused, kasutades täitmismeetodit () määratud väärtusega.
- Asendage väärtused meetodi asendamise () abil.
- Sorteeri väärtused meetodi sort_values() abil.
- Järjesta väärtused rank() meetodi abil.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Teabe otsimine
Teabe hankimiseks saate teha järgmisi toiminguid:
- Kasutage ridade ja veergude arvu saamiseks atribuuti shape.
- Kasutage head() või tail() meetodit, et saada näidisena paar esimest või viimast rida.
- Andmetüübi, loenduse, keskmise, standardhälbe, miinimum- ja maksimumväärtuste kohta teabe saamiseks kasutage meetodit info(), kirjelda() või dtypes.
- Kasutage väärtuste jaoks spetsiifilise statistilise teabe saamiseks meetodeid count(), min(), max(), sum(), medium() ja mediaan().
- Kasutage rea saamiseks meetodit loc[].
- Kasutage meetodit groupby(), et rakendada funktsiooni GROUP BY sarnaste väärtuste rühmitamiseks DataFrame'i veerus.
1. Põhiandmed
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Kokkuvõte
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Funktsioonide rakendamine
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Siseandmete joondamine
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Aritmeetika Operatäitmismeetoditega
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Filtreeri, sorteeri ja rühmita
Neid järgmisi funktsioone saab kasutada seeriate ja andmeraamide järgi filtreerimiseks, sortimiseks ja rühmitamiseks.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Andmete eksportimine
Pandadel on võimalus eksportida või kirjutada andmeid erinevates vormingutes. Siin on mõned allpool toodud näited.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Panda petulehe järeldus:
Pandad on avatud lähtekoodiga raamatukogu Python andmekogumitega töötamiseks. Selle võime andmeid analüüsida, puhastada, uurida ja nendega manipuleerida. Pandad on ehitatud Numpy peale. Seda kasutatakse koos teiste programmidega, nagu Matplotlib ja scikit-õppida. See hõlmab selliseid teemasid nagu andmestruktuurid, andmete valimine, andmete importimine, Boole'i indekseerimine, väärtuste langetamine, sortimine ja andmete puhastamine. Oleme artikli jaoks koostanud ka pandade petulehe pdf-i. Pandas asub raamatukogus Python ja andmeteadus kasutab seda teeki pandade andmeraamide ja seeriatega töötamiseks. Oleme selles petulehes käsitlenud erinevaid pandakäske.
Colab of Cheat Sheet
Minu pandade Colabi harjutuse fail – Panda petuleht – Python jaoks Data Science.ipynb