Pandas Cheat Sheet for Data Science i Python
Hvad er Pandas Cheat Sheet?
Pandas bibliotek har mange funktioner, men nogle af disse er forvirrende for nogle mennesker. Vi har her stillet en nyttig ressource til rådighed kaldet Python Pandas snydeark. Den forklarer det grundlæggende i Pandas på en enkel og kortfattet måde.
Uanset om du er nybegynder eller erfaren med Pandas, kan dette snydeark tjene som en nyttig referencevejledning. Det dækker en række emner, herunder arbejde med serier og dataframe-datastrukturer, udvælgelse og bestilling af data og anvendelse af funktioner på dine data.
Sammenfattende, denne Pandas Python Cheat Sheet er en god ressource for alle, der ønsker at lære mere om at bruge Python for datavidenskab. Det er et praktisk referenceværktøj. Det kan hjælpe dig med at forbedre din færdigheder i dataanalyse og arbejde mere effektivt med Pandas.
👉 Download PDF'en af Cheat Sheet her
Forklaring af vigtige funktioner i Pandas:
For at begynde at arbejde med panda-funktioner skal du installere og importere pandaer. Der er to kommandoer til at gøre dette:
Trin 1) # Installer Pandas
Pip installer pandaer
Trin 2) # Importer pandaer
Importer pandaer som pd
Nu kan du begynde at arbejde med Pandas funktioner. Vi vil arbejde på at manipulere, analysere og rense dataene. Her er nogle vigtige funktioner af pandaer.
Pandas datastrukturer
Som vi allerede har diskuteret, har Pandas to datastrukturer kaldet Series og DataFrames. Begge er mærkede arrays og kan indeholde enhver datatype. Der er den eneste forskel, at Series er et endimensionelt array, og DataFrame er todimensionelt array.
1. Serie
Det er et endimensionelt mærket array. Den kan indeholde enhver datatype.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Det er et todimensionelt mærket array. Det kan indeholde enhver datatype og forskellige størrelser af kolonner.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Importerer data
Pandaer har mulighed for at importere eller læse forskellige typer filer i din notesbog.
Her er nogle eksempler nedenfor.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Udvælgelse
Du kan vælge elementer efter deres placering eller indeks. Du kan vælge rækker, kolonner og forskellige værdier ved hjælp af disse teknikker.
1. Serie
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Valg ved boolsk indeksering og indstilling
1. Efter stilling
df.iloc[0, 1] df.iat[0, 1]
2. Efter Label
df.loc[[0], ['Name']]
3. Efter etiket/position
df.loc[2] # Both are same df.iloc[2]
4. Boolean indeksering
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Data Rengøring
Til Python data-rensning snydeark formål, kan du udføre følgende handlinger:
- Omdøb kolonner ved hjælp af rename() metoden.
- Opdater værdier ved at bruge metoden at[] eller iat[] for at få adgang til og ændre specifikke elementer.
- Opret en kopi af en serie eller dataramme ved hjælp af metoden copy().
- Tjek for NULL-værdier ved hjælp af isnull()-metoden, og slip dem ved hjælp af dropna()-metoden.
- Tjek for duplikerede værdier ved hjælp af duplicated()-metoden. Slip dem ved hjælp af drop_duplicates() metoden.
- Erstat NULL-værdier ved hjælp af fill ()-metoden med en specificeret værdi.
- Erstat værdier ved hjælp af replace() metoden.
- Sorter værdier ved hjælp af sort_values() metoden.
- Rangér værdier ved hjælp af rank()-metoden.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Henter information
Du kan udføre disse handlinger for at hente oplysninger:
- Brug shape-attributten til at få antallet af rækker og kolonner.
- Brug metoden head() eller tail() til at få de første eller sidste par rækker som en prøve.
- Brug metoden info(), describe() eller dtypes til at få oplysninger om datatypen, antal, middelværdi, standardafvigelse, minimums- og maksimumværdier.
- Brug metoderne count(), min(), max(), sum(), middel() og median() til at opnå specifik statistisk information for værdier.
- Brug metoden loc[] for at få en række.
- Brug metoden groupby() til at anvende GROUP BY-funktionen til at gruppere lignende værdier i en kolonne i en DataFrame.
1. Grundlæggende oplysninger
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Resumé
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Anvendelse af funktioner
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Intern datajustering
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Aritmetik Operationer med Fyldmetoder
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Filtrer, sorter og grupper efter
Disse følgende funktioner kan bruges til filtrering, sortering og gruppering efter serier og dataramme.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Dataeksport
Pandas har mulighed for at eksportere eller skrive data i forskellige formater. Her er nogle eksempler nedenfor.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Pandas snydeark konklusion:
pandas er open source-bibliotek i Python til arbejde med datasæt. Dens evne til at analysere, rense, udforske og manipulere data. Pandas er bygget oven på Numpy. Det bruges sammen med andre programmer som Matplotlib og Scikit-Lær. Det dækker emner som datastrukturer, datavalg, import af data, boolsk indeksering, droppe værdier, sortering og datarensning. Vi har også forberedt pandas snydeark pdf til artiklen. Pandas er et bibliotek i Python og datavidenskab bruger dette bibliotek til at arbejde med panda-datarammer og serier. Vi har diskuteret forskellige panda-kommandoer i dette snydeark.
Colab af snydeark
Min Colab-øvelsesfil til pandaer – Pandas snydeark – Python for Data Science.ipynb