Pandas Cheat Sheet for Data Science i Python

Pandas snydeark

Hvad er Pandas Cheat Sheet?

Pandas bibliotek har mange funktioner, men nogle af disse er forvirrende for nogle mennesker. Vi har her stillet en nyttig ressource til rådighed kaldet Python Pandas snydeark. Den forklarer det grundlæggende i Pandas på en enkel og kortfattet måde.

Uanset om du er nybegynder eller erfaren med Pandas, kan dette snydeark tjene som en nyttig referencevejledning. Det dækker en række emner, herunder arbejde med serier og dataframe-datastrukturer, udvælgelse og bestilling af data og anvendelse af funktioner på dine data.

Sammenfattende, denne Pandas Python Cheat Sheet er en god ressource for alle, der ønsker at lære mere om at bruge Python for datavidenskab. Det er et praktisk referenceværktøj. Det kan hjælpe dig med at forbedre din færdigheder i dataanalyse og arbejde mere effektivt med Pandas.

👉 Download PDF'en af ​​Cheat Sheet her

Forklaring af vigtige funktioner i Pandas:

For at begynde at arbejde med panda-funktioner skal du installere og importere pandaer. Der er to kommandoer til at gøre dette:

Trin 1) # Installer Pandas

Pip installer pandaer

Trin 2) # Importer pandaer

Importer pandaer som pd

Nu kan du begynde at arbejde med Pandas funktioner. Vi vil arbejde på at manipulere, analysere og rense dataene. Her er nogle vigtige funktioner af pandaer.

Pandas datastrukturer

Som vi allerede har diskuteret, har Pandas to datastrukturer kaldet Series og DataFrames. Begge er mærkede arrays og kan indeholde enhver datatype. Der er den eneste forskel, at Series er et endimensionelt array, og DataFrame er todimensionelt array.

1. Serie

Det er et endimensionelt mærket array. Den kan indeholde enhver datatype.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Det er et todimensionelt mærket array. Det kan indeholde enhver datatype og forskellige størrelser af kolonner.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Pandas snydeark

Importerer data

Pandaer har mulighed for at importere eller læse forskellige typer filer i din notesbog.

Her er nogle eksempler nedenfor.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Udvælgelse

Du kan vælge elementer efter deres placering eller indeks. Du kan vælge rækker, kolonner og forskellige værdier ved hjælp af disse teknikker.

1. Serie

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Valg ved boolsk indeksering og indstilling

1. Efter stilling

df.iloc[0, 1]

df.iat[0, 1]

2. Efter Label

df.loc[[0],  ['Name']]

3. Efter etiket/position

df.loc[2] # Both are same
df.iloc[2]

4. Boolean indeksering

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Data Rengøring

Til Python data-rensning snydeark formål, kan du udføre følgende handlinger:

  • Omdøb kolonner ved hjælp af rename() metoden.
  • Opdater værdier ved at bruge metoden at[] eller iat[] for at få adgang til og ændre specifikke elementer.
  • Opret en kopi af en serie eller dataramme ved hjælp af metoden copy().
  • Tjek for NULL-værdier ved hjælp af isnull()-metoden, og slip dem ved hjælp af dropna()-metoden.
  • Tjek for duplikerede værdier ved hjælp af duplicated()-metoden. Slip dem ved hjælp af drop_duplicates() metoden.
  • Erstat NULL-værdier ved hjælp af fill ()-metoden med en specificeret værdi.
  • Erstat værdier ved hjælp af replace() metoden.
  • Sorter værdier ved hjælp af sort_values() metoden.
  • Rangér værdier ved hjælp af rank()-metoden.
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Henter information

Du kan udføre disse handlinger for at hente oplysninger:

  • Brug shape-attributten til at få antallet af rækker og kolonner.
  • Brug metoden head() eller tail() til at få de første eller sidste par rækker som en prøve.
  • Brug metoden info(), describe() eller dtypes til at få oplysninger om datatypen, antal, middelværdi, standardafvigelse, minimums- og maksimumværdier.
  • Brug metoderne count(), min(), max(), sum(), middel() og median() til at opnå specifik statistisk information for værdier.
  • Brug metoden loc[] for at få en række.
  • Brug metoden groupby() til at anvende GROUP BY-funktionen til at gruppere lignende værdier i en kolonne i en DataFrame.

1. Grundlæggende oplysninger

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Resumé

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Anvendelse af funktioner

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Intern datajustering

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetik Operationer med Fyldmetoder

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrer, sorter og grupper efter

Disse følgende funktioner kan bruges til filtrering, sortering og gruppering efter serier og dataramme.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Dataeksport

Pandas har mulighed for at eksportere eller skrive data i forskellige formater. Her er nogle eksempler nedenfor.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas snydeark konklusion:

pandas er open source-bibliotek i Python til arbejde med datasæt. Dens evne til at analysere, rense, udforske og manipulere data. Pandas er bygget oven på Numpy. Det bruges sammen med andre programmer som Matplotlib og Scikit-Lær. Det dækker emner som datastrukturer, datavalg, import af data, boolsk indeksering, droppe værdier, sortering og datarensning. Vi har også forberedt pandas snydeark pdf til artiklen. Pandas er et bibliotek i Python og datavidenskab bruger dette bibliotek til at arbejde med panda-datarammer og serier. Vi har diskuteret forskellige panda-kommandoer i dette snydeark.

Colab af snydeark

Min Colab-øvelsesfil til pandaer – Pandas snydeark – Python for Data Science.ipynb