Pandas jukseark for datavitenskap i Python

Pandas jukseark

Hva er Pandas Cheat Sheet?

Pandas bibliotek har mange funksjoner, men noen av disse er forvirrende for noen mennesker. Vi har her gitt en nyttig ressurs tilgjengelig kalt Python Pandas jukseark. Den forklarer det grunnleggende om Pandas på en enkel og kortfattet måte.

Enten du er nybegynner eller erfaren med Pandas, kan dette juksearket tjene som en nyttig referanseguide. Den dekker en rekke emner, inkludert arbeid med serier og DataFrame-datastrukturer, valg og bestilling av data og bruk av funksjoner på dataene dine.

Oppsummert, denne Pandas Python Cheat Sheet er en god ressurs for alle som ønsker å lære mer om bruk Python for datavitenskap. Det er et praktisk referanseverktøy. Det kan hjelpe deg å forbedre din dataanalyseferdigheter og jobbe mer effektivt med Pandaer.

👉 Last ned PDF av Cheat Sheet her

Forklarer viktige funksjoner i Pandas:

For å begynne å jobbe med pandafunksjoner, må du installere og importere pandaer. Det er to kommandoer for å gjøre dette:

Trinn 1) # Installer Pandas

Pip installer pandaer

Trinn 2) # Importer pandaer

Importer pandaer som pd

Nå kan du begynne å jobbe med Pandas-funksjoner. Vi vil jobbe med å manipulere, analysere og rense dataene. Her er noen viktige funksjoner til pandaer.

Pandas datastrukturer

Som vi allerede har diskutert har Pandas to datastrukturer kalt Series og DataFrames. Begge er merket matriser og kan inneholde alle datatyper. Det er den eneste forskjellen at Series er en endimensjonal matrise, og DataFrame er todimensjonal matrise.

1. Serie

Det er en endimensjonal merket matrise. Den kan inneholde alle typer data.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Det er en todimensjonal merket matrise. Den kan inneholde alle datatyper og forskjellige størrelser på kolonner.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Pandas jukseark

Importerer data

Pandaer har muligheten til å importere eller lese ulike typer filer i Notebook-en.

Her er noen eksempler gitt nedenfor.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

utvalg

Du kan velge elementer etter plassering eller indeks. Du kan velge rader, kolonner og distinkte verdier ved å bruke disse teknikkene.

1. Serie

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Velge etter boolsk indeksering og innstilling

1. Etter posisjon

df.iloc[0, 1]

df.iat[0, 1]

2. Etter etikett

df.loc[[0],  ['Name']]

3. Etter etikett/posisjon

df.loc[2] # Both are same
df.iloc[2]

4. Boolsk indeksering

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Rengjøring av data

Til Python datarensende jukseark, kan du utføre følgende operasjoner:

  • Gi nytt navn til kolonner ved å bruke rename()-metoden.
  • Oppdater verdier ved å bruke at[]- eller iat[]-metoden for å få tilgang til og endre spesifikke elementer.
  • Lag en kopi av en serie eller dataramme ved å bruke metoden copy().
  • Se etter NULL-verdier ved å bruke isnull()-metoden, og slipp dem ved hjelp av dropna()-metoden.
  • Se etter dupliserte verdier ved å bruke duplicated()-metoden. Slipp dem ved å bruke drop_duplicates()-metoden.
  • Erstatt NULL-verdier ved å bruke fill ()-metoden med en spesifisert verdi.
  • Erstatt verdier ved å bruke erstatte()-metoden.
  • Sorter verdier ved å bruke sort_values()-metoden.
  • Ranger verdier ved å bruke rank()-metoden.
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Henter informasjon

Du kan utføre disse operasjonene for å hente informasjon:

  • Bruk formattributt for å få antall rader og kolonner.
  • Bruk metoden head() eller tail() for å få de første eller siste radene som en prøve.
  • Bruk metoden info(), describe() eller dtypes for å få informasjon om datatypen, antall, gjennomsnitt, standardavvik, minimums- og maksimumsverdier.
  • Bruk metodene count(), min(), max(), sum(), mean() og median() for å få spesifikk statistisk informasjon for verdier.
  • Bruk loc[]-metoden for å få en rad.
  • Bruk groupby()-metoden for å bruke GROUP BY-funksjonen til å gruppere lignende verdier i en kolonne i en DataFrame.

1. Grunnleggende informasjon

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Sammendrag

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Bruke funksjoner

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Intern datajustering

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetikk Operasjoner med fyllmetoder

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrer, sorter og grupper etter

Disse følgende funksjonene kan brukes til å filtrere, sortere og gruppere etter serier og DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Eksporterer data

Pandas har muligheten til å eksportere eller skrive data i ulike formater. Her er noen eksempler gitt nedenfor.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas jukseark konklusjon:

pandaer er åpen kildekode-bibliotek i Python for arbeid med datasett. Dens evne til å analysere, rense, utforske og manipulere data. Pandaer er bygget på toppen av Numpy. Den brukes med andre programmer som Matplotlib og Scikit-Lær. Den dekker emner som datastrukturer, datavalg, import av data, boolsk indeksering, slipp av verdier, sortering og datarensing. Vi har også utarbeidet pandas jukseark pdf for artikkel. Pandas er et bibliotek i Python og datavitenskap bruker dette biblioteket for å jobbe med panda-datarammer og serier. Vi har diskutert ulike panda-kommandoer i dette juksearket.

Colab fra Cheat Sheet

Min Colab-treningsfil for pandaer – Pandas jukseark – Python for Data Science.ipynb