Pandas fuskblad för datavetenskap i Python

Pandas fuskblad

Vad är Pandas Cheat Sheet?

Pandas bibliotek har många funktioner, men några av dessa är förvirrande för vissa människor. Vi har här tillhandahållit en användbar resurs tillgänglig som heter Python Pandas fuskblad. Den förklarar grunderna i Pandas på ett enkelt och kortfattat sätt.

Oavsett om du är nybörjare eller har erfarenhet av Pandas, kan detta fuskblad fungera som en användbar referensguide. Den täcker en mängd olika ämnen, inklusive att arbeta med serier och DataFrame-datastrukturer, välja och beställa data och tillämpa funktioner på dina data.

Sammanfattningsvis, denna Pandas Python Cheat Sheet är en bra resurs för alla som vill lära sig mer om att använda Python för datavetenskap. Det är ett praktiskt referensverktyg. Det kan hjälpa dig att förbättra din färdigheter i dataanalys och arbeta mer effektivt med Pandas.

👉 Ladda ner PDF-filen av Cheat Sheet här

Förklara viktiga funktioner i Pandas:

För att börja arbeta med pandor-funktioner måste du installera och importera pandor. Det finns två kommandon för att göra detta:

Steg 1) # Installera Pandas

Pip installera pandor

Steg 2) # Importera pandor

Importera pandor som pd

Nu kan du börja arbeta med Pandas funktioner. Vi kommer att arbeta med att manipulera, analysera och rensa data. Här är några viktiga funktioner hos pandor.

Pandas datastrukturer

Som vi redan har diskuterat har Pandas två datastrukturer som kallas Series och DataFrames. Båda är märkta arrayer och kan innehålla vilken datatyp som helst. Det finns den enda skillnaden att Series är en endimensionell array och DataFrame är en tvådimensionell array.

1. Serie

Det är en endimensionell märkt array. Den kan innehålla vilken datatyp som helst.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Det är en tvådimensionell märkt array. Den kan innehålla vilken datatyp som helst och olika storlekar på kolumner.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Pandas fuskblad

Importerar data

Pandas har möjlighet att importera eller läsa olika typer av filer i din bärbara dator.

Här är några exempel nedan.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Urval

Du kan välja element efter dess plats eller index. Du kan välja rader, kolumner och distinkta värden med dessa tekniker.

1. Serie

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Välj med boolesk indexering och inställning

1. Efter position

df.iloc[0, 1]

df.iat[0, 1]

2. Efter etikett

df.loc[[0],  ['Name']]

3. Efter etikett/position

df.loc[2] # Both are same
df.iloc[2]

4. Boolesk indexering

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Rengöring av data

För Python För att rensa fusket kan du utföra följande operationer:

  • Byt namn på kolumner med metoden rename().
  • Uppdatera värden med metoden at[] eller iat[] för att komma åt och ändra specifika element.
  • Skapa en kopia av en serie eller dataram med metoden copy().
  • Sök efter NULL-värden med metoden isnull() och släpp dem med metoden dropna().
  • Kontrollera om det finns dubbletter av värden med metoden duplicated(). Släpp dem med metoden drop_duplicates() .
  • Ersätt NULL-värden med metoden fill () med ett angivet värde.
  • Ersätt värden med metoden replace().
  • Sortera värden med metoden sort_values().
  • Rangordna värden med metoden rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Hämtar information

Du kan utföra dessa operationer för att hämta information:

  • Använd formattribut för att få antalet rader och kolumner.
  • Använd metoden head() eller tail() för att få de första eller sista raderna som ett exempel.
  • Använd metoden info(), describe() eller dtypes för att få information om datatyp, antal, medelvärde, standardavvikelse, minimi- och maximivärden.
  • Använd metoderna count(), min(), max(), sum(), mean() och median() för att få specifik statistisk information för värden.
  • Använd metoden loc[] för att få en rad.
  • Använd metoden groupby() för att tillämpa GROUP BY-funktionen för att gruppera liknande värden i en kolumn i en DataFrame.

1. Grundläggande information

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Sammanfattning

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Tillämpa funktioner

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Intern datajustering

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetik Operamed fyllningsmetoder

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrera, sortera och gruppera efter

Dessa följande funktioner kan användas för att filtrera, sortera och gruppera efter serier och dataframe.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Exportera data

Pandas har möjlighet att exportera eller skriva data i olika format. Här är några exempel nedan.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas Cheat Sheet Slutsats:

pandas är öppen källkodsbibliotek i Python för att arbeta med datamängder. Dess förmåga att analysera, rensa, utforska och manipulera data. Pandas är byggda ovanpå Numpy. Det används med andra program som Matplotlib och Scikit-Lär dig. Den täcker ämnen som datastrukturer, dataurval, import av data, boolesk indexering, släppa värden, sortering och datarensning. Vi har också förberett pandor cheat sheet pdf för artikel. Pandas är ett bibliotek i Python och datavetenskap använder det här biblioteket för att arbeta med pandas dataramar och serier. Vi har diskuterat olika pandaskommandon i detta cheatsheet.

Colab från Cheat Sheet

Min Colab-träningsfil för pandor – Pandas fuskblad – Python för Data Science.ipynb