Pandas-huijauslehti tietotieteelle sisään Python

Panda-huijauslehti

Mikä on Pandas Cheat Sheet?

Pandas-kirjastolla on monia toimintoja, mutta jotkut niistä ovat hämmentäviä joillekin ihmisille. Olemme tässä tarjonneet hyödyllisen resurssin nimeltä Python Panda-huijauslehti. Se selittää Pandan perusteet yksinkertaisesti ja ytimekkäästi.

Olitpa aloittelija tai kokenut Pandan kanssa, tämä huijauslehti voi toimia hyödyllisenä oppaana. Se kattaa useita aiheita, mukaan lukien työskentely Series- ja DataFrame-tietorakenteiden kanssa, tietojen valitseminen ja järjestäminen sekä toimintojen käyttäminen tietoihisi.

Yhteenvetona tämä Panda Python Cheat Sheet on hyvä resurssi kaikille, jotka haluavat oppia lisää käytöstä Python Data Sciencelle. Se on kätevä referenssityökalu. Se voi auttaa sinua parantamaan data-analyysitaidot ja työskennellä tehokkaammin Pandan kanssa.

👉 Lataa Cheat Sheetin PDF tästä

Pandan tärkeiden toimintojen selitys:

Pandatoimintojen käytön aloittamiseksi sinun on asennettava ja tuotava pandat. Tämän tekemiseen on kaksi komentoa:

Vaihe 1) # Asenna Pandas

Pip asennus pandat

Vaihe 2) # Tuo pandat

Tuo pandat pd-muodossa

Nyt voit alkaa työskennellä Pandas-toimintojen kanssa. Pyrimme käsittelemään, analysoimaan ja puhdistamaan tietoja. Tässä on joitain pandan tärkeitä tehtäviä.

Pandasin tietorakenteet

Kuten olemme jo keskustelleet, Pandasilla on kaksi tietorakennetta nimeltä Series ja DataFrames. Molemmat ovat merkittyjä taulukoita ja voivat sisältää minkä tahansa tietotyypin. On Ainoa ero, että Series on yksiulotteinen taulukko ja DataFrame on kaksiulotteinen taulukko.

1. Sarja

Se on yksiulotteinen merkitty taulukko. Se voi sisältää minkä tahansa tietotyypin.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Se on kaksiulotteinen merkitty taulukko. Se voi sisältää minkä tahansa tietotyypin ja erikokoisia sarakkeita.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Panda-huijauslehti

Tietojen tuominen

Pandat pystyvät tuomaan tai lukemaan erilaisia ​​tiedostoja muistikirjaasi.

Alla on joitain esimerkkejä.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Valinta

Voit valita elementtejä niiden sijainnin tai indeksin mukaan. Voit valita rivejä, sarakkeita ja erillisiä arvoja käyttämällä näitä tekniikoita.

1. Sarja

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Valinta Boolen indeksoinnilla ja asetuksilla

1. Aseman mukaan

df.iloc[0, 1]

df.iat[0, 1]

2. Etiketin mukaan

df.loc[[0],  ['Name']]

3. Merkin/paikan mukaan

df.loc[2] # Both are same
df.iloc[2]

4. Boolen indeksointi

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Tietojen puhdistus

varten Python tietojen puhdistusta varten, voit suorittaa seuraavat toiminnot:

  • Nimeä sarakkeet uudelleen käyttämällä rename()-menetelmää.
  • Päivitä arvot at[]- tai iat[]-menetelmällä päästäksesi ja muokataksesi tiettyjä elementtejä.
  • Luo kopio sarjasta tai datakehyksestä käyttämällä copy()-menetelmää.
  • Tarkista NULL-arvot käyttämällä isnull()-menetelmää ja pudota ne dropna()-menetelmällä.
  • Tarkista päällekkäiset arvot käyttämällä duplicated()-menetelmää. Pudota ne käyttämällä drop_duplicates()-metodia.
  • Korvaa NULL-arvot täyttö () -menetelmällä määritetyllä arvolla.
  • Korvaa arvot korvaa()-menetelmällä.
  • Lajittele arvot käyttämällä sort_values()-menetelmää.
  • Luokittele arvot rank()-menetelmällä.
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Tietojen hakeminen

Voit suorittaa nämä toiminnot tietojen hakemiseksi:

  • Käytä shape-attribuuttia saadaksesi rivien ja sarakkeiden lukumäärän.
  • Käytä head()- tai tail()-menetelmää saadaksesi muutaman ensimmäisen tai viimeisen rivin näytteeksi.
  • Käytä info(), description() tai dtypes-menetelmää saadaksesi tietoa tietotyypistä, luvusta, keskiarvosta, keskihajonnasta, minimi- ja maksimiarvoista.
  • Käytä menetelmiä count(), min(), max(), summa(), keskiarvo() ja mediaani() saadaksesi erityisiä tilastotietoja arvoista.
  • Käytä loc[]-menetelmää saadaksesi rivin.
  • Käytä groupby()-menetelmää käyttääksesi GROUP BY -funktiota samankaltaisten arvojen ryhmittelyyn DataFramen sarakkeessa.

1. Perustiedot

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Yhteenveto

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Toimintojen käyttäminen

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Sisäisten tietojen kohdistus

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmetiikka Operatäyttömenetelmillä

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Suodata, lajittele ja ryhmittele

Näitä seuraavia toimintoja voidaan käyttää suodattamiseen, lajitteluun ja ryhmittelyyn sarjan ja datakehyksen mukaan.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Tietojen vienti

Pandalla on mahdollisuus viedä tai kirjoittaa tietoja eri muodoissa. Alla on joitain esimerkkejä.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Panda-huijausarkin johtopäätös:

Panda on avoimen lähdekoodin kirjasto Python tietojoukkojen käsittelyyn. Sen kyky analysoida, puhdistaa, tutkia ja käsitellä tietoja. Pandat on rakennettu Numpyn päälle. Sitä käytetään muiden ohjelmien kanssa, kuten Matplotlib ja Scikit-Opi. Se kattaa aiheita, kuten tietorakenteet, tietojen valinta, tietojen tuonti, Boolen indeksointi, arvojen pudottaminen, lajittelu ja tietojen puhdistaminen. Olemme myös laatineet panda-huijausarkin pdf-tiedoston artikkelia varten. Pandas on kirjastossa Python ja datatiede käyttää tätä kirjastoa pandatietokehysten ja -sarjojen kanssa työskentelemiseen. Olemme keskustelleet erilaisista pandakomennoista tässä cheatsheetissa.

Colab of Cheat Sheet

Colab-harjoitustiedostoni pandoille – Panda-huijauslehti - Python for Data Science.ipynb