Aide-mémoire Pandas pour la science des données dans Python

Aide-mémoire sur les pandas

Qu'est-ce que l'aide-mémoire Pandas ?

La bibliothèque Pandas a de nombreuses fonctions, mais certaines d'entre elles prêtent à confusion pour certaines personnes. Nous avons fourni ici une ressource utile disponible appelée le Python Aide-mémoire Pandas. Il explique les bases de Pandas de manière simple et concise.

Que vous soyez débutant ou expérimenté avec les Pandas, cette aide-mémoire peut servir de guide de référence utile. Il couvre une variété de sujets, notamment l'utilisation des structures de données Series et DataFrame, la sélection et le classement des données, ainsi que l'application de fonctions à vos données.

En résumé, ce Pandas Python Cheat Sheet est une bonne ressource pour tous ceux qui cherchent à en savoir plus sur l'utilisation Python pour la science des données. C'est un outil de référence pratique. Cela peut vous aider à améliorer votre compétences en analyse de données et travaillez plus efficacement avec Pandas.

👉 Téléchargez le PDF de l'aide-mémoire ici

Expliquer les fonctions importantes de Pandas :

Pour commencer à travailler avec les fonctions pandas, vous devez installer et importer des pandas. Il y a deux commandes pour faire cela :

Étape 1) # Installer Pandas

Pip installe des pandas

Étape 2) # Importer des pandas

Importer des pandas au format PD

Vous pouvez maintenant commencer à travailler avec les fonctions Pandas. Nous travaillerons à manipuler, analyser et nettoyer les données. Voici quelques fonctions importantes des pandas.

Structures de données Pandas

Comme nous l'avons déjà expliqué, Pandas possède deux structures de données appelées Series et DataFrames. Les deux sont des tableaux étiquetés et peuvent contenir n’importe quel type de données. La seule différence est que Series est un tableau unidimensionnel et DataFrame est un tableau bidimensionnel.

1. Série

Il s'agit d'un tableau étiqueté unidimensionnel. Il peut contenir n’importe quel type de données.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. Cadre de données

Il s'agit d'un tableau étiqueté bidimensionnel. Il peut contenir n’importe quel type de données et différentes tailles de colonnes.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Aide-mémoire sur les pandas

Importation de données

Les pandas ont la possibilité d'importer ou de lire différents types de fichiers dans votre ordinateur portable.

Voici quelques exemples donnés ci-dessous.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Sélection

Vous pouvez sélectionner des éléments par leur emplacement ou leur index. Vous pouvez sélectionner des lignes, des colonnes et des valeurs distinctes à l'aide de ces techniques.

1. Série

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. Cadre de données

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Sélection par indexation et paramétrage booléens

1. Par poste

df.iloc[0, 1]

df.iat[0, 1]

2. Par étiquette

df.loc[[0],  ['Name']]

3. Par étiquette/position

df.loc[2] # Both are same
df.iloc[2]

4. Indexation booléenne

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Nettoyage de données

Pour Python À des fins de nettoyage des données, vous pouvez effectuer les opérations suivantes :

  • Renommez les colonnes à l'aide de la méthode rename().
  • Mettez à jour les valeurs à l'aide de la méthode at[] ou iat[] pour accéder et modifier des éléments spécifiques.
  • Créez une copie d'une série ou d'un bloc de données à l'aide de la méthode copy().
  • Recherchez les valeurs NULL à l'aide de la méthode isnull() et supprimez-les à l'aide de la méthode dropna().
  • Recherchez les valeurs en double à l’aide de la méthode duplicated(). Supprimez-les en utilisant la méthode drop_duplicates().
  • Remplacez les valeurs NULL à l'aide de la méthode fill () par une valeur spécifiée.
  • Remplacez les valeurs à l'aide de la méthode replace().
  • Triez les valeurs à l'aide de la méthode sort_values().
  • Classez les valeurs à l’aide de la méthode Rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Récupération d'informations

Vous pouvez effectuer ces opérations pour récupérer des informations :

  • Utilisez l'attribut shape pour obtenir le nombre de lignes et de colonnes.
  • Utilisez la méthode head() ou tail() pour obtenir les premières ou dernières lignes à titre d’échantillon.
  • Utilisez la méthode info(),scribe() ou dtypes pour obtenir des informations sur le type de données, le nombre, la moyenne, l'écart type, les valeurs minimales et maximales.
  • Utilisez les méthodes count(), min(), max(), sum(), medium() et median() pour obtenir des informations statistiques spécifiques sur les valeurs.
  • Utilisez la méthode loc[] pour obtenir une ligne.
  • Utilisez la méthode groupby() pour appliquer la fonction GROUP BY afin de regrouper des valeurs similaires dans une colonne d'un DataFrame.

1. Information basique

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Résumé

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Application de fonctions

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Alignement des données internes

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Arithmétique Operaopérations avec les méthodes de remplissage

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrer, trier et regrouper par

Ces fonctions suivantes peuvent être utilisées pour filtrer, trier et regrouper par série et DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Exportation de données

Pandas a la capacité d'exporter ou d'écrire des données dans différents formats. Voici quelques exemples donnés ci-dessous.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Conclusion de l'aide-mémoire Pandas :

Pandas est une bibliothèque open source dans Python pour travailler avec des ensembles de données. Sa capacité à analyser, nettoyer, explorer et manipuler les données. Pandas est construit sur Numpy. Il est utilisé avec d'autres programmes comme Matplotlib et Scikit-Apprendre. Il couvre des sujets tels que les structures de données, la sélection de données, l'importation de données, l'indexation booléenne, la suppression de valeurs, le tri et le nettoyage des données. Nous avons également préparé un aide-mémoire pdf sur les pandas pour l'article. Pandas est une bibliothèque dans Python et la science des données utilise cette bibliothèque pour travailler avec des trames de données et des séries pandas. Nous avons discuté de diverses commandes pandas dans cette aide-mémoire.

Colab de l'aide-mémoire

Mon fichier d’exercices Colab pour Pandas – Aide-mémoire Pandas – Python pour la science des données.ipynb