Hoja de referencia de Pandas para ciencia de datos en Python

Hoja de referencia de pandas

¿Qué es la hoja de referencia de Pandas?

La biblioteca Pandas tiene muchas funciones, pero algunas de ellas resultan confusas para algunas personas. Aquí proporcionamos un recurso útil disponible llamado Python Hoja de referencia de pandas. Explica los conceptos básicos de Pandas de forma sencilla y concisa.

Tanto si eres novato como si tienes experiencia con Pandas, esta hoja de referencia puede servirte como guía de referencia útil. Cubre una variedad de temas, incluido el trabajo con estructuras de datos Series y DataFrame, la selección y ordenación de datos y la aplicación de funciones a sus datos.

En resumen, este Pandas Python Cheat Sheet es un buen recurso para cualquiera que quiera aprender más sobre el uso Python para ciencia de datos. Es una útil herramienta de referencia. Puede ayudarte a mejorar tu habilidades de análisis de datos y trabaje de manera más eficiente con Pandas.

👉 Descargue el PDF de la hoja de referencia aquí

Explicando funciones importantes en Pandas:

Para comenzar a trabajar con las funciones de pandas, necesita instalar e importar pandas. Hay dos comandos para hacer esto:

Paso 1) # Instalar Pandas

Pip instalar pandas

Paso 2) # Importar pandas

Importar pandas como pd

Ahora puedes empezar a trabajar con las funciones de Pandas. Trabajaremos para manipular, analizar y limpiar los datos. Estas son algunas funciones importantes de los pandas.

Estructuras de datos de Pandas

Como ya hemos comentado, Pandas tiene dos estructuras de datos llamadas Series y DataFrames. Ambos son matrices etiquetadas y pueden contener cualquier tipo de datos. Existe la única diferencia de que Series es una matriz unidimensional y DataFrame es una matriz bidimensional.

1. Serie

Es una matriz etiquetada unidimensional. Puede contener cualquier tipo de datos.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. Marco de datos

Es una matriz etiquetada bidimensional. Puede contener cualquier tipo de datos y diferentes tamaños de columnas.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Hoja de referencia de pandas

Importar datos

Los pandas tienen la capacidad de importar o leer varios tipos de archivos en su Notebook.

A continuación se muestran algunos ejemplos.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Selección

Puede seleccionar elementos por su ubicación o índice. Puede seleccionar filas, columnas y valores distintos utilizando estas técnicas.

1. Serie

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. Marco de datos

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Seleccionar mediante indexación booleana y configuración

1. Por Posición

df.iloc[0, 1]

df.iat[0, 1]

2. Por etiqueta

df.loc[[0],  ['Name']]

3. Por etiqueta/posición

df.loc[2] # Both are same
df.iloc[2]

4. Indexación booleana

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Limpieza de datos

Para familias de EYFS y Primary Python Para fines de limpieza de datos, puede realizar las siguientes operaciones:

  • Cambie el nombre de las columnas utilizando el método rename().
  • Actualice los valores utilizando el método at[] o iat[] para acceder y modificar elementos específicos.
  • Cree una copia de una serie o marco de datos utilizando el método copy().
  • Verifique los valores NULL usando el método isnull() y suéltelos usando el método dropna().
  • Compruebe si hay valores duplicados utilizando el método duplicado(). Suéltelos usando el método drop_duplicates().
  • Reemplace los valores NULL usando el método fill () con un valor específico.
  • Reemplazar valores usando el método reemplazar().
  • Ordene valores utilizando el método sort_values().
  • Clasifique los valores utilizando el método ranking().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Recuperación de información

Puede realizar estas operaciones para recuperar información:

  • Utilice el atributo de forma para obtener el número de filas y columnas.
  • Utilice el método head() o tail() para obtener las primeras o últimas filas como muestra.
  • Utilice el método info(), describe() o dtypes para obtener información sobre el tipo de datos, el recuento, la media, la desviación estándar y los valores mínimo y máximo.
  • Utilice los métodos count(), min(), max(), sum(), mean() y mediana() para obtener información estadística específica para los valores.
  • Utilice el método loc[] para obtener una fila.
  • Utilice el método groupby() para aplicar la función GROUP BY para agrupar valores similares en una columna de un DataFrame.

1. Información básica

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Resumen

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Aplicar funciones

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Alineación de datos internos

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Aritmética Operaciones con métodos de llenado

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtrar, ordenar y agrupar por

Las siguientes funciones se pueden utilizar para filtrar, ordenar y agrupar por series y marcos de datos.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Exportar datos

Pandas tiene la capacidad de exportar o escribir datos en varios formatos. A continuación se muestran algunos ejemplos.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Conclusión de la hoja de trucos de Pandas:

pandas es una biblioteca de código abierto en Python para trabajar con conjuntos de datos. Su capacidad para analizar, limpiar, explorar y manipular datos. Pandas está construido sobre Numpy. Se utiliza con otros programas como Matplotlib y Scikit-Aprender. Cubre temas como estructuras de datos, selección de datos, importación de datos, indexación booleana, eliminación de valores, clasificación y limpieza de datos. También hemos preparado una hoja de trucos sobre pandas en formato PDF para el artículo. Pandas es una biblioteca en Python y la ciencia de datos utiliza esta biblioteca para trabajar con series y marcos de datos de pandas. Hemos analizado varios comandos de pandas en esta hoja de referencia.

Colaboración de hoja de trucos

Mi archivo de ejercicio Colab para pandas – Hoja de referencia de pandas – Python para ciencia de datos.ipynb