Ściągawka Pandas do nauki o danych w Python

Ściągawka Pandy

Czym jest ściągawka Pandy?

Biblioteka Pandas ma wiele funkcji, ale niektóre z nich są dla niektórych mylące. Udostępniliśmy tutaj pomocny zasób o nazwie Python Ściągawka Pandy. Wyjaśnia podstawy Pand w prosty i zwięzły sposób.

Niezależnie od tego, czy jesteś nowicjuszem, czy doświadczonym użytkownikiem Pand, ta ściągawka może służyć jako przydatny przewodnik. Obejmuje różnorodne tematy, w tym pracę ze strukturami danych Series i DataFrame, wybieranie i porządkowanie danych oraz stosowanie funkcji do danych.

Podsumowując, to Pandy Python Ściągawka jest dobrym źródłem informacji dla każdego, kto chce dowiedzieć się więcej na temat korzystania Python dla analityki danych. Jest to przydatne narzędzie referencyjne. Może pomóc Ci ulepszyć Twoje umiejętności analizy danych i wydajniej pracować z Pandami.

👉 Pobierz tutaj plik PDF z ściągawką

Wyjaśnienie ważnych funkcji w Pandach:

Aby rozpocząć pracę z funkcjami pand, musisz zainstalować i zaimportować pandy. Można to zrobić dwoma poleceniami:

Krok 1) # Zainstaluj Pandy

Pip zainstaluj pandy

Krok 2) # Importuj pandy

Zaimportuj pandy jako pd

Teraz możesz rozpocząć pracę z funkcjami Pandy. Będziemy pracować nad manipulowaniem, analizowaniem i czyszczeniem danych. Oto kilka ważnych funkcji pand.

Struktury danych pand

Jak już wspomnieliśmy, Pandy mają dwie struktury danych zwane Serią i Ramkami Danych. Obie są tablicami oznaczonymi etykietami i mogą przechowywać dowolny typ danych. Jedyna różnica polega na tym, że Series jest tablicą jednowymiarową, a DataFrame jest tablicą dwuwymiarową.

1. Seria

Jest to jednowymiarowa tablica oznaczona. Może przechowywać dowolny typ danych.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. Ramka danych

Jest to dwuwymiarowa tablica oznaczona. Może przechowywać dowolny typ danych i różne rozmiary kolumn.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Ściągawka Pandy

Importowanie danych

Pandy mają możliwość importowania lub odczytywania różnych typów plików w Twoim Notatniku.

Oto kilka przykładów podanych poniżej.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Wybór

Możesz wybierać elementy według ich lokalizacji lub indeksu. Za pomocą tych technik można wybierać wiersze, kolumny i różne wartości.

1. Seria

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. Ramka danych

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Wybieranie poprzez indeksowanie i ustawianie logiczne

1. Według pozycji

df.iloc[0, 1]

df.iat[0, 1]

2. Według etykiety

df.loc[[0],  ['Name']]

3. Według etykiety/pozycji

df.loc[2] # Both are same
df.iloc[2]

4. Indeksowanie logiczne

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Czyszczenie danych

Dla litu szacuje się Python W celu oczyszczenia danych możesz wykonać następujące operacje:

  • Zmień nazwę kolumn za pomocą metody rename().
  • Aktualizuj wartości za pomocą metody at[] lub iat[], aby uzyskać dostęp do określonych elementów i je modyfikować.
  • Utwórz kopię serii lub ramki danych za pomocą metody copy().
  • Sprawdź wartości NULL za pomocą metody isnull() i usuń je za pomocą metody dropna().
  • Sprawdź, czy nie ma zduplikowanych wartości, używając metody duplikatów(). Upuść je za pomocą metody drop_duplicates().
  • Zamień wartości NULL za pomocą metody fill () na określoną wartość.
  • Zastąp wartości za pomocą metody zamiany().
  • Sortuj wartości za pomocą metody sort_values().
  • Ranking wartości przy użyciu metody rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Odzyskiwanie informacji

Aby pobrać informacje, możesz wykonać następujące operacje:

  • Użyj atrybutu kształtu, aby uzyskać liczbę wierszy i kolumn.
  • Użyj metody head() lub tail(), aby uzyskać próbkę pierwszych lub ostatnich kilku wierszy.
  • Użyj metod info(), opis() lub dtypes, aby uzyskać informacje o typie danych, liczbie, średniej, odchyleniu standardowym, wartościach minimalnych i maksymalnych.
  • Użyj metod count(), min(), max(), sum(), mean() i median(), aby uzyskać szczegółowe informacje statystyczne dotyczące wartości.
  • Użyj metody loc[], aby uzyskać wiersz.
  • Użyj metody groupby(), aby zastosować funkcję GROUP BY do grupowania podobnych wartości w kolumnie ramki DataFrame.

1. Podstawowe informacje

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Streszczenie

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Stosowanie funkcji

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Wewnętrzne wyrównanie danych

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Arytmetyka Operaz metodami wypełniania

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Filtruj, sortuj i grupuj według

Poniższych funkcji można używać do filtrowania, sortowania i grupowania według serii i ramek danych.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Eksportowanie danych

Pandas ma możliwość eksportu lub zapisu danych w różnych formatach. Oto kilka przykładów podanych poniżej.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Podsumowanie ściągawki Pandy:

Pandy jest biblioteką typu open source w Python do pracy ze zbiorami danych. Jego zdolność do analizowania, czyszczenia, eksplorowania i manipulowania danymi. Pandy są zbudowane na Numpy. Jest używany z innymi programami, takimi jak Matplotlib i Nauka Scikit. Obejmuje takie tematy, jak struktury danych, selekcja danych, importowanie danych, indeksowanie logiczne, usuwanie wartości, sortowanie i czyszczenie danych. Przygotowaliśmy także ściągawkę dotyczącą pand w formacie PDF do artykułu. Pandy to biblioteka w Python a nauka o danych używa tej biblioteki do pracy z ramkami danych i seriami pand. W tej ściągawce omówiliśmy różne polecenia pand.

Colab ściągawki

Mój plik ćwiczeń Colab dla Pand – Ściągawka Pandy – Python dla Data Science.ipynb