Pandas Cheat Sheet for Data Science in Python

Pandas Cheat Sheet

Τι είναι το Pandas Cheat Sheet;

Η βιβλιοθήκη Pandas έχει πολλές λειτουργίες, αλλά μερικές από αυτές προκαλούν σύγχυση για μερικούς ανθρώπους. Παρέχουμε εδώ έναν χρήσιμο διαθέσιμο πόρο που ονομάζεται το Python Pandas Cheat Sheet. Εξηγεί τα βασικά των Pandas με απλό και συνοπτικό τρόπο.

Είτε είστε αρχάριος είτε έμπειρος με τα Pandas, αυτό το cheat sheet μπορεί να χρησιμεύσει ως χρήσιμος οδηγός αναφοράς. Καλύπτει μια ποικιλία θεμάτων, όπως η εργασία με δομές δεδομένων Series και DataFrame, η επιλογή και η παραγγελία δεδομένων και η εφαρμογή συναρτήσεων στα δεδομένα σας.

Συνοπτικά, αυτό το Pandas Python Το Cheat Sheet είναι μια καλή πηγή για όποιον θέλει να μάθει περισσότερα σχετικά με τη χρήση Python για την Επιστήμη των Δεδομένων. Είναι ένα εύχρηστο εργαλείο αναφοράς. Μπορεί να σας βοηθήσει να βελτιώσετε δεξιότητες ανάλυσης δεδομένων και συνεργαστείτε πιο αποτελεσματικά με τα Panda.

👉 Κατεβάστε το PDF του Cheat Sheet εδώ

Εξήγηση σημαντικών λειτουργιών στα Pandas:

Για να ξεκινήσετε να εργάζεστε με τις λειτουργίες panda, πρέπει να εγκαταστήσετε και να εισαγάγετε panda. Υπάρχουν δύο εντολές για να γίνει αυτό:

Βήμα 1) # Εγκαταστήστε τα Panda

Pip install panda

Βήμα 2) # Εισαγωγή Panda

Εισαγωγή panda ως pd

Τώρα, μπορείτε να αρχίσετε να εργάζεστε με τις λειτουργίες Pandas. Θα εργαστούμε για να χειριστούμε, να αναλύσουμε και να καθαρίσουμε τα δεδομένα. Εδώ είναι μερικές σημαντικές λειτουργίες των πάντα.

Δομές δεδομένων Pandas

Όπως έχουμε ήδη συζητήσει ότι τα Pandas έχουν δύο δομές δεδομένων που ονομάζονται Series και DataFrames. Και οι δύο είναι συστοιχίες με ετικέτα και μπορούν να χωρέσουν οποιονδήποτε τύπο δεδομένων. Υπάρχει Η μόνη διαφορά ότι το Series είναι ένας μονοδιάστατος πίνακας και το DataFrame είναι ένας δισδιάστατος πίνακας.

1. Σειρά

Είναι ένας μονοδιάστατος πίνακας με ετικέτα. Μπορεί να χωρέσει οποιονδήποτε τύπο δεδομένων.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. DataFrame

Είναι ένας δισδιάστατος πίνακας με ετικέτα. Μπορεί να χωρέσει οποιονδήποτε τύπο δεδομένων και διαφορετικά μεγέθη στηλών.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

Pandas Cheat Sheet

Εισαγωγή δεδομένων

Τα Panda έχουν τη δυνατότητα να εισάγουν ή να διαβάζουν διάφορους τύπους αρχείων στο Notebook σας.

Ακολουθούν μερικά παραδείγματα που δίνονται παρακάτω.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

Επιλογή

Μπορείτε να επιλέξετε στοιχεία με βάση τη θέση ή το ευρετήριό τους. Μπορείτε να επιλέξετε γραμμές, στήλες και διακριτές τιμές χρησιμοποιώντας αυτές τις τεχνικές.

1. Σειρά

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. DataFrame

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

Επιλογή με Boolean Indexing και Setting

1. Κατά θέση

df.iloc[0, 1]

df.iat[0, 1]

2. Με ετικέτα

df.loc[[0],  ['Name']]

3. Με ετικέτα/θέση

df.loc[2] # Both are same
df.iloc[2]

4. Ευρετηρίαση Boolean

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

Καθαρισμός δεδομένων

Για Python Για τους σκοπούς του φύλλου εξαπάτησης καθαρισμού δεδομένων, μπορείτε να εκτελέσετε τις ακόλουθες λειτουργίες:

  • Μετονομασία στηλών χρησιμοποιώντας τη μέθοδο rename().
  • Ενημερώστε τις τιμές χρησιμοποιώντας τη μέθοδο at[] ή iat[] για πρόσβαση και τροποποίηση συγκεκριμένων στοιχείων.
  • Δημιουργήστε ένα αντίγραφο μιας σειράς ή ενός πλαισίου δεδομένων χρησιμοποιώντας τη μέθοδο copy().
  • Ελέγξτε για τιμές NULL χρησιμοποιώντας τη μέθοδο isnull() και αποθέστε τις χρησιμοποιώντας τη μέθοδο dropna().
  • Ελέγξτε για διπλότυπες τιμές χρησιμοποιώντας τη μέθοδο duplicated(). Αποθέστε τα χρησιμοποιώντας τη μέθοδο drop_duplicates().
  • Αντικαταστήστε τις τιμές NULL χρησιμοποιώντας τη μέθοδο fill () με μια καθορισμένη τιμή.
  • Αντικαταστήστε τις τιμές χρησιμοποιώντας τη μέθοδο replace().
  • Ταξινόμηση τιμών χρησιμοποιώντας τη μέθοδο sort_values().
  • Κατάταξη τιμών χρησιμοποιώντας τη μέθοδο rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

Ανάκτηση πληροφοριών

Μπορείτε να εκτελέσετε αυτές τις λειτουργίες για να ανακτήσετε πληροφορίες:

  • Χρησιμοποιήστε το χαρακτηριστικό shape για να λάβετε τον αριθμό των γραμμών και των στηλών.
  • Χρησιμοποιήστε τη μέθοδο head() ή tail() για να λάβετε ως δείγμα τις πρώτες ή τις τελευταίες σειρές.
  • Χρησιμοποιήστε τη μέθοδο info(), describe() ή dtypes για να λάβετε πληροφορίες σχετικά με τον τύπο δεδομένων, τον αριθμό, τη μέση τιμή, την τυπική απόκλιση, τις ελάχιστες και μέγιστες τιμές.
  • Χρησιμοποιήστε τις μεθόδους count(), min(), max(), sum(), mean() και median() για να λάβετε συγκεκριμένες στατιστικές πληροφορίες για τιμές.
  • Χρησιμοποιήστε τη μέθοδο loc[] για να αποκτήσετε μια σειρά.
  • Χρησιμοποιήστε τη μέθοδο groupby() για να εφαρμόσετε τη συνάρτηση GROUP BY για να ομαδοποιήσετε παρόμοιες τιμές σε μια στήλη ενός DataFrame.

1. Βασικές πληροφορίες

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. Περίληψη

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

Εφαρμογή Λειτουργιών

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. Εσωτερική στοίχιση δεδομένων

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. Αριθμητική Operaμε μεθόδους πλήρωσης

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. Φιλτράρισμα, ταξινόμηση και ομαδοποίηση κατά

Αυτές οι ακόλουθες λειτουργίες μπορούν να χρησιμοποιηθούν για φιλτράρισμα, ταξινόμηση και ομαδοποίηση κατά σειρά και DataFrame.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

Εξαγωγή δεδομένων

Το Pandas έχει τη δυνατότητα εξαγωγής ή εγγραφής δεδομένων σε διάφορες μορφές. Ακολουθούν μερικά παραδείγματα που δίνονται παρακάτω.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Συμπέρασμα φύλλου εξαπάτησης Pandas:

Πάντα είναι βιβλιοθήκη ανοιχτού κώδικα σε Python για εργασία με σύνολα δεδομένων. Η ικανότητά του να αναλύει, να καθαρίζει, να εξερευνά και να χειρίζεται δεδομένα. Το Pandas είναι χτισμένο στην κορυφή του Numpy. Χρησιμοποιείται με άλλα προγράμματα όπως το Matplotlib και Scikit-Μάθετε. Καλύπτει θέματα όπως δομές δεδομένων, επιλογή δεδομένων, εισαγωγή δεδομένων, ευρετηρίαση Boolean, απόθεση τιμών, ταξινόμηση και καθαρισμός δεδομένων. Έχουμε επίσης ετοιμάσει για άρθρο το φύλλο απάτης pandas pdf. Το Pandas είναι μια βιβλιοθήκη στο Python και η επιστήμη δεδομένων χρησιμοποιεί αυτήν τη βιβλιοθήκη για εργασία με πλαίσια δεδομένων και σειρές pandas. Έχουμε συζητήσει διάφορες εντολές panda σε αυτό το cheatsheet.

Colab of Cheat Sheet

Αρχείο My Colab Exercise for Pandas – Φύλλο απάτης Pandas - Python για Data Science.ipynb