Pandas Cheat Sheet for Data Science in Python
Τι είναι το Pandas Cheat Sheet;
Η βιβλιοθήκη Pandas έχει πολλές λειτουργίες, αλλά μερικές από αυτές προκαλούν σύγχυση για μερικούς ανθρώπους. Παρέχουμε εδώ έναν χρήσιμο διαθέσιμο πόρο που ονομάζεται το Python Pandas Cheat Sheet. Εξηγεί τα βασικά των Pandas με απλό και συνοπτικό τρόπο.
Είτε είστε αρχάριος είτε έμπειρος με τα Pandas, αυτό το cheat sheet μπορεί να χρησιμεύσει ως χρήσιμος οδηγός αναφοράς. Καλύπτει μια ποικιλία θεμάτων, όπως η εργασία με δομές δεδομένων Series και DataFrame, η επιλογή και η παραγγελία δεδομένων και η εφαρμογή συναρτήσεων στα δεδομένα σας.
Συνοπτικά, αυτό το Pandas Python Το Cheat Sheet είναι μια καλή πηγή για όποιον θέλει να μάθει περισσότερα σχετικά με τη χρήση Python για την Επιστήμη των Δεδομένων. Είναι ένα εύχρηστο εργαλείο αναφοράς. Μπορεί να σας βοηθήσει να βελτιώσετε δεξιότητες ανάλυσης δεδομένων και συνεργαστείτε πιο αποτελεσματικά με τα Panda.
👉 Κατεβάστε το PDF του Cheat Sheet εδώ
Εξήγηση σημαντικών λειτουργιών στα Pandas:
Για να ξεκινήσετε να εργάζεστε με τις λειτουργίες panda, πρέπει να εγκαταστήσετε και να εισαγάγετε panda. Υπάρχουν δύο εντολές για να γίνει αυτό:
Βήμα 1) # Εγκαταστήστε τα Panda
Pip install panda
Βήμα 2) # Εισαγωγή Panda
Εισαγωγή panda ως pd
Τώρα, μπορείτε να αρχίσετε να εργάζεστε με τις λειτουργίες Pandas. Θα εργαστούμε για να χειριστούμε, να αναλύσουμε και να καθαρίσουμε τα δεδομένα. Εδώ είναι μερικές σημαντικές λειτουργίες των πάντα.
Δομές δεδομένων Pandas
Όπως έχουμε ήδη συζητήσει ότι τα Pandas έχουν δύο δομές δεδομένων που ονομάζονται Series και DataFrames. Και οι δύο είναι συστοιχίες με ετικέτα και μπορούν να χωρέσουν οποιονδήποτε τύπο δεδομένων. Υπάρχει Η μόνη διαφορά ότι το Series είναι ένας μονοδιάστατος πίνακας και το DataFrame είναι ένας δισδιάστατος πίνακας.
1. Σειρά
Είναι ένας μονοδιάστατος πίνακας με ετικέτα. Μπορεί να χωρέσει οποιονδήποτε τύπο δεδομένων.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. DataFrame
Είναι ένας δισδιάστατος πίνακας με ετικέτα. Μπορεί να χωρέσει οποιονδήποτε τύπο δεδομένων και διαφορετικά μεγέθη στηλών.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
Εισαγωγή δεδομένων
Τα Panda έχουν τη δυνατότητα να εισάγουν ή να διαβάζουν διάφορους τύπους αρχείων στο Notebook σας.
Ακολουθούν μερικά παραδείγματα που δίνονται παρακάτω.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
Επιλογή
Μπορείτε να επιλέξετε στοιχεία με βάση τη θέση ή το ευρετήριό τους. Μπορείτε να επιλέξετε γραμμές, στήλες και διακριτές τιμές χρησιμοποιώντας αυτές τις τεχνικές.
1. Σειρά
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. DataFrame
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
Επιλογή με Boolean Indexing και Setting
1. Κατά θέση
df.iloc[0, 1] df.iat[0, 1]
2. Με ετικέτα
df.loc[[0], ['Name']]
3. Με ετικέτα/θέση
df.loc[2] # Both are same df.iloc[2]
4. Ευρετηρίαση Boolean
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
Καθαρισμός δεδομένων
Για Python Για τους σκοπούς του φύλλου εξαπάτησης καθαρισμού δεδομένων, μπορείτε να εκτελέσετε τις ακόλουθες λειτουργίες:
- Μετονομασία στηλών χρησιμοποιώντας τη μέθοδο rename().
- Ενημερώστε τις τιμές χρησιμοποιώντας τη μέθοδο at[] ή iat[] για πρόσβαση και τροποποίηση συγκεκριμένων στοιχείων.
- Δημιουργήστε ένα αντίγραφο μιας σειράς ή ενός πλαισίου δεδομένων χρησιμοποιώντας τη μέθοδο copy().
- Ελέγξτε για τιμές NULL χρησιμοποιώντας τη μέθοδο isnull() και αποθέστε τις χρησιμοποιώντας τη μέθοδο dropna().
- Ελέγξτε για διπλότυπες τιμές χρησιμοποιώντας τη μέθοδο duplicated(). Αποθέστε τα χρησιμοποιώντας τη μέθοδο drop_duplicates().
- Αντικαταστήστε τις τιμές NULL χρησιμοποιώντας τη μέθοδο fill () με μια καθορισμένη τιμή.
- Αντικαταστήστε τις τιμές χρησιμοποιώντας τη μέθοδο replace().
- Ταξινόμηση τιμών χρησιμοποιώντας τη μέθοδο sort_values().
- Κατάταξη τιμών χρησιμοποιώντας τη μέθοδο rank().
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
Ανάκτηση πληροφοριών
Μπορείτε να εκτελέσετε αυτές τις λειτουργίες για να ανακτήσετε πληροφορίες:
- Χρησιμοποιήστε το χαρακτηριστικό shape για να λάβετε τον αριθμό των γραμμών και των στηλών.
- Χρησιμοποιήστε τη μέθοδο head() ή tail() για να λάβετε ως δείγμα τις πρώτες ή τις τελευταίες σειρές.
- Χρησιμοποιήστε τη μέθοδο info(), describe() ή dtypes για να λάβετε πληροφορίες σχετικά με τον τύπο δεδομένων, τον αριθμό, τη μέση τιμή, την τυπική απόκλιση, τις ελάχιστες και μέγιστες τιμές.
- Χρησιμοποιήστε τις μεθόδους count(), min(), max(), sum(), mean() και median() για να λάβετε συγκεκριμένες στατιστικές πληροφορίες για τιμές.
- Χρησιμοποιήστε τη μέθοδο loc[] για να αποκτήσετε μια σειρά.
- Χρησιμοποιήστε τη μέθοδο groupby() για να εφαρμόσετε τη συνάρτηση GROUP BY για να ομαδοποιήσετε παρόμοιες τιμές σε μια στήλη ενός DataFrame.
1. Βασικές πληροφορίες
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. Περίληψη
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
Εφαρμογή Λειτουργιών
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. Εσωτερική στοίχιση δεδομένων
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. Αριθμητική Operaμε μεθόδους πλήρωσης
# Fill values that don't overlap s.add(s2, fill_value=0)
3. Φιλτράρισμα, ταξινόμηση και ομαδοποίηση κατά
Αυτές οι ακόλουθες λειτουργίες μπορούν να χρησιμοποιηθούν για φιλτράρισμα, ταξινόμηση και ομαδοποίηση κατά σειρά και DataFrame.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
Εξαγωγή δεδομένων
Το Pandas έχει τη δυνατότητα εξαγωγής ή εγγραφής δεδομένων σε διάφορες μορφές. Ακολουθούν μερικά παραδείγματα που δίνονται παρακάτω.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Συμπέρασμα φύλλου εξαπάτησης Pandas:
Πάντα είναι βιβλιοθήκη ανοιχτού κώδικα σε Python για εργασία με σύνολα δεδομένων. Η ικανότητά του να αναλύει, να καθαρίζει, να εξερευνά και να χειρίζεται δεδομένα. Το Pandas είναι χτισμένο στην κορυφή του Numpy. Χρησιμοποιείται με άλλα προγράμματα όπως το Matplotlib και Scikit-Μάθετε. Καλύπτει θέματα όπως δομές δεδομένων, επιλογή δεδομένων, εισαγωγή δεδομένων, ευρετηρίαση Boolean, απόθεση τιμών, ταξινόμηση και καθαρισμός δεδομένων. Έχουμε επίσης ετοιμάσει για άρθρο το φύλλο απάτης pandas pdf. Το Pandas είναι μια βιβλιοθήκη στο Python και η επιστήμη δεδομένων χρησιμοποιεί αυτήν τη βιβλιοθήκη για εργασία με πλαίσια δεδομένων και σειρές pandas. Έχουμε συζητήσει διάφορες εντολές panda σε αυτό το cheatsheet.
Colab of Cheat Sheet
Αρχείο My Colab Exercise for Pandas – Φύλλο απάτης Pandas - Python για Data Science.ipynb