डेटा विज्ञान के लिए पांडा चीट शीट Python
पांडा चीट शीट क्या है?
पांडा लाइब्रेरी में कई फ़ंक्शन हैं, लेकिन इनमें से कुछ कुछ लोगों के लिए भ्रमित करने वाले हैं। हमने यहाँ एक उपयोगी संसाधन उपलब्ध कराया है जिसे पांडा लाइब्रेरी कहा जाता है। Python पांडा चीट शीट। यह पांडा की मूल बातें सरल और संक्षिप्त तरीके से समझाता है।
चाहे आप पांडा के साथ नए हों या अनुभवी, यह चीट शीट एक उपयोगी संदर्भ मार्गदर्शिका के रूप में काम कर सकती है। इसमें कई तरह के विषय शामिल हैं, जिसमें सीरीज और डेटाफ्रेम डेटा संरचनाओं के साथ काम करना, डेटा का चयन और क्रम देना और आपके डेटा पर फ़ंक्शन लागू करना शामिल है।
संक्षेप में, यह पांडा Python चीट शीट उन लोगों के लिए एक अच्छा संसाधन है जो इसके उपयोग के बारे में अधिक जानना चाहते हैं। Python डेटा साइंस के लिए। यह एक आसान संदर्भ उपकरण है। यह आपको अपने डेटा को बेहतर बनाने में मदद कर सकता है। डेटा विश्लेषण कौशल और पांडा के साथ अधिक कुशलता से काम करें।
👉 चीट शीट का पीडीएफ यहां से डाउनलोड करें
पांडा में महत्वपूर्ण कार्यों की व्याख्या:
पांडा फ़ंक्शन के साथ काम करना शुरू करने के लिए, आपको पांडा को इंस्टॉल और आयात करना होगा। ऐसा करने के लिए दो कमांड हैं:
चरण 1) # पांडा स्थापित करें
पिप पांडा स्थापित करें
चरण 2) # पांडा आयात करें
पांडा को pd के रूप में आयात करें
अब, आप पांडा फ़ंक्शन के साथ काम करना शुरू कर सकते हैं। हम डेटा में हेरफेर, विश्लेषण और सफाई करने का काम करेंगे। यहाँ पांडा के कुछ महत्वपूर्ण फ़ंक्शन दिए गए हैं।
पांडा डेटा संरचनाएं
जैसा कि हम पहले ही चर्चा कर चुके हैं कि पांडा में दो डेटा संरचनाएं हैं जिन्हें सीरीज और डेटाफ्रेम कहा जाता है। दोनों लेबल वाली सरणियाँ हैं और किसी भी डेटा प्रकार को होल्ड कर सकती हैं। केवल अंतर यह है कि सीरीज एक-आयामी सरणी है, और डेटाफ्रेम दो-आयामी सरणी है।
1. श्रृंखला
यह एक आयामी लेबल वाली सरणी है। यह किसी भी डेटा प्रकार को धारण कर सकती है।
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. डेटाफ्रेम
यह एक द्वि-आयामी लेबल वाली सरणी है। यह किसी भी डेटा प्रकार और विभिन्न आकार के कॉलम को होल्ड कर सकती है।
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
डेटा आयात करना
पांडा में आपकी नोटबुक में विभिन्न प्रकार की फ़ाइलों को आयात करने या पढ़ने की क्षमता होती है।
नीचे कुछ उदाहरण दिए गए हैं।
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
चयन
आप तत्वों को उसके स्थान या अनुक्रमणिका के आधार पर चुन सकते हैं। आप इन तकनीकों का उपयोग करके पंक्तियों, स्तंभों और अलग-अलग मानों का चयन कर सकते हैं।
1. श्रृंखला
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. डेटाफ्रेम
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
बूलियन इंडेक्सिंग और सेटिंग द्वारा चयन
1. स्थिति के अनुसार
df.iloc[0, 1] df.iat[0, 1]
2. लेबल द्वारा
df.loc[[0], ['Name']]
3. लेबल/स्थिति के अनुसार
df.loc[2] # Both are same df.iloc[2]
4. बूलियन इंडेक्सिंग
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
डेटा की सफाई
के लिए Python डेटा-सफाई धोखा शीट प्रयोजनों के लिए, आप निम्नलिखित कार्य कर सकते हैं:
- rename() विधि का उपयोग करके स्तंभों का नाम बदलें।
- विशिष्ट तत्वों तक पहुँचने और उन्हें संशोधित करने के लिए at[] या iat[] विधि का उपयोग करके मानों को अद्यतन करें।
- copy() विधि का उपयोग करके श्रृंखला या डेटा फ़्रेम की प्रतिलिपि बनाएँ।
- isnull() विधि का उपयोग करके NULL मानों की जाँच करें, और dropna() विधि का उपयोग करके उन्हें हटा दें।
- डुप्लिकेटेड() विधि का उपयोग करके डुप्लिकेट मानों की जाँच करें। ड्रॉप_डुप्लिकेट्स() विधि का उपयोग करके उन्हें हटाएँ।
- fill () विधि का उपयोग करके NULL मानों को निर्दिष्ट मान से बदलें।
- replace() विधि का उपयोग करके मान बदलें.
- sort_values() विधि का उपयोग करके मानों को सॉर्ट करें.
- rank() विधि का उपयोग करके मानों को रैंक करें.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
जानकारी प्राप्त करना
आप जानकारी प्राप्त करने के लिए ये कार्य कर सकते हैं:
- पंक्तियों और स्तंभों की संख्या प्राप्त करने के लिए आकार विशेषता का उपयोग करें।
- नमूने के रूप में पहली या अंतिम कुछ पंक्तियाँ प्राप्त करने के लिए head() या tail() विधि का उपयोग करें।
- डेटा प्रकार, गणना, माध्य, मानक विचलन, न्यूनतम और अधिकतम मानों के बारे में जानकारी प्राप्त करने के लिए info(), description(), या dtypes विधि का उपयोग करें।
- मानों के लिए विशिष्ट सांख्यिकीय जानकारी प्राप्त करने के लिए count(), min(), max(), sum(), mean(), और median() विधियों का उपयोग करें।
- पंक्ति प्राप्त करने के लिए loc[] विधि का उपयोग करें.
- डेटाफ़्रेम के किसी कॉलम में समान मानों को समूहीकृत करने के लिए GROUP BY फ़ंक्शन को लागू करने के लिए groupby() विधि का उपयोग करें।
1। मूलभूत जानकारी
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. सारांश
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
फ़ंक्शन लागू करना
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. आंतरिक डेटा संरेखण
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. अंकगणित Operaभरण विधियों के साथ
# Fill values that don't overlap s.add(s2, fill_value=0)
3. फ़िल्टर करें, सॉर्ट करें और समूहीकृत करें
इन निम्नलिखित फ़ंक्शनों का उपयोग श्रृंखला और डेटाफ़्रेम द्वारा फ़िल्टरिंग, सॉर्टिंग और समूहीकरण के लिए किया जा सकता है।
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
डेटा निर्यात करना
पांडा में विभिन्न प्रारूपों में डेटा निर्यात या लिखने की क्षमता है। नीचे कुछ उदाहरण दिए गए हैं।
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
पांडा चीट शीट निष्कर्ष:
पांडा ओपन सोर्स लाइब्रेरी है Python डेटा सेट के साथ काम करने के लिए। डेटा का विश्लेषण, सफाई, अन्वेषण और हेरफेर करने की इसकी क्षमता। पांडा को Numpy के शीर्ष पर बनाया गया है। इसका उपयोग Matplotlib और जैसे अन्य कार्यक्रमों के साथ किया जाता है Scikit-जानेंइसमें डेटा संरचना, डेटा चयन, डेटा आयात करना, बूलियन इंडेक्सिंग, ड्रॉपिंग वैल्यू, सॉर्टिंग और डेटा क्लीनिंग जैसे विषय शामिल हैं। हमने लेख के लिए पांडा चीट शीट पीडीएफ भी तैयार किया है। पांडा एक लाइब्रेरी है। Python और डेटा साइंस पांडा डेटाफ्रेम और सीरीज के साथ काम करने के लिए इस लाइब्रेरी का उपयोग करता है। हमने इस चीटशीट में विभिन्न पांडा कमांड पर चर्चा की है।
चीट शीट का कोलाब
पांडा के लिए मेरी कोलाब अभ्यास फ़ाइल – पांडा चीट शीट – Python डेटा साइंस के लिए.ipynb