ورقة الغش الباندا لعلوم البيانات في Python
ما هي ورقة الغش الباندا؟
تحتوي مكتبة الباندا على العديد من الوظائف، ولكن بعضها مربك لبعض الناس. لقد قدمنا هنا موردًا مفيدًا متاحًا يسمى Python ورقة الغش الباندا. وهو يشرح أساسيات الباندا بطريقة بسيطة وموجزة.
سواء كنت مبتدئًا أو من ذوي الخبرة في التعامل مع الباندا، يمكن أن تكون ورقة الغش هذه بمثابة دليل مرجعي مفيد. ويغطي مجموعة متنوعة من المواضيع، بما في ذلك العمل مع هياكل البيانات المتسلسلة وDataFrame، واختيار البيانات وترتيبها، وتطبيق الوظائف على بياناتك.
باختصار، هذا الباندا Python تُعد ورقة الغش مصدرًا جيدًا لأي شخص يتطلع إلى معرفة المزيد حول الاستخدام Python لعلوم البيانات. إنها أداة مرجعية مفيدة. يمكن أن تساعدك على تحسين الخاص بك مهارات تحليل البيانات والعمل بكفاءة أكبر مع الباندا.
👉 قم بتنزيل ملف PDF الخاص بورقة الغش هنا
شرح الوظائف الهامة في الباندا:
لبدء العمل مع وظائف الباندا، تحتاج إلى تثبيت واستيراد الباندا. هناك أمران للقيام بذلك:
الخطوة 1) # تثبيت الباندا
نقطة تثبيت الباندا
الخطوة 2) # استيراد الباندا
استيراد الباندا ك pd
الآن، يمكنك البدء في العمل مع وظائف Pandas. سنعمل على معالجة البيانات وتحليلها وتنظيفها. فيما يلي بعض الوظائف المهمة للباندا.
هياكل بيانات الباندا
كما ناقشنا بالفعل أن Pandas لديها بنيتان للبيانات تسمى Series وDataFrames. كلاهما عبارة عن صفائف مصنفة ويمكنهما الاحتفاظ بأي نوع بيانات. هناك فرق وحيد وهو أن Series عبارة عن مصفوفة أحادية البعد، وDataFrame عبارة عن مصفوفة ثنائية الأبعاد.
1. السلسلة
إنها مصفوفة ذات بعد واحد. يمكن أن تعقد أي نوع من البيانات.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. إطار البيانات
إنها مجموعة مسماة ثنائية الأبعاد. يمكنه الاحتفاظ بأي نوع بيانات وأحجام مختلفة من الأعمدة.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
استيراد البيانات
تتمتع الباندا بالقدرة على استيراد أو قراءة أنواع مختلفة من الملفات في دفتر الملاحظات الخاص بك.
وفيما يلي بعض الأمثلة الواردة أدناه.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
اختيار
يمكنك تحديد العناصر حسب موقعها أو فهرسها. يمكنك تحديد الصفوف والأعمدة والقيم المميزة باستخدام هذه التقنيات.
1. السلسلة
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. إطار البيانات
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
الاختيار عن طريق الفهرسة المنطقية والإعداد
1 حسب المنصب
df.iloc[0, 1] df.iat[0, 1]
2. عن طريق التسمية
df.loc[[0], ['Name']]
3. حسب التسمية/المنصب
df.loc[2] # Both are same df.iloc[2]
4. الفهرسة المنطقية
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
تنظيف البيانات
في حالة Python لأغراض تنظيف البيانات، يمكنك إجراء العمليات التالية:
- إعادة تسمية الأعمدة باستخدام طريقة إعادة التسمية ().
- قم بتحديث القيم باستخدام الطريقة at[] أو iat[] للوصول إلى عناصر محددة وتعديلها.
- قم بإنشاء نسخة من سلسلة أو إطار بيانات باستخدام طريقة النسخ ().
- تحقق من القيم الخالية باستخدام طريقة isnull()، وقم بإفلاتها باستخدام طريقة dropna().
- تحقق من وجود قيم مكررة باستخدام الطريقة المكررة (). قم بإسقاطها باستخدام طريقة drop_duplicates().
- استبدل القيم الخالية باستخدام طريقة التعبئة () بقيمة محددة.
- استبدل القيم باستخدام طريقة الاستبدال ().
- فرز القيم باستخدام طريقةsort_values().
- ترتيب القيم باستخدام طريقة rank().
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
استرجاع المعلومات
يمكنك إجراء هذه العمليات لاسترجاع المعلومات:
- استخدم سمة الشكل للحصول على عدد الصفوف والأعمدة.
- استخدم طريقة head() أو tail() للحصول على الصفوف القليلة الأولى أو الأخيرة كعينة.
- استخدم طريقة info() أو description() أو dtypes للحصول على معلومات حول نوع البيانات والعدد والمتوسط والانحراف المعياري والحد الأدنى والحد الأقصى للقيم.
- استخدم طرق count() وmin() وmax() وsum() وmean() وmedian() للحصول على معلومات إحصائية محددة للقيم.
- استخدم طريقة loc[] للحصول على صف.
- استخدم طريقة groupby() لتطبيق الدالة GROUP BY لتجميع القيم المتشابهة في عمود DataFrame.
1. معلومات اساسية
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. ملخص
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
تطبيق الوظائف
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. محاذاة البيانات الداخلية
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. الحساب Operaمع طرق التعبئة
# Fill values that don't overlap s.add(s2, fill_value=0)
3. التصفية والفرز والتجميع حسب
يمكن استخدام الوظائف التالية للتصفية والفرز والتجميع حسب السلسلة وإطار البيانات.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
تصدير البيانات
تتمتع Pandas بالقدرة على تصدير البيانات أو كتابتها بتنسيقات مختلفة. وفيما يلي بعض الأمثلة الواردة أدناه.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
استنتاجات ورقة الغش في الباندا:
الباندا هي مكتبة مفتوحة المصدر في Python للعمل مع مجموعات البيانات. قدرتها على تحليل البيانات وتنظيفها واستكشافها ومعالجتها. تم بناء الباندا على قمة Numpy. يتم استخدامه مع برامج أخرى مثل Matplotlib و سكيكيت ليرن. ويغطي موضوعات مثل هياكل البيانات واختيار البيانات واستيراد البيانات والفهرسة المنطقية وإسقاط القيم والفرز وتنظيف البيانات. لقد قمنا أيضًا بإعداد ورقة غش الباندا pdf للمقالة. الباندا هي مكتبة في Python ويستخدم علم البيانات هذه المكتبة للعمل مع إطارات وسلاسل بيانات الباندا. لقد ناقشنا أوامر الباندا المختلفة في ورقة الغش هذه.
كولاب من ورقة الغش
ملف تمرين Colab الخاص بـ Pandas – ورقة الغش الباندا – Python لعلم البيانات.ipynb