ورقة الغش الباندا لعلوم البيانات في Python

ورقة الغش الباندا

ما هي ورقة الغش الباندا؟

تحتوي مكتبة الباندا على العديد من الوظائف، ولكن بعضها مربك لبعض الناس. لقد قدمنا ​​هنا موردًا مفيدًا متاحًا يسمى Python ورقة الغش الباندا. وهو يشرح أساسيات الباندا بطريقة بسيطة وموجزة.

سواء كنت مبتدئًا أو من ذوي الخبرة في التعامل مع الباندا، يمكن أن تكون ورقة الغش هذه بمثابة دليل مرجعي مفيد. ويغطي مجموعة متنوعة من المواضيع، بما في ذلك العمل مع هياكل البيانات المتسلسلة وDataFrame، واختيار البيانات وترتيبها، وتطبيق الوظائف على بياناتك.

باختصار، هذا الباندا Python تُعد ورقة الغش مصدرًا جيدًا لأي شخص يتطلع إلى معرفة المزيد حول الاستخدام Python لعلوم البيانات. إنها أداة مرجعية مفيدة. يمكن أن تساعدك على تحسين الخاص بك مهارات تحليل البيانات والعمل بكفاءة أكبر مع الباندا.

👉 قم بتنزيل ملف PDF الخاص بورقة الغش هنا

شرح الوظائف الهامة في الباندا:

لبدء العمل مع وظائف الباندا، تحتاج إلى تثبيت واستيراد الباندا. هناك أمران للقيام بذلك:

الخطوة 1) # تثبيت الباندا

نقطة تثبيت الباندا

الخطوة 2) # استيراد الباندا

استيراد الباندا ك pd

الآن، يمكنك البدء في العمل مع وظائف Pandas. سنعمل على معالجة البيانات وتحليلها وتنظيفها. فيما يلي بعض الوظائف المهمة للباندا.

هياكل بيانات الباندا

كما ناقشنا بالفعل أن Pandas لديها بنيتان للبيانات تسمى Series وDataFrames. كلاهما عبارة عن صفائف مصنفة ويمكنهما الاحتفاظ بأي نوع بيانات. هناك فرق وحيد وهو أن Series عبارة عن مصفوفة أحادية البعد، وDataFrame عبارة عن مصفوفة ثنائية الأبعاد.

1. السلسلة

إنها مصفوفة ذات بعد واحد. يمكن أن تعقد أي نوع من البيانات.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. إطار البيانات

إنها مجموعة مسماة ثنائية الأبعاد. يمكنه الاحتفاظ بأي نوع بيانات وأحجام مختلفة من الأعمدة.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

ورقة الغش الباندا

استيراد البيانات

تتمتع الباندا بالقدرة على استيراد أو قراءة أنواع مختلفة من الملفات في دفتر الملاحظات الخاص بك.

وفيما يلي بعض الأمثلة الواردة أدناه.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

اختيار

يمكنك تحديد العناصر حسب موقعها أو فهرسها. يمكنك تحديد الصفوف والأعمدة والقيم المميزة باستخدام هذه التقنيات.

1. السلسلة

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. إطار البيانات

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

الاختيار عن طريق الفهرسة المنطقية والإعداد

1 حسب المنصب

df.iloc[0, 1]

df.iat[0, 1]

2. عن طريق التسمية

df.loc[[0],  ['Name']]

3. حسب التسمية/المنصب

df.loc[2] # Both are same
df.iloc[2]

4. الفهرسة المنطقية

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

تنظيف البيانات

في حالة Python لأغراض تنظيف البيانات، يمكنك إجراء العمليات التالية:

  • إعادة تسمية الأعمدة باستخدام طريقة إعادة التسمية ().
  • قم بتحديث القيم باستخدام الطريقة at[] أو iat[] للوصول إلى عناصر محددة وتعديلها.
  • قم بإنشاء نسخة من سلسلة أو إطار بيانات باستخدام طريقة النسخ ().
  • تحقق من القيم الخالية باستخدام طريقة isnull()، وقم بإفلاتها باستخدام طريقة dropna().
  • تحقق من وجود قيم مكررة باستخدام الطريقة المكررة (). قم بإسقاطها باستخدام طريقة drop_duplicates().
  • استبدل القيم الخالية باستخدام طريقة التعبئة () بقيمة محددة.
  • استبدل القيم باستخدام طريقة الاستبدال ().
  • فرز القيم باستخدام طريقةsort_values().
  • ترتيب القيم باستخدام طريقة rank().
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

استرجاع المعلومات

يمكنك إجراء هذه العمليات لاسترجاع المعلومات:

  • استخدم سمة الشكل للحصول على عدد الصفوف والأعمدة.
  • استخدم طريقة head() أو tail() للحصول على الصفوف القليلة الأولى أو الأخيرة كعينة.
  • استخدم طريقة info() أو description() أو dtypes للحصول على معلومات حول نوع البيانات والعدد والمتوسط ​​والانحراف المعياري والحد الأدنى والحد الأقصى للقيم.
  • استخدم طرق count() وmin() وmax() وsum() وmean() وmedian() للحصول على معلومات إحصائية محددة للقيم.
  • استخدم طريقة loc[] للحصول على صف.
  • استخدم طريقة groupby() لتطبيق الدالة GROUP BY لتجميع القيم المتشابهة في عمود DataFrame.

1. معلومات اساسية

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. ملخص

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

تطبيق الوظائف

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. محاذاة البيانات الداخلية

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. الحساب Operaمع طرق التعبئة

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. التصفية والفرز والتجميع حسب

يمكن استخدام الوظائف التالية للتصفية والفرز والتجميع حسب السلسلة وإطار البيانات.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

تصدير البيانات

تتمتع Pandas بالقدرة على تصدير البيانات أو كتابتها بتنسيقات مختلفة. وفيما يلي بعض الأمثلة الواردة أدناه.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

استنتاجات ورقة الغش في الباندا:

الباندا هي مكتبة مفتوحة المصدر في Python للعمل مع مجموعات البيانات. قدرتها على تحليل البيانات وتنظيفها واستكشافها ومعالجتها. تم بناء الباندا على قمة Numpy. يتم استخدامه مع برامج أخرى مثل Matplotlib و سكيكيت ليرن. ويغطي موضوعات مثل هياكل البيانات واختيار البيانات واستيراد البيانات والفهرسة المنطقية وإسقاط القيم والفرز وتنظيف البيانات. لقد قمنا أيضًا بإعداد ورقة غش الباندا pdf للمقالة. الباندا هي مكتبة في Python ويستخدم علم البيانات هذه المكتبة للعمل مع إطارات وسلاسل بيانات الباندا. لقد ناقشنا أوامر الباندا المختلفة في ورقة الغش هذه.

كولاب من ورقة الغش

ملف تمرين Colab الخاص بـ Pandas – ورقة الغش الباندا – Python لعلم البيانات.ipynb