데이터 과학을 위한 Pandas 치트 시트 Python

팬더 치트 시트

Pandas 치트 시트란 무엇입니까?

Pandas 라이브러리에는 많은 기능이 있지만 일부 사람들에게는 이들 중 일부가 혼란스럽습니다. 우리는 여기에 다음과 같은 유용한 리소스를 제공했습니다. Python 팬더 치트 시트. Pandas의 기본을 간단하고 간결하게 설명합니다.

Pandas를 처음 접하는 사람이든 경험이 있는 사람이든 이 치트 시트는 유용한 참조 가이드가 될 수 있습니다. Series 및 DataFrame 데이터 구조 작업, 데이터 선택 및 정렬, 데이터에 함수 적용 등 다양한 주제를 다룹니다.

요약하자면, 이 팬더는 Python 치트 시트(Cheat Sheet)는 사용 방법에 대해 자세히 알아보려는 모든 사람에게 유용한 리소스입니다. Python 데이터 과학용. 편리한 참조 도구입니다. 이는 귀하의 능력을 향상하는 데 도움이 될 수 있습니다. 데이터 분석 능력 Pandas를 사용하여 더욱 효율적으로 작업할 수 있습니다.

👉 여기에서 치트 시트 PDF를 다운로드하세요.

Pandas의 중요한 기능 설명:

Pandas 기능 작업을 시작하려면 Pandas를 설치하고 가져와야 합니다. 이를 수행하는 두 가지 명령이 있습니다.

1단계) # 팬더 설치

핍 설치 팬더

2단계) # 판다 가져오기

팬더를 pd로 가져오기

이제 Pandas 기능 작업을 시작할 수 있습니다. 우리는 데이터를 조작, 분석 및 정리하는 작업을 수행할 것입니다. 다음은 팬더의 몇 가지 중요한 기능입니다.

팬더 데이터 구조

이미 논의했듯이 Pandas에는 Series와 DataFrames라는 두 가지 데이터 구조가 있습니다. 둘 다 배열로 레이블이 지정되어 있으며 모든 데이터 유형을 보유할 수 있습니다. Series는 XNUMX차원 배열이고 DataFrame은 XNUMX차원 배열이라는 점만 다릅니다.

1. 시리즈

XNUMX차원 레이블이 지정된 배열입니다. 모든 데이터 유형을 보유할 수 있습니다.

s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])

2. 데이터프레임

XNUMX차원 레이블 배열입니다. 모든 데이터 유형과 다양한 크기의 열을 보유할 수 있습니다.

data = {'RollNo' : [101, 102, 75, 99],
        'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
        'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()

팬더 치트 시트

데이터 가져 오기

Pandas에는 노트북에서 다양한 유형의 파일을 가져오거나 읽을 수 있는 기능이 있습니다.

아래에 몇 가지 예가 나와 있습니다.

# Import a CSV file pd
pd.read_csv(filename)

# Import a TSV file
pd.read_table(filename)

# Import a Excel file pd
pd.read_excel(filename)

# Import a SQL table/database
pd.read_sql(query, connection_object)

# Import a JSON file
pd.read_json(json_string)

# Import a HTML file
pd.read_html(url)

# From clipboard to read_table()
pd.read_clipboard()

# From dict
pd.DataFrame(dict)

선택

위치나 색인을 기준으로 요소를 선택할 수 있습니다. 이러한 기술을 사용하여 행, 열 및 고유 값을 선택할 수 있습니다.

1. 시리즈

# Accessing one element from Series
s['D']

# Accessing all elements between two given indices
s['A':'C']

# Accessing all elements from starting till given index
s[:'C']

# Accessing all elements from given index till end
s['B':]

2. 데이터프레임

# Accessing one column df
df['Name']

# Accessing rows from after given row
df[1:]

# Accessing till before given row
df[:1]

# Accessing rows between two given rows
df[1:2]

부울 인덱싱 및 설정을 통한 선택

1. 직위별

df.iloc[0, 1]

df.iat[0, 1]

2. 라벨별

df.loc[[0],  ['Name']]

3. 라벨/포지션별

df.loc[2] # Both are same
df.iloc[2]

4. 부울 인덱싱

# Series s where value is > 1
s[(s > 0)]

# Series s where value is <-2 or >1
s[(s < -2) | ~(s > 1)]

# Use filter to adjust DataFrame
df[df['RollNo']>100]

# Set index a of Series s to 6
s['D'] = 10
s.head()

데이터 청소

럭셔리 Python 데이터 정리를 위한 치트 시트의 목적으로 다음 작업을 수행할 수 있습니다.

  • rename() 메서드를 사용하여 열 이름을 바꿉니다.
  • 특정 요소에 액세스하고 수정하려면 at[] 또는 iat[] 메서드를 사용하여 값을 업데이트하세요.
  • copy() 메서드를 사용하여 시리즈 또는 데이터 프레임의 복사본을 만듭니다.
  • isnull() 메서드를 사용하여 NULL 값을 확인하고 dropna() 메서드를 사용하여 해당 값을 삭제합니다.
  • Duplicated() 메소드를 사용하여 중복된 값을 확인하십시오. drop_duplicates() 메서드를 사용하여 삭제하세요.
  • fill() 메소드를 사용하여 NULL 값을 지정된 값으로 대체합니다.
  • replacement() 메서드를 사용하여 값을 바꿉니다.
  • sort_values() 메서드를 사용하여 값을 정렬합니다.
  • Rank() 메서드를 사용하여 값의 순위를 지정합니다.
# Renaming columns
df.columns = ['a','b','c']
df.head()

# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})

# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()

# Counting duplicates in a column
df.duplicated(subset='Name')

# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])

# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')

# Checks for Null Values
s.isnull()

# Checks for non-Null Values - reverse of isnull()
s.notnull()

# Checks for Null Values df
df.isnull()

# Checks for non-Null Values - reverse of isnull()
df.notnull()

# Drops all rows that contain null values
df.dropna()

# Drops all columns that contain null values
df.dropna(axis=1)

# Replaces all null values with 'Guru99'
df.fillna('Guru99')

# Replaces all null values with the mean
s.fillna(s.mean())

# Converts the datatype of the Series to float
s.astype(float)

# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')

# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])

# Drop from rows (axis=0)
s.drop(['B',  'D'])

# Drop from columns(axis=1)
df.drop('Name', axis=1)

# Sort by labels with axis
df.sort_index()

# Sort by values with axis
df.sort_values(by='RollNo')

# Ranking entries
df.rank()

# s1 is pointing to same Series as s
s1 = s

# s_copy of s, but not pointing same Series
s_copy = s.copy()

# df1 is pointing to same DataFrame as df
df1 = s

# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()

정보 검색

다음 작업을 수행하여 정보를 검색할 수 있습니다.

  • 행과 열의 수를 얻으려면 모양 속성을 사용하십시오.
  • head() 또는 tail() 메서드를 사용하여 처음 또는 마지막 몇 행을 샘플로 가져옵니다.
  • info(), explain() 또는 dtypes 메서드를 사용하여 데이터 유형, 개수, 평균, 표준 편차, 최소값 및 최대값에 대한 정보를 얻습니다.
  • 값에 대한 특정 통계 정보를 얻으려면 count(), min(), max(), sum(),mean() 및 median() 메서드를 사용하십시오.
  • 행을 얻으려면 loc[] 메소드를 사용하십시오.
  • Groupby() 메서드를 사용하여 GROUP BY 함수를 적용하여 DataFrame 열의 유사한 값을 그룹화합니다.

1. 기본 정보

# Counting all elements in Series
len(s)

# Counting all elements in DataFrame
len(df)

# Prints number of rows and columns in dataframe
df.shape

# Prints first 10 rows by default, if no value set
df.head(10)

# Prints last 10 rows by default, if no value set
df.tail(10)

# For counting non-Null values column-wise
df.count()

# For range of index df
df.index

# For name of attributes/columns
df.columns

# Index, Data Type and Memory information
df.info()

# Datatypes of each column
df.dtypes

# Summary statistics for numerical columns
df.describe()

2. 개요

# For adding all values column-wise
df.sum()

# For min column-wise
df.min()

# For max column-wise
df.max()

# For mean value in number column
df.mean()

# For median value in number column
df.median()

# Count non-Null values
s.count()

# Count non-Null values
df.count()

# Return Series of given column
df['Name'].tolist()

# Name of columns
df.columns.tolist()

# Creating subset
df[['Name', 'Course']]

# Return number of values in each group
df.groupby('Name').count()

기능 적용

# Define function
f = lambda x: x*5

# Apply this function on given Series - For each value
s.apply(f)

# Apply this function on given DataFrame - For each value
df.apply(f)

1. 내부 데이터 정렬

# NA values for indices that don't overlap
s2 = pd.Series([8, -1, 4],  index=['A',  'C',  'D'])
s + s2

2. 산술 Opera채우기 방법을 사용한 기능

# Fill values that don't overlap
s.add(s2, fill_value=0)

3. 필터링, 정렬 및 그룹화 기준

다음 함수는 Series 및 DataFrame을 기준으로 필터링, 정렬, 그룹화하는 데 사용할 수 있습니다.

# Filter rows where column is greater than 100
df[df['RollNo']>100]

# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]

# Sorts values in ascending order
s.sort_values()

# Sorts values in descending order
s.sort_values(ascending=False)

# Sorts values by RollNo in ascending order
df.sort_values('RollNo')

# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)

데이터 내보내기

Pandas에는 다양한 형식으로 데이터를 내보내거나 쓸 수 있는 기능이 있습니다. 아래에 몇 가지 예가 나와 있습니다.

# Export as a CSV file df
df.to_csv(filename)

# Export as a Excel file df
df.to_excel(filename)

# Export as a SQL table df
df.to_sql(table_name, connection_object)

# Export as a JSON file
df.to_json(filename)

# Export as a HTML table
df.to_html(filename)

# Write to the clipboard
df.to_clipboard()

Pandas 치트 시트 결론:

판다 오픈 소스 라이브러리는 다음과 같습니다. Python 데이터 세트 작업에 사용됩니다. 데이터를 분석, 정리, 탐색 및 조작하는 능력입니다. Pandas는 Numpy를 기반으로 구축되었습니다. Matplotlib과 같은 다른 프로그램과 함께 사용됩니다. 사이킷런. 데이터 구조, 데이터 선택, 데이터 가져오기, 부울 인덱싱, 값 삭제, 정렬 및 데이터 정리와 같은 주제를 다룹니다. 기사용 pandas 치트 시트 pdf도 준비했습니다. Pandas는 다음의 라이브러리입니다. Python 데이터 과학에서는 Pandas 데이터 프레임 및 시리즈 작업에 이 라이브러리를 사용합니다. 이 치트시트에서는 다양한 pandas 명령에 대해 논의했습니다.

치트 시트 Colab

Pandas용 내 Colab 연습 파일 – 팬더 치트 시트 – Python 데이터 과학을 위한.ipynb