데이터 과학을 위한 Pandas 치트 시트 Python

Pandas 치트 시트란 무엇입니까?
Pandas 라이브러리에는 많은 기능이 있지만 일부 사람들에게는 이들 중 일부가 혼란스럽습니다. 우리는 여기에 다음과 같은 유용한 리소스를 제공했습니다. Python 팬더 치트 시트. Pandas의 기본을 간단하고 간결하게 설명합니다.
Pandas를 처음 접하는 사람이든 경험이 있는 사람이든 이 치트 시트는 유용한 참조 가이드가 될 수 있습니다. Series 및 DataFrame 데이터 구조 작업, 데이터 선택 및 정렬, 데이터에 함수 적용 등 다양한 주제를 다룹니다.
요약하자면, 이 팬더는 Python 치트 시트(Cheat Sheet)는 사용 방법에 대해 자세히 알아보려는 모든 사람에게 유용한 리소스입니다. Python 데이터 과학용. 편리한 참조 도구입니다. 이는 귀하의 능력을 향상하는 데 도움이 될 수 있습니다. 데이터 분석 능력 Pandas를 사용하여 더욱 효율적으로 작업할 수 있습니다.
Pandas의 중요한 기능 설명:
Pandas 기능 작업을 시작하려면 Pandas를 설치하고 가져와야 합니다. 이를 수행하는 두 가지 명령이 있습니다.
1단계) # 팬더 설치
핍 설치 팬더
2단계) # 판다 가져오기
팬더를 pd로 가져오기
이제 Pandas 기능 작업을 시작할 수 있습니다. 우리는 데이터를 조작, 분석 및 정리하는 작업을 수행할 것입니다. 다음은 팬더의 몇 가지 중요한 기능입니다.
팬더 데이터 구조
이미 논의했듯이 Pandas에는 Series와 DataFrames라는 두 가지 데이터 구조가 있습니다. 둘 다 배열로 레이블이 지정되어 있으며 모든 데이터 유형을 보유할 수 있습니다. Series는 XNUMX차원 배열이고 DataFrame은 XNUMX차원 배열이라는 점만 다릅니다.
1. 시리즈
XNUMX차원 레이블이 지정된 배열입니다. 모든 데이터 유형을 보유할 수 있습니다.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. 데이터프레임
XNUMX차원 레이블 배열입니다. 모든 데이터 유형과 다양한 크기의 열을 보유할 수 있습니다.
data = {'RollNo' : [101, 102, 75, 99],
'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'],
'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript']
}
df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course'])
df.head()
데이터 가져 오기
Pandas에는 노트북에서 다양한 유형의 파일을 가져오거나 읽을 수 있는 기능이 있습니다.
아래에 몇 가지 예가 나와 있습니다.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
선택
위치나 색인을 기준으로 요소를 선택할 수 있습니다. 이러한 기술을 사용하여 행, 열 및 고유 값을 선택할 수 있습니다.
1. 시리즈
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. 데이터프레임
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
부울 인덱싱 및 설정을 통한 선택
1. 직위별
df.iloc[0, 1] df.iat[0, 1]
2. 라벨별
df.loc[[0], ['Name']]
3. 라벨/포지션별
df.loc[2] # Both are same df.iloc[2]
4. 부울 인덱싱
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
데이터 청소
럭셔리 Python 데이터 정리를 위한 치트 시트의 목적으로 다음 작업을 수행할 수 있습니다.
- rename() 메서드를 사용하여 열 이름을 바꿉니다.
- 특정 요소에 액세스하고 수정하려면 at[] 또는 iat[] 메서드를 사용하여 값을 업데이트하세요.
- copy() 메서드를 사용하여 시리즈 또는 데이터 프레임의 복사본을 만듭니다.
- isnull() 메서드를 사용하여 NULL 값을 확인하고 dropna() 메서드를 사용하여 해당 값을 삭제합니다.
- Duplicated() 메소드를 사용하여 중복된 값을 확인하십시오. drop_duplicates() 메서드를 사용하여 삭제하세요.
- fill() 메소드를 사용하여 NULL 값을 지정된 값으로 대체합니다.
- replacement() 메서드를 사용하여 값을 바꿉니다.
- sort_values() 메서드를 사용하여 값을 정렬합니다.
- Rank() 메서드를 사용하여 값의 순위를 지정합니다.
# Renaming columns
df.columns = ['a','b','c']
df.head()
# Mass renaming of columns
df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'})
# Or use this edit in same DataFrame instead of in copy
df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True)
df.head()
# Counting duplicates in a column
df.duplicated(subset='Name')
# Removing entire row that has duplicate in given column
df.drop_duplicates(subset=['Name'])
# You can choose which one keep - by default is first
df.drop_duplicates(subset=['Name'], keep='last')
# Checks for Null Values
s.isnull()
# Checks for non-Null Values - reverse of isnull()
s.notnull()
# Checks for Null Values df
df.isnull()
# Checks for non-Null Values - reverse of isnull()
df.notnull()
# Drops all rows that contain null values
df.dropna()
# Drops all columns that contain null values
df.dropna(axis=1)
# Replaces all null values with 'Guru99'
df.fillna('Guru99')
# Replaces all null values with the mean
s.fillna(s.mean())
# Converts the datatype of the Series to float
s.astype(float)
# Replaces all values equal to 6 with 'Six'
s.replace(6,'Six')
# Replaces all 2 with 'Two' and 6 with 'Six'
s.replace([2,6],['Two','Six'])
# Drop from rows (axis=0)
s.drop(['B', 'D'])
# Drop from columns(axis=1)
df.drop('Name', axis=1)
# Sort by labels with axis
df.sort_index()
# Sort by values with axis
df.sort_values(by='RollNo')
# Ranking entries
df.rank()
# s1 is pointing to same Series as s
s1 = s
# s_copy of s, but not pointing same Series
s_copy = s.copy()
# df1 is pointing to same DataFrame as df
df1 = s
# df_copy of df, but not pointing same DataFrame
df_copy = df.copy()
정보 검색
다음 작업을 수행하여 정보를 검색할 수 있습니다.
- 행과 열의 수를 얻으려면 모양 속성을 사용하십시오.
- head() 또는 tail() 메서드를 사용하여 처음 또는 마지막 몇 행을 샘플로 가져옵니다.
- info(), explain() 또는 dtypes 메서드를 사용하여 데이터 유형, 개수, 평균, 표준 편차, 최소값 및 최대값에 대한 정보를 얻습니다.
- 값에 대한 특정 통계 정보를 얻으려면 count(), min(), max(), sum(),mean() 및 median() 메서드를 사용하십시오.
- 행을 얻으려면 loc[] 메소드를 사용하십시오.
- Groupby() 메서드를 사용하여 GROUP BY 함수를 적용하여 DataFrame 열의 유사한 값을 그룹화합니다.
1. 기본 정보
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. 개요
# For adding all values column-wise
df.sum()
# For min column-wise
df.min()
# For max column-wise
df.max()
# For mean value in number column
df.mean()
# For median value in number column
df.median()
# Count non-Null values
s.count()
# Count non-Null values
df.count()
# Return Series of given column
df['Name'].tolist()
# Name of columns
df.columns.tolist()
# Creating subset
df[['Name', 'Course']]
# Return number of values in each group
df.groupby('Name').count()
기능 적용
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. 내부 데이터 정렬
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. 산술 Opera채우기 방법을 사용한 기능
# Fill values that don't overlap s.add(s2, fill_value=0)
3. 필터링, 정렬 및 그룹화 기준
다음 함수들은 필터링, 정렬 및 그룹화에 사용할 수 있습니다.ping Series와 DataFrame을 이용합니다.
# Filter rows where column is greater than 100
df[df['RollNo']>100]
# Filter rows where 70 < column < 101
df[(df['RollNo'] > 70) & (df['RollNo'] < 101)]
# Sorts values in ascending order
s.sort_values()
# Sorts values in descending order
s.sort_values(ascending=False)
# Sorts values by RollNo in ascending order
df.sort_values('RollNo')
# Sorts values by RollNo in descending order
df.sort_values('RollNo', ascending=False)
데이터 내보내기
Pandas에는 다양한 형식으로 데이터를 내보내거나 쓸 수 있는 기능이 있습니다. 아래에 몇 가지 예가 나와 있습니다.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Pandas 치트 시트 결론:
판다 오픈 소스 라이브러리는 다음과 같습니다. Python 데이터 세트 작업에 사용됩니다. 데이터를 분석, 정리, 탐색 및 조작하는 능력입니다. Pandas는 Numpy를 기반으로 구축되었습니다. Matplotlib과 같은 다른 프로그램과 함께 사용됩니다. 사이킷런이 책은 데이터 구조, 데이터 선택, 데이터 가져오기, 불리언 인덱싱, 삭제 등의 주제를 다룹니다.ping 값, 정렬 및 데이터 정리에 대한 내용입니다. 또한 이 글을 위해 pandas 치트 시트 PDF도 준비했습니다. pandas는 라이브러리입니다. Python 데이터 과학에서는 Pandas 데이터 프레임 및 시리즈 작업에 이 라이브러리를 사용합니다. 이 치트시트에서는 다양한 pandas 명령에 대해 논의했습니다.
치트 시트 Colab
Pandas용 내 Colab 연습 파일 – 팬더 치트 시트 – Python 데이터 과학을 위한.ipynb

