데이터 과학을 위한 Pandas 치트 시트 Python
Pandas 치트 시트란 무엇입니까?
Pandas 라이브러리에는 많은 기능이 있지만 일부 사람들에게는 이들 중 일부가 혼란스럽습니다. 우리는 여기에 다음과 같은 유용한 리소스를 제공했습니다. Python 팬더 치트 시트. Pandas의 기본을 간단하고 간결하게 설명합니다.
Pandas를 처음 접하는 사람이든 경험이 있는 사람이든 이 치트 시트는 유용한 참조 가이드가 될 수 있습니다. Series 및 DataFrame 데이터 구조 작업, 데이터 선택 및 정렬, 데이터에 함수 적용 등 다양한 주제를 다룹니다.
요약하자면, 이 팬더는 Python 치트 시트(Cheat Sheet)는 사용 방법에 대해 자세히 알아보려는 모든 사람에게 유용한 리소스입니다. Python 데이터 과학용. 편리한 참조 도구입니다. 이는 귀하의 능력을 향상하는 데 도움이 될 수 있습니다. 데이터 분석 능력 Pandas를 사용하여 더욱 효율적으로 작업할 수 있습니다.
Pandas의 중요한 기능 설명:
Pandas 기능 작업을 시작하려면 Pandas를 설치하고 가져와야 합니다. 이를 수행하는 두 가지 명령이 있습니다.
1단계) # 팬더 설치
핍 설치 팬더
2단계) # 판다 가져오기
팬더를 pd로 가져오기
이제 Pandas 기능 작업을 시작할 수 있습니다. 우리는 데이터를 조작, 분석 및 정리하는 작업을 수행할 것입니다. 다음은 팬더의 몇 가지 중요한 기능입니다.
팬더 데이터 구조
이미 논의했듯이 Pandas에는 Series와 DataFrames라는 두 가지 데이터 구조가 있습니다. 둘 다 배열로 레이블이 지정되어 있으며 모든 데이터 유형을 보유할 수 있습니다. Series는 XNUMX차원 배열이고 DataFrame은 XNUMX차원 배열이라는 점만 다릅니다.
1. 시리즈
XNUMX차원 레이블이 지정된 배열입니다. 모든 데이터 유형을 보유할 수 있습니다.
s = pd.Series([2, -4, 6, 3, None], index=['A', 'B', 'C', 'D', 'E'])
2. 데이터프레임
XNUMX차원 레이블 배열입니다. 모든 데이터 유형과 다양한 크기의 열을 보유할 수 있습니다.
data = {'RollNo' : [101, 102, 75, 99], 'Name' : ['Mithlesh', 'Ram', 'Rudra', 'Mithlesh'], 'Course' : ['Nodejs', None, 'Nodejs', 'JavaScript'] } df = pd.DataFrame(data, columns=['RollNo', 'Name', 'Course']) df.head()
데이터 가져 오기
Pandas에는 노트북에서 다양한 유형의 파일을 가져오거나 읽을 수 있는 기능이 있습니다.
아래에 몇 가지 예가 나와 있습니다.
# Import a CSV file pd pd.read_csv(filename) # Import a TSV file pd.read_table(filename) # Import a Excel file pd pd.read_excel(filename) # Import a SQL table/database pd.read_sql(query, connection_object) # Import a JSON file pd.read_json(json_string) # Import a HTML file pd.read_html(url) # From clipboard to read_table() pd.read_clipboard() # From dict pd.DataFrame(dict)
선택
위치나 색인을 기준으로 요소를 선택할 수 있습니다. 이러한 기술을 사용하여 행, 열 및 고유 값을 선택할 수 있습니다.
1. 시리즈
# Accessing one element from Series s['D'] # Accessing all elements between two given indices s['A':'C'] # Accessing all elements from starting till given index s[:'C'] # Accessing all elements from given index till end s['B':]
2. 데이터프레임
# Accessing one column df df['Name'] # Accessing rows from after given row df[1:] # Accessing till before given row df[:1] # Accessing rows between two given rows df[1:2]
부울 인덱싱 및 설정을 통한 선택
1. 직위별
df.iloc[0, 1] df.iat[0, 1]
2. 라벨별
df.loc[[0], ['Name']]
3. 라벨/포지션별
df.loc[2] # Both are same df.iloc[2]
4. 부울 인덱싱
# Series s where value is > 1 s[(s > 0)] # Series s where value is <-2 or >1 s[(s < -2) | ~(s > 1)] # Use filter to adjust DataFrame df[df['RollNo']>100] # Set index a of Series s to 6 s['D'] = 10 s.head()
데이터 청소
럭셔리 Python 데이터 정리를 위한 치트 시트의 목적으로 다음 작업을 수행할 수 있습니다.
- rename() 메서드를 사용하여 열 이름을 바꿉니다.
- 특정 요소에 액세스하고 수정하려면 at[] 또는 iat[] 메서드를 사용하여 값을 업데이트하세요.
- copy() 메서드를 사용하여 시리즈 또는 데이터 프레임의 복사본을 만듭니다.
- isnull() 메서드를 사용하여 NULL 값을 확인하고 dropna() 메서드를 사용하여 해당 값을 삭제합니다.
- Duplicated() 메소드를 사용하여 중복된 값을 확인하십시오. drop_duplicates() 메서드를 사용하여 삭제하세요.
- fill() 메소드를 사용하여 NULL 값을 지정된 값으로 대체합니다.
- replacement() 메서드를 사용하여 값을 바꿉니다.
- sort_values() 메서드를 사용하여 값을 정렬합니다.
- Rank() 메서드를 사용하여 값의 순위를 지정합니다.
# Renaming columns df.columns = ['a','b','c'] df.head() # Mass renaming of columns df = df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}) # Or use this edit in same DataFrame instead of in copy df.rename(columns={'RollNo': 'ID', 'Name': 'Student_Name'}, inplace=True) df.head() # Counting duplicates in a column df.duplicated(subset='Name') # Removing entire row that has duplicate in given column df.drop_duplicates(subset=['Name']) # You can choose which one keep - by default is first df.drop_duplicates(subset=['Name'], keep='last') # Checks for Null Values s.isnull() # Checks for non-Null Values - reverse of isnull() s.notnull() # Checks for Null Values df df.isnull() # Checks for non-Null Values - reverse of isnull() df.notnull() # Drops all rows that contain null values df.dropna() # Drops all columns that contain null values df.dropna(axis=1) # Replaces all null values with 'Guru99' df.fillna('Guru99') # Replaces all null values with the mean s.fillna(s.mean()) # Converts the datatype of the Series to float s.astype(float) # Replaces all values equal to 6 with 'Six' s.replace(6,'Six') # Replaces all 2 with 'Two' and 6 with 'Six' s.replace([2,6],['Two','Six']) # Drop from rows (axis=0) s.drop(['B', 'D']) # Drop from columns(axis=1) df.drop('Name', axis=1) # Sort by labels with axis df.sort_index() # Sort by values with axis df.sort_values(by='RollNo') # Ranking entries df.rank() # s1 is pointing to same Series as s s1 = s # s_copy of s, but not pointing same Series s_copy = s.copy() # df1 is pointing to same DataFrame as df df1 = s # df_copy of df, but not pointing same DataFrame df_copy = df.copy()
정보 검색
다음 작업을 수행하여 정보를 검색할 수 있습니다.
- 행과 열의 수를 얻으려면 모양 속성을 사용하십시오.
- head() 또는 tail() 메서드를 사용하여 처음 또는 마지막 몇 행을 샘플로 가져옵니다.
- info(), explain() 또는 dtypes 메서드를 사용하여 데이터 유형, 개수, 평균, 표준 편차, 최소값 및 최대값에 대한 정보를 얻습니다.
- 값에 대한 특정 통계 정보를 얻으려면 count(), min(), max(), sum(),mean() 및 median() 메서드를 사용하십시오.
- 행을 얻으려면 loc[] 메소드를 사용하십시오.
- Groupby() 메서드를 사용하여 GROUP BY 함수를 적용하여 DataFrame 열의 유사한 값을 그룹화합니다.
1. 기본 정보
# Counting all elements in Series len(s) # Counting all elements in DataFrame len(df) # Prints number of rows and columns in dataframe df.shape # Prints first 10 rows by default, if no value set df.head(10) # Prints last 10 rows by default, if no value set df.tail(10) # For counting non-Null values column-wise df.count() # For range of index df df.index # For name of attributes/columns df.columns # Index, Data Type and Memory information df.info() # Datatypes of each column df.dtypes # Summary statistics for numerical columns df.describe()
2. 개요
# For adding all values column-wise df.sum() # For min column-wise df.min() # For max column-wise df.max() # For mean value in number column df.mean() # For median value in number column df.median() # Count non-Null values s.count() # Count non-Null values df.count() # Return Series of given column df['Name'].tolist() # Name of columns df.columns.tolist() # Creating subset df[['Name', 'Course']] # Return number of values in each group df.groupby('Name').count()
기능 적용
# Define function f = lambda x: x*5 # Apply this function on given Series - For each value s.apply(f) # Apply this function on given DataFrame - For each value df.apply(f)
1. 내부 데이터 정렬
# NA values for indices that don't overlap s2 = pd.Series([8, -1, 4], index=['A', 'C', 'D']) s + s2
2. 산술 Opera채우기 방법을 사용한 기능
# Fill values that don't overlap s.add(s2, fill_value=0)
3. 필터링, 정렬 및 그룹화 기준
다음 함수는 Series 및 DataFrame을 기준으로 필터링, 정렬, 그룹화하는 데 사용할 수 있습니다.
# Filter rows where column is greater than 100 df[df['RollNo']>100] # Filter rows where 70 < column < 101 df[(df['RollNo'] > 70) & (df['RollNo'] < 101)] # Sorts values in ascending order s.sort_values() # Sorts values in descending order s.sort_values(ascending=False) # Sorts values by RollNo in ascending order df.sort_values('RollNo') # Sorts values by RollNo in descending order df.sort_values('RollNo', ascending=False)
데이터 내보내기
Pandas에는 다양한 형식으로 데이터를 내보내거나 쓸 수 있는 기능이 있습니다. 아래에 몇 가지 예가 나와 있습니다.
# Export as a CSV file df df.to_csv(filename) # Export as a Excel file df df.to_excel(filename) # Export as a SQL table df df.to_sql(table_name, connection_object) # Export as a JSON file df.to_json(filename) # Export as a HTML table df.to_html(filename) # Write to the clipboard df.to_clipboard()
Pandas 치트 시트 결론:
판다 오픈 소스 라이브러리는 다음과 같습니다. Python 데이터 세트 작업에 사용됩니다. 데이터를 분석, 정리, 탐색 및 조작하는 능력입니다. Pandas는 Numpy를 기반으로 구축되었습니다. Matplotlib과 같은 다른 프로그램과 함께 사용됩니다. 사이킷런. 데이터 구조, 데이터 선택, 데이터 가져오기, 부울 인덱싱, 값 삭제, 정렬 및 데이터 정리와 같은 주제를 다룹니다. 기사용 pandas 치트 시트 pdf도 준비했습니다. Pandas는 다음의 라이브러리입니다. Python 데이터 과학에서는 Pandas 데이터 프레임 및 시리즈 작업에 이 라이브러리를 사용합니다. 이 치트시트에서는 다양한 pandas 명령에 대해 논의했습니다.
치트 시트 Colab
Pandas용 내 Colab 연습 파일 – 팬더 치트 시트 – Python 데이터 과학을 위한.ipynb