Pandas Cheatsheet: 알아야 할 주요 명령 [2022]

게시 됨: 2021-01-06

데이터 분석은 새로운 연구 장르가 되었으며 모두 Python 덕분입니다. Python에서 작업하는 열광적인 데이터 분석가라면 Pandas 라이브러리를 거의 절대적으로 사용합니다. 이 기사는 당신을 위한 것입니다. Pandas 치트시트 는 데이터를 분석하는 동안 유용한 모든 필수 방법을 살펴봅니다. Pandas에서 작업을 수행하기 위한 특정 구문을 기억하기 어려운 상황에 직면했을 수 있습니다. Pandas 치트 시트 명령은 가장 일반적인 Pandas 작업을 쉽게 기억하고 참조하는 데 도움이 됩니다. 파이썬과 데이터 과학의 초보자라면 upGrad의 데이터 과학 과정은 확실히 데이터와 분석의 세계로 더 깊이 들어가는 데 도움이 될 것입니다.

목차

판다스 치트시트 사용하기

Pandas 치트 시트 를 사용하기 전에 Pandas Tutorial을 철저히 배우고 기억하고 정리하기 위해 이 치트 시트를 참조해야 합니다. 판다스 치트 시트 는 이미 배운 방법을 빠르게 찾는 데 도움이 되며 시험이나 면접을 보러 가는 경우에도 유용할 수 있습니다. 데이터 분석가가 Pandas에서 자주 사용하는 모든 명령을 수집하고 그룹화하여 쉽게 감지할 수 있도록 했습니다. Pandas 치트 시트 에서는 다양한 객체를 나타내기 위해 다음과 같은 약어를 사용할 것입니다.

  • df: Pandas DataFrame 객체를 나타내기 위해
  • ser: Pandas Series 객체를 나타내기 위해

이 문서에서 아래에 언급된 방법을 구현하려면 다음과 같은 관련 라이브러리를 사용해야 합니다.

  • pandas를 pd로 가져오기
  • numpy를 np로 가져오기

필독: 팬더 인터뷰 질문

1. 다른 파일에서 데이터 가져오기

  • CSV 파일에서 모든 데이터를 읽으려면: pd.read_csv(file_name)
  • 구분된 텍스트 파일(예: TSV)에서 모든 데이터를 읽으려면: pd.read_table(file_name)
  • Excel 시트에서 읽으려면: pd.read_excel(file_name)
  • SQL 데이터베이스에서 데이터를 읽으려면: pd.read_sql(query, connectionObject)
  • JSON 형식의 문자열 또는 URL에서 데이터 가져오기: pd.read_json(jsonString)
  • 클립보드의 내용을 가져오려면: pd.read_clipboard()

2. 다양한 파일 형식으로 DataFrame 내보내기

  • DataFrame을 CSV 파일에 쓰려면: df.to_csv(file_name)
  • DataFrame을 Excel 파일에 쓰려면: df.to_excel(file_name)
  • DataFrame을 SQL 테이블에 쓰려면: df.to_sql(tableName, connectionObject)
  • JSON 형식의 파일에 DataFrame을 쓰려면: df.to_json(file_name)

3. DataFrame 또는 Series의 특정 섹션 검사

  • 인덱스, 데이터 유형 및 메모리와 관련된 모든 정보를 가져오려면: df.info()
  • DataFrame의 시작 'n' 행을 추출하려면: df.head(n)
  • DataFrame의 끝 'n' 행을 추출하려면: df.tail(n)
  • DataFrame에서 사용 가능한 행과 열 수를 추출하려면: df.shape
  • 숫자 열에 대한 통계 요약: df.describe()
  • 고유 값을 카운트와 함께 보려면 ser.value_counts(dropna=False)

4. 데이터의 특정 하위 집합 선택

  • 첫 번째 행 추출: df.iloc[0,:]
  • DataFrame의 첫 번째 열의 첫 번째 요소를 추출하려면: df.iloc[0,0]
  • 레이블이 'col'인 열을 시리즈로 반환하려면: df[col]
  • 새 DataFrame이 있는 열을 반환하려면: df[[col1,col2]]
  • 위치별로 데이터를 선택하려면: ser.iloc[0]
  • 인덱스로 데이터를 선택하려면: ser.loc['index_one']

5. 데이터 정리 명령

  • 열의 이름을 대량으로 바꾸려면: df.rename(columns = lambda x: x + 1)
  • 열의 이름을 선택적으로 바꾸려면: df.rename(columns = {'oldName': 'newName'})
  • 인덱스 이름을 대량으로 바꾸려면: df.rename(index = lambda x: x + 1)
  • 열 이름을 순서대로 바꾸려면: df.columns = ['x', 'y', 'z']
  • null 값이 존재하는지 확인하려면 그에 따라 부울 배열을 반환합니다. pd.isnull()
  • pd.isnull()의 반대: pd.notnull()
  • null 값을 포함하는 모든 행 삭제: df.dropna()
  • null 값을 포함하는 모든 열 삭제: df.dropna(axis=1)
  • 각 null 값을 'n'으로 바꾸려면: df.fillna(n)
  • 시리즈의 모든 데이터 유형을 float로 변환하려면: ser.astype(float)
  • 번호가 매겨진 1을 모두 '1'로, 3을 '3'으로 바꾸려면: ser.replace([1,2], ['one','two'])

또한 읽기: Pandas Dataframe Astype

6. 데이터 그룹화, 정렬 및 필터링

  • 열 값에 대한 groupby 객체를 반환하려면: df.groupby(colm)
  • 여러 열 값에 대해 groupby 객체를 반환하려면: df.groupby([colm1, colm2])
  • 값을 오름차순으로 정렬하려면(열 기준): df.sort_values(colm1)
  • 값을 내림차순으로 정렬하려면(열 기준): df.sort_values(colm2, ascending=False)
  • 열 값이 0.6보다 큰 행 추출: df[df[colm] > 0.6]

7. 기타

  • 첫 번째 DataFrame의 행을 두 번째 DataFrame의 끝에 추가합니다. df1.append(df2)
  • 첫 번째 DataFrame의 열을 두 번째 DataFrame의 끝에 추가합니다. pd.concat([df1,df2],axis=1)
  • 모든 열의 평균을 반환하려면: df.mean()
  • null이 아닌 값의 수를 반환하려면: df.count()

결론

Pandas 치트 시트 는 빠른 회수에만 유용합니다. Pandas 치트 시트 에 직접 뛰어들기 전에 항상 명령을 연습하는 것이 좋습니다 .

Pandas에 대해 자세히 알고 싶으시면 일하는 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

Pandas 라이브러리의 두드러진 기능은 무엇입니까?

다음은 Pandas를 가장 인기 있는 Python 라이브러리 중 하나로 만드는 기능입니다. Pandas는 효율적인 데이터 표현을 허용할 뿐만 아니라 이를 조작할 수 있는 다양한 데이터 프레임을 제공합니다. 데이터에 레이블을 지정하고 구성하는 지능적인 방법을 제공하는 효율적인 정렬 및 인덱싱 기능을 제공합니다. Pandas의 일부 기능은 코드를 깔끔하게 만들고 가독성을 높여 더 효율적으로 만듭니다. 또한 여러 파일 형식을 읽을 수 있습니다. JSON, CSV, HDF5 및 Excel은 Pandas에서 지원하는 파일 형식 중 일부입니다. 여러 데이터 세트를 병합하는 것은 많은 프로그래머에게 진정한 도전이었습니다. Pandas는 이것을 극복하고 여러 데이터 세트를 매우 효율적으로 병합합니다. Pandas 라이브러리는 Matplotlib 및 NumPy와 같은 다른 중요한 Python 라이브러리에 대한 액세스도 제공하므로 매우 효율적인 라이브러리입니다.

Pandas 라이브러리를 보완하는 다른 라이브러리와 도구는 무엇입니까?

Pandas는 데이터 프레임을 생성하기 위한 중앙 라이브러리로 작동할 뿐만 아니라 Python의 다른 라이브러리 및 도구와도 함께 작동하여 더 효율적입니다. Pandas는 대부분의 Pandas 라이브러리 구조가 NumPy 패키지에서 복제되었음을 나타내는 NumPy Python 패키지를 기반으로 합니다. Pandas 라이브러리의 데이터에 대한 통계 분석은 SciPy에 의해 운영되고 Matplotlib에 함수를 표시하고 Scikit-learn에 머신 러닝 알고리즘이 적용됩니다. Jupyter Notebook은 IDE로 작동하며 Pandas에 좋은 환경을 제공하는 웹 기반 대화형 환경입니다.

데이터 프레임의 기본 작업 설명

추가 또는 삭제와 같은 작업을 시작하기 전에 인덱스 또는 열을 선택하는 것이 중요합니다. 데이터 프레임에서 값에 액세스하고 열을 선택하는 방법을 배우고 나면 Pandas 데이터 프레임에서 인덱스, 행 또는 열을 추가하는 방법을 배울 수 있습니다. 데이터 프레임의 인덱스가 원하는 대로 나오지 않으면 재설정할 수 있습니다. 인덱스를 재설정하려면 "reset_index()" 함수를 사용할 수 있습니다.