17 팬더 인터뷰 질문과 답변을 읽어야 합니다 [신입생 및 경험자용]

게시 됨: 2020-07-29

Pandas는 사용하기 쉬운 고성능 데이터 구조 및 데이터 분석 도구를 제공하는 BSD 라이선스 오픈 소스 Python 라이브러리입니다. Python with Pandas는 경제, 금융, 통계, 분석 등을 포함한 다양한 분야에서 사용됩니다. 이 기사에서는 파이썬 학습자가 알아야 할 몇 가지 필수적인 판다 인터뷰 질문 과 NumPy 인터뷰 질문 을 나열했습니다. python에 대해 자세히 알아보려면 데이터 과학 프로그램을 확인하십시오.

팬더 인터뷰 질문 및 답변

질문 1 – Python Pandas를 정의하십시오.

Pandas는 데이터를 분석하고 조작하는 데 사용되는 Python용으로 명시적으로 작성된 소프트웨어 라이브러리를 나타냅니다. Pandas는 Wes McKinney가 만든 오픈 소스 크로스 플랫폼 라이브러리입니다. 2008년에 출시되었으며 수치 및 시계열 데이터를 조작하기 위한 데이터 구조 및 연산을 제공했습니다. Pandas는 pip 또는 Anaconda 배포판을 사용하여 설치할 수 있습니다. Pandas를 사용하면 테이블 형식 데이터에서 기계 학습 작업을 매우 쉽게 수행할 수 있습니다.

질문 2 – Pandas의 다양한 데이터 구조 유형은 무엇입니까?

Panda 라이브러리는 DataFrame과 Series의 두 가지 주요 데이터 구조 유형을 지원합니다. 이 두 데이터 구조는 모두 NumPy를 기반으로 합니다. Series는 1차원의 가장 단순한 데이터 구조인 반면 DataFrame은 2차원입니다. "패널"로 알려진 또 다른 축 레이블은 3차원 데이터 구조이며 major_axis 및 minor_axis와 같은 항목을 포함합니다.

원천

질문 3 – Pandas의 시리즈를 설명하십시오.

Series는 모든 유형(문자열, 부동 소수점, 정수, 파이썬 개체 등)의 데이터 값을 보유할 수 있는 1차원 배열입니다. Pandas에서 가장 단순한 유형의 데이터 구조입니다. 여기에서 데이터의 축 레이블을 인덱스라고 합니다.

질문 4 – Pandas에서 데이터 프레임을 정의하십시오.

DataFrame은 데이터가 행과 열이 있는 표 형식으로 정렬되는 2차원 배열입니다. 이 구조를 사용하면 행과 열에 대해 산술 연산을 수행할 수 있습니다.

질문 5 – Pandas에서 빈 데이터 프레임을 어떻게 만들 수 있습니까?

Pandas에서 빈 DataFrame을 만들려면 다음을 입력합니다.

pandas를 pd로 가져오기

ab = pd.DataFrame()

질문 6 – Pandas 라이브러리의 가장 중요한 기능은 무엇입니까?

팬더 라이브러리의 중요한 기능은 다음과 같습니다.

데이터 정렬
병합 및 결합
메모리 효율성
시계열
재형성

읽기: Apache PySpark의 데이터 프레임: 종합 자습서

질문 7 – Pandas에서 재인덱싱을 어떻게 설명하시겠습니까?

다시 인덱싱한다는 것은 특정 축을 따라 특정 레이블 집합과 일치하도록 데이터를 수정하는 것을 의미합니다.

인덱싱을 사용하여 다음과 같은 다양한 작업을 수행할 수 있습니다.

레이블에 대한 데이터가 존재하지 않는 레이블 위치에 결측값(NA) 마커를 삽입합니다.
새 레이블 집합과 일치하도록 기존 데이터 집합을 재정렬합니다.

질문 8 – 판다에서 DataFrame을 생성하는 다양한 방법은 무엇입니까? 예를 들어 설명합니다.

DataFrame은 nd 배열의 List 또는 Dict를 사용하여 만들 수 있습니다.

예 1 – 목록을 사용하여 DataFrame 만들기

pandas를 pd로 가져오기

# 문자열 목록

Strlist = ['판다', '넘파이']

# 목록에서 DataFrame 생성자 호출

목록 = pd.DataFrame(Strlist)

인쇄(목록)

예 2 - 배열의 사전을 사용하여 DataFrame 만들기

pandas를 pd로 가져오기

list = {'ID': [1001, 1002, 1003],'학과':['과학', '상업', '예술',]}

목록 = pd.DataFrame(목록)

인쇄(목록)

확인: 데이터 과학 인터뷰 질문

질문 9 – Pandas의 범주형 데이터를 설명 하시겠습니까?

범주형 데이터는 반복될 수 있는 실시간 데이터를 나타냅니다. 예를 들어 국가, 성별, 코드와 같은 범주 아래의 데이터 값은 항상 반복됩니다. pandas의 범주형 값은 가능한 값의 제한적이고 고정된 수만 사용할 수도 있습니다.

이러한 데이터에는 수치 연산을 수행할 수 없습니다. pandas에서 범주형 데이터의 모든 값은 범주 또는 np.nan에 있습니다.

이 데이터 유형은 다음과 같은 경우에 유용할 수 있습니다.

문자열 변수에 몇 가지 다른 값만 포함된 경우 범주형 변수로 변환하면 메모리를 절약할 수 있습니다.

이 열은 범주형 변수로 처리되어야 하므로 다른 Python 라이브러리에 대한 신호로 유용합니다.

어휘 순서는 논리적 순서처럼 올바르게 정렬되도록 범주 순서로 변환할 수 있습니다.

질문 10 – Pandas에서 Dict를 사용하여 시리즈를 만듭니다.

pandas를 pd로 가져오기

numpy를 np로 가져오기

ser = {'a' : 1, 'b' : 2, 'c' : 3}

ans = pd.Series(ser)

인쇄

질문 11 – Pandas에서 시리즈 사본을 만드는 방법은 무엇입니까?

pandas에서 시리즈 사본을 생성하려면 다음 구문이 사용됩니다.

pandas.Series.copy

Series.copy(deep=True)

* deep 값이 false로 설정되면 데이터나 인덱스를 복사하지 않습니다.

질문 12 – Pandas의 데이터 프레임에 인덱스, 행 또는 열을 어떻게 추가합니까?

DataFrame에 행을 추가하려면 .loc(), .iloc() 및 .ix()를 사용할 수 있습니다. .loc()은 레이블 기반, .iloc()은 정수 기반, .ix()는 부스 레이블 및 정수 기반입니다. DataFrame에 열을 추가하려면 .loc() 또는 .iloc()을 다시 사용할 수 있습니다.

질문 13 – Pandas 데이터 프레임의 인덱스 또는 열 이름을 바꾸려면 어떤 방법을 사용하시겠습니까?

.rename 메서드는 DataFrame의 열 또는 인덱스 값의 이름을 바꾸는 데 사용할 수 있습니다.

질문 14 – Pandas에서 데이터 프레임을 어떻게 반복할 수 있습니까?

pandas for 루프에서 DataFrame을 반복하려면 iterrows() 호출과 함께 사용할 수 있습니다.

질문 15 – Pandas Numpy 어레이란 무엇입니까?

Numerical Python(NumPy)은 다차원 및 1차원 배열 요소의 수치 계산 및 처리를 수행하기 위해 Python에 내장된 패키지로 정의됩니다.

NumPy 배열은 다른 Python 배열에 비해 더 빠르게 계산합니다.

질문 16 – 데이터 프레임을 Excel 파일로 변환하려면 어떻게 해야 합니까?

단일 개체를 Excel 파일로 변환하려면 대상 파일의 이름을 지정하기만 하면 됩니다. 그러나 여러 시트를 변환 하려면 대상 파일 이름과 함께 ExcelWriter 개체를 만들고 내보낼 시트를 지정해야 합니다.

질문 17 – Pandas에서 Groupby 기능이란 무엇입니까?

Pandas에서 groupby() 함수를 사용하면 프로그래머가 실제 세트에서 데이터를 사용하여 데이터를 재배열할 수 있습니다. 기능의 주요 작업은 데이터를 다양한 그룹으로 분할하는 것입니다.

또한 읽기: 상위 15개 Python AI 및 기계 학습 오픈 소스 프로젝트

결론

위에서 언급한 P andas 인터뷰 질문 과 NumPy 인터뷰 질문 이 다가오는 인터뷰 세션을 준비하는 데 도움이 되기를 바랍니다. Python 언어를 습득하는 데 도움이 되는 과정을 찾고 있다면 upGrad 가 최고의 플랫폼이 될 수 있습니다.

데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

Pandas 라이브러리는 어떤 용도로 사용됩니까?

Pandas를 사용하는 주된 이유는 데이터 분석입니다. Pandas를 사용하면 Microsoft Excel, SQL, JSON 및 쉼표로 구분된 값과 같은 다양한 형식의 데이터를 가져올 수 있습니다. Pandas는 사용자가 선택, 재구성, 병합 및 데이터 정리와 같은 다양한 데이터 조작 작업을 수행할 수 있기 때문에 데이터 분석에 매우 유용한 것으로 간주됩니다. 그 외에도 Pandas는 다양한 데이터 랭글링 기능을 제공합니다.

간단히 말해서 Pandas를 사용하면 데이터와 관련된 다양한 시간 소모적이고 반복적인 작업을 쉽게 수행할 수 있습니다. Pandas로 쉽게 할 수 있는 작업은 다음과 같습니다.

1. 통계 병합 및 결합
2.분석 데이터
3. 정규화 데이터
4. 데이터 채우기
5. 데이터 정리
6. 검사 데이터 불러오기 및 저장
7. 데이터 시각화

이것들은 Pandas로 쉽게 할 수 있는 데이터 조작 작업의 일부일 뿐입니다. 데이터 과학자들은 Pandas를 데이터 분석 및 조작에 사용할 수 있는 최고의 도구로 선정했습니다.

Python Pandas에서 제공하는 필수 기능에는 어떤 것이 있습니까?

Python에서 Pandas 라이브러리의 진정한 힘을 활용하려면 사용자에게 제공되는 몇 가지 필수 기능을 탐색해야 합니다. 데이터 분석과 관련하여 Pandas는 사용자가 작업을 더 쉽게 수행할 수 있도록 하는 많은 기능을 갖춘 가장 강력한 도구로 간주됩니다.

Pandas 라이브러리를 사용하기 전에 알아야 할 몇 가지 필수 기능은 다음과 같습니다.

1. 데이터 처리
2. 데이터 정렬 및 인덱싱
3. 데이터 정리
4. 누락된 데이터 처리
5. 데이터 읽기 및 쓰기를 위한 다양한 입력 및 출력 도구
6. 여러 파일 형식 지원
7. 다른 데이터 세트 병합 및 결합
8. 성능 최적화
9. 데이터 시각화
10. 요구 사항에 따라 데이터 그룹화
11. 사용 가능한 데이터에 대해 다양한 수학 연산 수행
12. 필요한 데이터만 사용하도록 관련 없는 데이터를 마스킹
13. 데이터 세트의 다양한 반복에서 고유한 데이터 추출

Python에서 Pandas 라이브러리를 가져오는 이유는 무엇입니까?

Pandas는 다양한 데이터 분석, 데이터 과학 및 기계 학습 작업을 수행하는 데 가장 널리 사용되는 오픈 소스 Python 라이브러리입니다. Pandas는 데이터 랭글링에 가장 널리 사용되는 패키지이며 Python 생태계의 다양한 다른 데이터 과학 모듈과 잘 작동합니다. Pandas 라이브러리는 모든 데이터 과학 및 데이터 분석 전문가를 위한 데이터와 관련하여 무엇이든 가장 먼저 선호하는 것입니다.