Pandas를 사용한 상자 그림 시각화 [종합 안내서]

게시 됨: 2020-09-03

통계 데이터 분석 프로젝트를 처리하는 동안 적용할 수 있는 편리한 도구가 많이 있습니다. 기본 아이디어는 질문을 식별하고 해당 질문에 대답하는 데 필요한 기능을 사용하는 것입니다. 예를 들어, 데이터 분포를 확인해야 하는 경우 이상적인 대답은 데이터 분포 함수를 그리는 것입니다.

값을 보고 다른 열의 값과 비교해야 하는 경우 가장 좋은 방법은 막대 그림이나 히스토그램을 그리는 것입니다. 그러나 통계 쿼리를 충족해야 하는 경우에는 어떻게 해야 합니까? 분포 함수에서 추세를 관찰할 수 있지만 데이터의 특정 백분위수를 확인해야 하는 경우 쉽게 벗어날 수 없습니다. 경쟁 우위를 확보하려면 인정받는 대학의 데이터 과학 교육을 확인하십시오.

Boxplot은 위의 문제에 대한 해결책으로 제공됩니다. Boxplot은 속성이 그려지는 열에 따라 속성의 백분위수 값을 설명하는 데 사용됩니다. Boxplot은 일반적으로 탐색적 데이터 분석뿐만 아니라 규칙 기반 모델 엔지니어링에서 매우 통찰력이 있습니다.

Boxplot은 사분위수를 다룹니다.

먼저 판다 상자 그림을 그린 다음 그 일부를 이해해 보겠습니다.

목차

판다 상자 그림 그리기

pandas boxplot 을 구현하려면 Pandas와 matplotlib의 두 가지 요구 사항만 있으면 됩니다. matplotlib의 사용은 플롯을 시각화하고 Jupyter 노트북 내부의 플롯을 보는 것입니다.

다음은 두 라이브러리를 모두 가져오는 방법입니다. 노트북 내부에서 플롯을 직접 볼 수 있도록 인라인 매직 기능을 사용합니다.

암호:

pandas pd가져오기

matplotlib.pyplot plt가져오기

%matplotlib 인라인

이제 데이터를 가져와 DataFrame으로 읽습니다. 방법은 다음과 같습니다.

암호:

데이터 = pd.read_csv(“FIFA 2018 Statistics.csv”)

DataFrame은 Pandas의 기본 데이터 구조입니다. 다음은 데이터의 처음 5개 샘플입니다.

데이터를 가져온 후 DataFrame 개체에 대해 pandas boxplot 함수를 직접 사용할 수 있습니다. 사용 방법은 다음과 같습니다.

암호:

data.boxplot(by=”라운드”, column=['득점 골'])

pandas boxplot 함수는 두 개의 인수를 취합니다 . 'by' 매개변수는 X축을 선택하는 데 사용됩니다. 그리고 'column'은 Y축에 플롯할 데이터입니다.

여기에서 라운드별 득점한 골을 표시합니다.

줄거리는 다음과 같습니다.

확인: Python 인터뷰 질문

상자 그림 읽기

이제 줄거리를 읽어봅시다. 먼저 축의 값을 이해합니다. Y축은 경기에서 득점한 골 수이고 X축은 경기가 진행된 라운드를 나타냅니다. 결승전의 예를 들어보자.

주의 깊게 관찰하면 상자가 2와 4 사이에 만들어지고 가운데 선이 3에 있습니다. 상자는 25번째, 50번째, 75번째 백분위수 값의 세 가지 값을 사용하여 표시됩니다. 플롯의 아래쪽 라인은 경기에서 득점한 골의 25번째 백분위수를 나타내고, 중간은 50번째 백분위수를 나타내고, 위쪽 라인은 75번째 백분위수를 나타냅니다. 따라서 boxplot은 데이터의 IQR(사분위수 범위)에서 작동합니다.

읽기: Python Pandas 튜토리얼: 초보자가 Python Pandas에 대해 알아야 할 모든 것

이제 상자 위와 아래에 또 하나의 것이 그려져 있습니다. 이러한 선을 수염이라고 합니다. 따라서 때때로 상자 그림은 상자 수염 그림이라고도 합니다.

수염을 그리는 독특한 방법은 없습니다. 수염을 표시하는 가장 일반적인 방법은 데이터 열의 최소값과 최대값에 수염을 표시하는 것입니다. seaborn과 같은 일부 라이브러리는 IQR의 곱셈 값을 사용하여 수염을 표시합니다. Pandas boxplot 은 최대값과 최소값을 사용하여 수염을 표시합니다.

눈치채셨다면 4에서 6 사이에 몇 가지 점이 있습니다. 이들은 이상치로 알려져 있습니다. 상자 그림은 규칙 기반 시스템에서 오류 계산으로 상당히 유용하거나 오분류를 빠르게 식별할 수 있습니다. 예를 들어 그래프에서 3위와 결승만 구분하면 되므로 데이터를 정확하게 분류하는 규칙 기반 시스템을 쉽게 만들 수 있습니다. 0~2이면 3라운드, 2~4이면 최종 라운드로 표시한다.

상자 그림은 데이터 열의 전체 분포를 이해하는 데 도움이 됩니다. 플롯은 사분위수 값을 사용하여 분포를 보여줍니다. 분포가 적절하게 표시되어 있으므로 데이터를 더 빠르게 분석할 수 있습니다. 수염은 열의 나머지 값을 나타냅니다.

결론

하단은 25% 미만의 데이터를 나타내고 상단은 75% 이상을 나타냅니다. 이상값이 적으면 팬더 상자 그림 이 이상값 을 빠르게 식별하는 데 도움이 될 수 있습니다. 전반적으로, 적절하게 읽을 수 있다면 상자 그림은 데이터 분석에 매우 유용합니다.

데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍 , 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

상자 그림은 어떤 유형의 데이터를 나타냅니까?

박스 플롯 시각화는 기술 통계에서 많이 사용됩니다. 탐색적 데이터 분석에 자주 사용되는 차트 유형입니다. 사분위수(백분위수)와 평균을 표시함으로써 상자 그림은 왜곡과 함께 수치 데이터의 분포를 시각적으로 나타낼 수 있습니다.

데이터 집합의 요약은 5가지 범주에서 시각적 형식으로 상자 그림의 도움으로 표시됩니다. 상자 그림에서 제공하는 데이터는 다음과 같습니다.

1. 최소 점수
2. 첫째 또는 우리는 하위 사분위수를 말할 수 있습니다
3. 상자 그림의 중앙값 세 번째 또는 상위 사분위수를 말할 수 있습니다.
4.최대 점수

여기의 데이터는 데이터를 쉽게 표현하고 시각적으로 매우 쉽게 데이터를 이해할 수 있도록 여러 섹션으로 나뉩니다.

상자 그림이 유용한 이유는 무엇입니까?

상자 그림의 작업은 데이터 세트를 여러 섹션으로 나누는 것입니다. 여기서 모든 섹션에는 약 25%의 데이터가 포함됩니다. 상자 그림은 존재하는 데이터에 대한 시각적 요약을 제공하기 때문에 매우 유용합니다. 이를 통해 연구원은 평균 값을 쉽게 식별하고 왜도 기호를 찾고 데이터 세트의 분산을 알 수 있습니다.

상자 그림은 통계 데이터 세트가 치우쳐 있는지 또는 정규 분포를 따르는지 확인할 수 있는 시각적 이미지를 제공할 수 있습니다. 정규 분포를 따르는 경우 중앙값은 상자의 중앙에 있고 상자는 대칭이 됩니다. 반면에 상자는 비대칭이고 중앙값은 분포가 기울어질 때 상자의 아래쪽 또는 위쪽을 향하게 됩니다.

Pandas를 데이터 시각화에 활용할 수 있습니까?

Pandas는 데이터 과학과 관련하여 Python 언어에서 가장 유용한 라이브러리로 알려져 있습니다. Pandas는 데이터 세트를 조작, 가져오기 및 정리하는 데 정말 도움이 되는 것으로 나타났습니다. 그 외에도 Pandas는 데이터 시각화에도 널리 활용됩니다.

데이터 시각화에서 Pandas는 다양한 기본 플롯을 그리는 데 사용됩니다. 이 라이브러리의 기능은 시계열 데이터 시각화에서도 찾을 수 있습니다. 간단히 말해서 간단한 막대, 카운트 플롯 또는 선을 그리려면 데이터 시각화에서 Pandas를 사용해야 한다고 말할 수 있습니다.