알아야 할 최고의 Python 데이터 시각화 라이브러리

게시 됨: 2020-03-20

파이썬은 데이터로 많은 일을 할 수 있습니다. 많은 기능 중 하나는 시각화입니다. 이 용도로 사용할 수 있는 여러 라이브러리가 있습니다. 이 기사에서는 주요 라이브러리와 이를 통해 그릴 수 있는 다양한 그래프를 살펴보겠습니다.

목차

파이썬 데이터 시각화

이 문서에서 여러 예제를 공유했습니다. 데이터 세트를 사용하여 시도해 보십시오. 시작하자:

Python 데이터 시각화 라이브러리

Python에는 아름다운 그래프를 생성할 수 있는 많은 라이브러리가 있습니다. 그들은 모두 성능과 기능을 향상시키는 다양한 기능을 가지고 있습니다. 모든 기술 수준에서 사용할 수 있습니다. 즉, 초보자든 고급 프로그래머든 Python에서 데이터 시각화를 수행할 수 있습니다. 다음은 몇 가지 눈에 띄는 라이브러리입니다.

  • 시본
  • 매트플롯립
  • 판다

데이터 과학을 위한 다른 많은 파이썬 라이브러리 가 있지만 우리는 당분간 눈에 띄는 라이브러리에 집중했습니다. 이제 이러한 다양한 라이브러리에 대해 논의하고 이러한 라이브러리와 Python을 사용하여 그래프를 그리는 방법을 이해할 것입니다. 시작하자.

매트플롯립

그래프를 그리는 데 가장 널리 사용되는 Python 라이브러리는 Matplotlib입니다. 많은 경험이 필요하지 않으며 초보자에게 적합합니다. 이 라이브러리를 통해 데이터 시각화 학습을 시작하고 다양한 그래프와 시각화를 마스터할 수 있습니다. 많은 자유를 주지만 많은 코드를 작성해야 합니다.

사람들은 막대 차트 및 히스토그램과 같은 간단한 시각화를 위해 Matplotlib를 사용합니다.

읽기 : Python의 데이터 프레임

라인 차트

꺾은선형 차트를 만들려면 'plot' 방법을 사용해야 합니다. 열을 반복하여 그래프에 여러 열을 만들 수 있습니다. 이를 위해 다음 코드를 사용하십시오.

# 플롯할 열 가져오기

열 = iris.columns.drop(['클래스'])

# x 데이터 생성

x_data = 범위(0, iris.shape[0])

# 도형과 축 생성

무화과, 도끼 = plt.subplots()

# 각 열을 플로팅합니다.

열의 열:

ax.plot(x_data, iris[열], 레이블=열)

# 제목과 범례 설정

ax.set_title('홍채 데이터세트')

ax.legend()

산포도

'산점' 방법을 사용하여 산점도를 생성할 수 있습니다. 플롯 레이블과 제목을 지정하려면 'plt.subplots'를 통해 축과 그림을 만들어야 합니다.

다음 코드를 사용하십시오.

# 도형과 축 생성

무화과, 도끼 = plt.subplots()

# sepal_width에 대해 sepal_length를 분산

ax.scatter(iris['sepal_length'], iris['sepal_width'])

# 제목과 레이블 설정

ax.set_title('홍채 데이터세트')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

클래스에 따라 데이터 포인트에 색상을 추가할 수 있습니다. 이를 위해 클래스에서 색상으로 매핑되는 사전을 만들어야 합니다. for-loop도 사용하여 각 지점을 분산시킵니다.

# 색상 사전 생성

색상 = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}

# 도형과 축 생성

무화과, 도끼 = plt.subplots()

# 각 데이터 포인트를 플로팅합니다.

for i in range(len(iris['sepal_length'])):

ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])

# 제목과 레이블 설정

ax.set_title('홍채 데이터세트')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

히스토그램

'hist' 메소드를 사용하여 Matplotlib에서 히스토그램을 생성할 수 있습니다. 범주형 데이터를 제공하면 모든 클래스가 발생하는 빈도를 계산할 수 있습니다. Matplotlib에서 히스토그램을 그리는 데 필요한 코드는 다음과 같습니다.

# 도형과 축 생성

무화과, 도끼 = plt.subplots()

# 플롯 히스토그램

ax.hist(와인_리뷰['포인트'])

# 제목과 레이블 설정

ax.set_title('와인 리뷰 점수')

ax.set_xlabel('포인트')

ax.set_ylabel('빈도')

막대 차트

Matplotlib에는 다양한 그래프를 그리는 쉬운 방법이 있습니다. 예를 들어, 이 경우 Matplotlib에서 막대 차트를 생성하려면 '막대'를 사용해야 합니다. 범주의 빈도를 자동으로 계산할 수 없으므로 이 문제를 해결하려면 'value_counts' 함수를 사용해야 합니다. 데이터 유형이 많지 않은 경우 막대 차트가 시각화에 적합합니다.

# 도형과 축 생성

무화과, 도끼 = plt.subplots()

# 각 클래스의 발생 횟수를 셉니다.

데이터 = wine_reviews['포인트'].value_counts()

# x 및 y 데이터 가져오기

포인트 = data.index

빈도 = 데이터.값

# 막대 차트 생성

ax.bar(포인트, 주파수)

# 제목과 레이블 설정

ax.set_title('와인 리뷰 점수')

ax.set_xlabel('포인트')

ax.set_ylabel('빈도')

판다

Pandas는 데이터 분석 및 조작에 널리 사용되는 Python 라이브러리입니다. 오픈 소스 라이브러리이므로 무료로 사용할 수 있습니다. 2008년 시장에 진입한 이후로 가장 인기 있는 데이터 구조화 라이브러리 중 하나가 되었습니다.

팬더 데이터 프레임을 사용하여 데이터에 대한 플롯을 쉽게 만들 수 있습니다. API는 Matplotlib보다 고급입니다. 즉, Matplotlib에서보다 Pandas에서 더 적은 코드로 그래프를 생성할 수 있습니다.

막대 차트

Pandas에서 막대 차트를 그리려면 'plot.bar()' 메서드를 사용해야 합니다. 먼저 'value_count()'를 통해 플롯의 발생 횟수를 계산한 다음 'sort_index()'로 정렬해야 합니다. 막대 차트를 만드는 예제 코드는 다음과 같습니다.

random_reviews['포인트'].value_counts().sort_index().plot.bar()

'plot.barh()' 메서드를 사용하여 Pandas에서 가로 막대 차트를 만들 수 있습니다.

random_reviews['포인트'].value_counts().sort_index().plot.barh()

발생 횟수를 통해 데이터를 그릴 수도 있습니다.

random_reviews.groupby("국가").price.mean().sort_values(ascending=False)[:5].plot.bar()

라인 차트

Pandas에서 꺾은선형 차트를 만들려면 '<dataframe>.plot.line()'을 사용해야 합니다. Pandas에서는 자동으로 수행할 수 있으므로 플로팅해야 하는 모든 열을 반복할 필요가 없습니다. 이 기능은 Matplotlib에서 사용할 수 없습니다. 코드는 다음과 같습니다.

random.drop(['class'], axis=1).plot.line(title='Random Dataset')

산포도

"<dataset>.plot.scatter()"를 사용하여 Pandas에서 산점도를 만들 수 있습니다. x-열과 y-열의 이름인 두 개의 인수를 전달해야 합니다.

다음은 그 예입니다.

random.plot.scatter(x='sepal_length', y='sepal_width', title="임의 데이터 세트')

히스토그램

Pandas에서 히스토그램을 생성하려면 'plot.hist'를 사용하십시오. 그 외에도이 방법에는별로 없습니다. 단일 히스토그램 또는 다중 히스토그램을 생성하는 옵션이 있습니다.

하나의 히스토그램을 생성하려면 다음 코드를 사용하십시오.

random_reviews['포인트'].plot.hist()

여러 히스토그램을 만들려면 다음을 사용하십시오.

random.plot.hist(subplots=True, 레이아웃=(2,2), figsize=(10, 10), bins=20)

시본

Seaborn은 Matplotlib를 기반으로 하며 데이터 시각화를 위한 매우 인기 있는 Python 라이브러리이기도 합니다. 데이터를 플롯할 수 있는 고급 인터페이스를 제공합니다. 그것은 많은 기능을 가지고 있습니다. 고급 기능을 사용하면 Matplotlib에 필요한 것보다 훨씬 적은 코드 줄로 훌륭한 그래프를 만들 수 있습니다.

히스토그램

라인 차트

Seaborn에서 꺾은선형 차트를 생성하기 위해 'sns.line plot' 메소드를 사용할 수 있습니다. 'sns.kdeplot' 방법을 사용하여 선 곡선의 가장자리를 둥글게 할 수 있습니다. 이상치가 많은 경우 플롯을 매우 깨끗하게 유지합니다.

sns.lineplot(데이터=random.drop(['클래스'], 축=1))

산포도

Seaborn에서는 '.scatterplot' 메소드를 통해 산점도를 생성할 수 있습니다. 이 경우 Pandas에서 했던 것처럼 x 및 y 열의 이름을 추가해야 합니다. 하지만 차이점이 있습니다. Pandas에서 했던 것처럼 데이터에 대한 함수를 호출할 수 없으므로 추가 인수로 전달해야 합니다.

sns.scatterplot(x='sepal_length', y='sepal_width', 데이터=iris)

'hue' 인수를 사용하여 특정 지점도 강조 표시할 수 있습니다. Matplotlib에서는 이 기능이 쉽지 않습니다.

sns.scatterplot(x='sepal_length', y='sepal_width', 색조='class', data=iris)

막대 차트

'sns.countplot' 메서드를 사용하여 Seaborn에서 막대 차트를 만들 수 있습니다.

sns.countplot(random_reviews['포인트'])

Python에서 데이터 시각화를 위한 중요한 라이브러리에 대해 논의했으므로 이제 다른 형태의 그래프를 살펴볼 수 있습니다. Python 및 해당 라이브러리를 사용하면 다양한 종류의 그림을 만들어 데이터를 그릴 수 있습니다.

Python의 다른 종류의 데이터 시각화

파이 차트

원형 차트는 원의 여러 섹션에 데이터를 표시합니다. 학교에서 파이 차트를 많이 보았을 것입니다. 파이 차트는 데이터를 백분율로 나타냅니다. 원형 차트의 모든 세그먼트의 총합은 100%와 같아야 합니다. 다음은 예제 코드입니다.

plt.pie(df['나이'], 레이블 = {“A”, “B”, “C”,

"D", "E", "F",

"G", "H", "I", "J"},

autopct = '% 1.1f %%', 그림자 = True)

plt.show()

plt.pie(df['수입'], 레이블 = {“A”, “B”, “C”,

"D", "E", "F",

"G", "H", "I", "J"},

autopct = '% 1.1f %%', 그림자 = True)

plt.show()

plt.pie(df['판매'], 레이블 = {“A”, “B”, “C”,

"D", "E", "F",

"G", "H", "I", "J"},

autopct = '% 1.1f %%', 그림자 = True)

plt.show()

상자 그림

상자 그림은 통계 데이터의 최소값, 1사분위수, 중앙값, 3사분위수 및 최대값을 기반으로 합니다. 그래프는 상자(보다 구체적으로 직사각형)처럼 보입니다. 그래서 '박스 플롯'이라는 이름이 붙었습니다. 다음은 상자 그림 그래프를 생성하기 위한 예제 코드입니다.

# 데이터 프레임의 각 숫자 속성에 대해

df.plot.box()

# 개별 속성 상자 플롯

plt.boxplot(df['소득'])

plt.show()

더 읽어보기: 모든 Python 개발자가 알아야 할 상위 10가지 Python 도구

결론

이 기사가 유용했기를 바랍니다. Python과 다양한 라이브러리를 통해 그릴 수 있는 그래프에는 여러 가지가 있습니다. 이전에 Python 데이터 시각화를 수행한 적이 없다면 Matplotlib부터 시작해야 합니다. 마스터한 후에는 Pandas 및 Seaborn과 같은 더 복잡하고 고급 데이터 시각화 라이브러리로 이동할 수 있습니다.

python, 데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 업계 멘토와의 1:1 학습, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

Python에서 최고의 데이터 시각화 라이브러리는 무엇입니까?

데이터 시각화는 데이터 분석에서 매우 중요한 부분으로 간주됩니다. 여러 데이터 추세와 정보를 시각적 형식으로 이해하는 것보다 더 좋은 방법은 없기 때문입니다. 회사 데이터를 서면 형식으로 제시하면 사람들이 지루해할 수 있습니다. 하지만 시각적인 형식으로 동일하게 제시하면 사람들은 분명히 더 많은 관심을 기울일 것입니다.

데이터 시각화 프로세스를 단순화하기 위해 도움이 되는 Python의 특정 라이브러리가 있습니다. 요구 사항에 따라 전적으로 다르기 때문에 특정 항목을 최고라고 말할 수 없습니다. Python에서 최고의 데이터 시각화 라이브러리 중 일부는 matplotlib, plotly, seaborn, GGplot 및 altair입니다.

Python에서 최고의 플로팅 라이브러리 중 하나는 무엇입니까?

데이터 시각화 및 플로팅 라이브러리와 관련하여 작업을 더 쉽게 하기 위해 많은 것들이 있습니다. 사용 가능한 모든 라이브러리 중에서 Matplotlib가 사용자에게 더 나은 것으로 간주되는 것으로 나타났습니다.

Matplotlib는 공간을 덜 차지하며 실행 시간도 더 좋습니다. 그 외에도 사용자가 응용 프로그램 자체에서 그래프를 그릴 수 있도록 하는 객체 지향 API도 제공합니다. Matplotlib는 또한 무료 및 오픈 소스와 함께 많은 출력 유형을 지원합니다.

데이터 과학자를 위한 기본 데이터 시각화 라이브러리는 무엇입니까?

데이터 과학에 관심이 있다면 이미 Matplotlib 라이브러리를 사용했을 가능성이 높습니다. 초보자부터 숙련된 전문가까지 복잡한 데이터 시각화를 구축하기 위해 이 라이브러리를 사용하는 것을 선호하는 것으로 나타났습니다.

크게 고려하는 주된 이유는 2D 플로팅 라이브러리로 사용자에게 제공하는 유연성입니다. MATLAB 배경 지식이 있는 경우 Matplotlib의 Pyplot 인터페이스가 매우 익숙하다는 것을 알 수 있습니다. 따라서 첫 번째 시각화를 시작하는 데 많은 시간이 필요하지 않습니다. 사용자는 가장 세분화된 수준에서 Matplotlib의 전체 시각화를 제어할 수 있습니다.