R 프로그래밍의 데이터 시각화: 초보자가 배울 수 있는 최고의 시각화

게시 됨: 2020-01-22

데이터 분석에 관련된 사람은 의심할 여지 없이 데이터 시각화에 대해 들어봤고 심지어 다루었습니다. 초보자라면 여기에서 데이터 시각화에 대한 모든 것을 배우십시오. 데이터 시각화는 데이터 분석의 중요한 부분이며 그래프, 차트, 막대 또는 기타 형식의 형태로 데이터를 시각적으로 표현하는 것을 말합니다. 기본적으로 데이터 시각화의 목적은 데이터와 이미지 간의 관계를 표현하거나 묘사하는 것입니다.

빅 데이터의 부상으로 데이터 과학자와 데이터 분석가는 이해를 돕기 위해 시각적 표현을 통해 얻은 통찰력을 단순화해야 합니다. 이제 데이터 과학자와 분석가가 대량의 복잡하고 방대한 데이터 세트로 작업하기 때문에 데이터 시각화가 그 어느 때보다 중요해졌습니다. 데이터 시각화는 데이터에 대한 시각적 또는 그림 요약을 제공하므로 데이터 과학 및 빅 데이터 전문가가 데이터 내의 숨겨진 패턴과 추세를 더 쉽게 식별할 수 있습니다.

데이터 시각화 덕분에 데이터 과학 및 빅 데이터 분야의 전문가는 스프레드시트에서 수천 개의 행과 열을 광범위하게 탐색할 필요가 없습니다. 시각화를 참조하여 데이터 세트 내 모든 관련 정보가 있는 위치를 이해할 수 있습니다.

Tableau, QlikView 및 d3.js와 같은 수많은 독립 실행형 데이터 시각화 도구가 있지만 오늘은 R 프로그래밍 언어의 데이터 시각화에 대해 이야기하겠습니다. R은 거의 모든 데이터 시각화 요구 사항을 다루는 많은 내장 함수 및 라이브러리와 함께 제공되므로 데이터 시각화를 위한 탁월한 도구입니다.

이 게시물에서는 전 세계의 데이터 과학자와 분석가가 사용하는 8가지 R 데이터 시각화 도구에 대해 설명합니다!

상위 8가지 데이터 시각화 도구

1. 막대 차트

모든 사람은 학교와 대학에서 가르치는 막대 차트에 익숙합니다. 막대 차트를 사용한 R 데이터 시각화에서 개념과 목표는 동일하게 유지됩니다. 두 개 이상의 변수 간의 비교를 표시하는 것입니다. 막대 차트는 다양한 그룹의 누적 합계를 비교한 것입니다. R에서 막대 차트를 만드는 표준 구문은 다음과 같습니다.

barplot(H,xlab,ylab,main,names.arg,col)

고유한 용도로 사용되는 다양한 유형의 막대 차트가 있습니다. 가로 및 세로 막대 차트가 표준 형식인 반면 R은 차트에서 가로 막대와 세로 막대를 모두 만들 수 있습니다. 또한 R은 각 범주에 다른 변수를 도입할 수 있는 누적 막대 차트도 제공합니다. R에서 barplot()은 막대 차트를 만드는 데 사용됩니다.

2. 히스토그램

히스토그램은 R에서 정확한 숫자나 숫자로 가장 잘 작동합니다. 이 표현은 데이터를 빈(나누기)으로 나누고 이러한 빈의 빈도 분포를 나타냅니다. 빈을 조정하고 시각화 패턴에 어떤 영향을 미치는지 확인할 수 있습니다. R을 사용하여 히스토그램을 생성하기 위한 표준 구문은 다음과 같습니다.

hist(v,main,xlab,xlim,ylim,breaks,col,border)

히스토그램은 변수의 확률 추정치, 즉 프로젝트 완료 전 기간을 제공합니다. 히스토그램의 각 막대는 해당 범위에 있는 값 수의 높이를 나타냅니다. R 언어는 히스토그램을 생성하기 위해 hist() 함수를 사용합니다.

원천

3. 상자 그림

상자 그림은 최소값, 25번째 백분위수, 중앙값, 75번째 백분위수 및 최대값을 포함하여 통계적으로 유의한 5개의 숫자를 나타냅니다. 상자 그림은 막대 차트와 많은 유사점을 공유하지만 상자 그림은 범주형 데이터에만 초점을 맞추는 대신 범주형 및 연속 변수 데이터에 대한 시각화를 제공합니다. R에서 상자 그림을 만드는 표준 구문은 다음과 같습니다.

boxplot(x, 데이터, 노치, 가변폭, 이름, 메인)

R은 boxplot() 함수를 사용하여 상자 플롯을 만듭니다. 이 함수는 숫자 벡터를 원하는 만큼 사용할 수 있으며 각 벡터에 대한 상자 그림을 그릴 수 있습니다. 상자 그림은 데이터의 확산을 시각화하고 그에 따라 이를 기반으로 추론을 도출하는 데 가장 적합합니다.

세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

4. 산점도

산점도는 데카르트 평면의 수많은 점을 나타내며, 여기서 각 점은 두 변수의 값을 나타냅니다. 가로 축에서 하나의 변수를 선택하고 세로 축에서 두 번째 변수를 선택할 수 있습니다. 산점도의 기능은 시간이 지남에 따라 두 개의 연속 변수를 추적하는 것입니다. R에서 plot() 함수는 산점도를 만드는 데 사용됩니다. R에서 산점도를 생성하기 위한 표준 구문은 다음과 같습니다.

플롯(x, y, 메인, xlab, ylab, xlim, ylim, 축)

산점도는 시각화에서 잘못된 정보를 피 하려는 경우에 유용합니다. 간단한 데이터 검사에 가장 적합합니다.

5. 코렐로그램

상관도(correlogram) 또는 상관 행렬은 데이터 세트의 각 숫자 변수 쌍 간의 관계를 분석합니다. 전체 데이터 세트에 대한 빠른 개요를 제공합니다. Correlograms는 또한 다양한 시점에서 데이터 세트 간의 상관 관계를 강조 표시할 수 있습니다.

R에서 GGally 패키지는 상관도 작성에 이상적입니다. 산점도, 상관 계수 및 변수 분포가 있는 고전적인 상관도를 생성하려면 ggpairs() 함수를 사용할 수 있습니다. correlograms를 생성하기 위한 또 다른 훌륭한 패키지는 corrgram 패키지입니다. 이 패키지에서는 표현의 위쪽, 아래쪽 및 대각선 부분에 표시할 항목(산점도, 원형 차트, 텍스트, 타원 등)을 선택할 수 있습니다. 다음과 같이 corrgram 패키지를 사용하여 correlogram을 생성하려면:

corrgram(x, order = , 패널=, lower.panel=, upper.panel=, text.panel=, diag.panel=)

원천

6. 히트맵

히트 맵은 매트릭스에 포함된 개별 값이 다른 색상으로 표시되는 데이터의 그래픽 표현입니다. 히트 맵을 사용하면 2차원을 축으로 하여 탐색적 데이터 분석을 수행할 수 있으며 색상의 강도는 3차원을 나타냅니다. R에서 heatmap() 함수는 히트 맵을 만드는 데 사용됩니다. 히트 맵을 작성하기 전에 다음 코드를 사용하여 데이터세트를 행렬 형식으로 변환해야 합니다.

> 히트맵(as.matrix(mtcars))

R에서 대화형 히트 맵을 빌드하는 세 가지 옵션이 있습니다.

plotly – plotly를 사용하면 ggplot2로 만든 모든 히트 맵을 대화형 히트 맵으로 변환할 수 있습니다.
d3heatmap – 이 패키지는 기본 R heatmap() 함수와 동일한 구문을 사용하여 대화형 히트 맵을 만듭니다.
heatmaply – 이것은 모든 R 패키지 중에서 가장 커스터마이징이 가능합니다. 다양한 종류의 사용자 정의 옵션을 선택할 수 있습니다.

7. 육각형 비닝

육각형 비닝은 n이 큰 데이터 세트의 구조를 시각화하는 데 가장 적합한 이변량 히스토그램 유형입니다. 기본 개념은 다음과 같습니다.

육각형의 일반 격자는 [범위(x), 범위(y)] 집합 위에 XY 평면을 점으로 표시합니다.
각 육각형에 속하는 점의 수를 계산하여 데이터 구조에 저장합니다.
개수가 0보다 큰 육각형은 색상 램프를 사용하거나 개수에 비례하여 육각형의 반지름을 변경하여 표시됩니다.

읽기: 다양한 유형의 데이터 과학자

여기에서 작동하는 알고리즘은 n ≥ 106인 데이터 세트의 구조를 표시하는 데 빠르고 효과적입니다. R에서 hexbin 패키지에는 육각형 빈을 생성, 조작 및 플로팅하기 위한 다양한 기능이 포함되어 있습니다. 이 패키지는 기본 육각형 비닝 개념을 이변량 평활화 실행, 대략적인 이변량 중앙값 찾기, 동일한 규모의 두 빈 집합 간의 차이 연구를 위한 다른 많은 기능과 통합합니다.

8. 모자이크 플롯

R 프로그래밍에서 모자이크 플롯은 분할표 또는 양방향 빈도표의 데이터를 시각화하는 동안 유용합니다. 둘 이상의 범주형 변수 간의 관계를 나타내는 이원 분할표의 그래픽 표현입니다. R 모자이크 플롯은 높이가 비례 값을 나타내는 직사각형을 만듭니다. R에서 모자이크 플롯을 만드는 표준 구문은 다음과 같습니다.

모자이크 플롯(x, 색상 = NULL, 메인 = "제목")

기본적으로 모자이크 플롯은 동일한 길이의 레코드 목록에서 범주형 값의 동시 발생 조건부 확률을 요약 하는 척추 플롯 의 다차원 확장입니다 . 두 개 이상의 정성적 변수에서 데이터를 시각화하는 데 도움이 됩니다.

읽기: 데이터 과학 및 분석 급여

마무리

산업의 모든 부문이 데이터 기반 비즈니스 및 마케팅을 촉진하기 위해 계속해서 빅 데이터에 의존함에 따라 데이터 시각화의 중요성도 동시에 치솟을 것입니다. 차트 및 그래프와 같은 시각화 기술은 기존 스프레드시트 및 구식 보고서보다 훨씬 더 효율적인 데이터 시각화 도구이기 때문에 R 데이터 시각화 도구는 데이터 과학 및 빅 데이터 분야에서 꾸준히 인기를 얻고 있습니다.

데이터 과학에 대해 자세히 알아보려면 일하는 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 1:1 멘토링을 제공하는 데이터 과학 PG 디플로마를 확인하십시오. 업계 멘토, 400시간 이상의 학습 및 최고의 기업에서의 취업 지원.

R과 Python 중 어느 것을 배워야 하나요?

Python과 R은 모두 배우기 매우 간단한 것으로 간주됩니다. Python은 소프트웨어 개발을 염두에 두고 만들어졌습니다. Java 또는 C++에 대한 사전 전문 지식이 있는 경우 R보다 Python이 더 쉽게 올 수 있습니다. 반면에 통계에 대한 배경 지식이 있는 경우 R이 조금 더 쉬울 수 있습니다. Python의 이해하기 쉬운 구문을 사용하면 더 쉽게 배울 수 있습니다. R은 처음에는 학습 곡선이 더 높지만 계속 연습할수록 상당히 쉬워집니다.

Tableau가 데이터 시각화를 위한 최고의 도구입니까?

Tableau는 사용이 간편하고 매우 강력하다는 두 가지 이유로 시장에서 가장 인기 있는 데이터 시각화 도구 중 하나입니다. 이 프로그램은 수백 가지 소스에서 데이터를 가져와 차트, 지도 등을 포함한 수십 가지 시각화 스타일을 생성할 수 있습니다.

R과 RStudio의 차이점은 무엇입니까?

R은 통계 계산을 위한 프로그래밍 언어이고 RStudio는 R을 활용하는 통계 프로그래밍 환경입니다. 다른 소프트웨어를 사용하지 않고도 R에서 프로그램을 빌드하고 실행할 수 있습니다. 그러나 RStudio가 효과적으로 작동하려면 R과 함께 사용해야 합니다.