지금 사용해야 하는 데이터 과학의 상위 7개 R 라이브러리
게시 됨: 2020-02-12데이터 과학용 라이브러리 및 패키지를 선택할 때 Python이 가장 먼저 떠오릅니다. 그러나 데이터 과학 커뮤니티에서 가장 좋아하는 필수 요소가 된 또 다른 언어가 있습니다. 바로 R 프로그래밍 언어입니다. 데이터 과학 커뮤니티에서 Python & R이 얼마나 중요한지 알아보세요.
R은 2020년에 가장 많이 배워야 할 언어 중 하나인 프로그래밍 언어입니다. 통계 컴퓨팅에 중점을 두고 설계되었기 때문에 인터페이스와 구조는 통계 및 과학 컴퓨팅 작업에 매우 적합합니다. R의 인기가 높아지는 이유는 구문이 이해하기 쉽고 환상적인 RStudio 도구와 수많은 R 패키지가 함께 제공되기 때문입니다. 이러한 데이터 과학용 R 패키지는 데이터 조작, 데이터 시각화, 모델 구축 등을 포함한 다양한 데이터 과학(ML) 작업을 수행하는 데 사용할 수 있습니다.
더 이상 고민하지 않고 데이터 과학을 위한 최고의 R 패키지를 살펴보겠습니다!
목차
데이터 과학을 위한 최고의 R 라이브러리
1. 디플라이어
Dplyr는 데이터 조작에 가장 적합한 R 라이브러리입니다. 여기에는 가장 일반적인 데이터 조작 문제를 해결할 수 있는 5가지 기능이 통합되어 있습니다. 이 다섯 가지 기능은 다음과 같습니다.
- mutate() – 기존 변수의 함수인 새 변수를 추가하는 데 사용됩니다.
- select() – 이름에 따라 변수를 선택하는 데 사용됩니다.
- filter()- 값에 따라 케이스를 선택하는 데 사용됩니다.
- summarise() – 여러 값을 단일 요약으로 줄이는 데 사용됩니다.
- Arrange() – 행의 순서/순서를 변경하는 데 사용됩니다.
이 5가지 기능은 대량의 데이터 조작 작업을 수행하는 데 필요한 전부입니다. Dplyr를 사용하면 동일한 R 코드를 사용하여 로컬 데이터 프레임과 원격 데이터베이스 테이블을 작업할 수 있습니다.
2. ggplot2
ggplot2는 Grammar of Graphics의 표준을 구현하여 그래픽을 생성하도록 명시적으로 설계된 R 도구입니다. ggplot2를 사용하면 데이터 속성과 그래픽 표현 간의 관계를 표현하여 고품질 그래픽 시각화를 생성할 수 있습니다.
데이터를 ggplot2 시스템에 공급하고 미학에 대한 변수를 만드는 방법과 사용할 그래픽 기본 요소를 명령하기만 하면 됩니다. 다른 모든 것은 ggplot2에서 처리합니다.
이 도구에는 직관적인 기능이 많이 포함되어 있고 비교적 사용하기 쉽지만, ggplot2 문제 및 문제에 대한 도움을 구하려면 항상 RStudio 커뮤니티 및 Stack Overflow에 의존할 수 있습니다. R 프로그래밍 언어의 데이터 시각화에 대해 자세히 알아보세요.
3. 에스퀴스
Esquise는 R의 또 다른 뛰어난 데이터 시각화 도구입니다. 아마도 Tableau의 최고의 기능 중 하나인 유명한 끌어서 놓기를 R에 제공하는 가장 간단하고 직접적인 시각화 도구일 것입니다!
Esquisse는 ggplot2 시스템 위에 구축되었습니다. 따라서 ggplot2 그래프를 생성하여 Esquisse 환경에서 데이터를 쉽게 탐색할 수 있습니다. 또한 RStudio 메뉴를 통해 Esquise 추가 기능을 실행할 수 있습니다. ggplot2를 사용하면 정교한 코드를 작성할 필요가 없기 때문에 플롯을 만드는 것이 훨씬 쉽습니다. 막대 그래프 및 곡선에서 산점도 및 히스토그램에 이르기까지 모든 시각화 패턴을 생성하고 그래프를 내보내거나 그래프를 생성하는 코드를 검색할 수도 있습니다.
4. MLR
기계 학습 작업을 위한 R 도구를 찾고 있다면 MLR이 딱 필요한 도구입니다. 이 R 패키지는 기계 학습을 위해 명시적으로 빌드되었습니다. 따라서 광범위한 ML 작업을 수행하는 데 필요한 거의 모든 필수 기계 학습 알고리즘이 포함되어 있습니다.

MLR 프레임워크는 분류, 회귀 및 생존 분석과 같은 감독 방법과 해당 평가 및 최적화 방법과 클러스터링과 같은 비지도 방법을 제공합니다. 그 구조는 직접 확장하거나 구현된 편의 방법에서 벗어나 자신의 복잡한 실험이나 알고리즘을 구성할 수 있는 구조입니다.
5. 샤이니
협업이 당신이 원하는 것이라면 Shiny는 당신을 위한 R 패키지입니다. Shiny는 R의 계산 능력과 최신 웹의 상호 작용을 결합합니다. 가장 좋은 점 - Shiny 앱은 특별한 웹 개발 기술이 필요하지 않기 때문에 작성 및 개발이 쉽습니다.
Shiny를 사용하면 더 큰 투명성과 협업을 위해 동일한 플랫폼에서 팀과 상호 작용하고 커뮤니케이션할 수 있습니다. R에서 바로 대화형 웹 앱을 빌드하기 위한 완벽한 도구입니다. 웹 페이지에서 독립 실행형 앱을 호스팅하거나 R Markdown 문서에 포함할 수 있습니다. 뿐만 아니라 Shiny를 사용하면 대화형 대시보드를 구축할 수도 있습니다. 다양한 내장 입력 위젯으로 가득 차 있습니다. Shiny 앱이 생성되면 htmlwidget, CSS 테마 및 JavaScript 작업을 사용하여 확장할 수 있습니다.
6. 윤활
Lubridate는 놀라운 데이터 랭글링 R 라이브러리입니다. 이 특정 패키지의 주요 목표는 날짜-시간 및 시간 범위를 빠르고 쉽게 처리하는 것입니다. 그것은 날짜 작업을 매우 빠르고 효율적으로 만드는 일관되고 기억에 남는 구문을 가지고 있습니다. 데이터 산술과 관련된 모든 작업을 Lubridate로 쉽게 수행할 수 있습니다.
Lubridate를 사용하면 날짜-시간을 쉽고 빠르게 구문 분석할 수 있으며 연도(), 월(), 일(), 시(), 분() 및 초()와 같은 날짜-시간 구성 요소를 가져오고 설정하는 간단한 기능을 제공합니다. . Lubridate는 세 가지 새로운 시간 범위 클래스를 도입하여 날짜-시간 개체로 수행할 수 있는 수학 연산 유형을 확장할 수도 있습니다.
- Durations – 두 지점 사이의 정확한 시간을 측정합니다.
- 기간 – 윤년, 윤초 및 일광 절약 시간에도 불구하고 시계 시간을 정확하게 추적할 수 있습니다.
- 간격 – 두 지점 사이의 시간 정보에 대한 단순한 요약입니다.
세계 최고의 대학에서 데이터 과학 과정 을 이수하 십시오. 귀하의 경력을 빠르게 추적하려면 Executive PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램에 가입하십시오.
7. RC크롤러
RCrawler는 주로 도메인 기반 웹 크롤링 및 콘텐츠 스크래핑에 사용되는 R 라이브러리입니다. 크롤링, 구문 분석, 페이지 저장, 콘텐츠 추출 및 웹 콘텐츠 마이닝 애플리케이션에 직접 구현할 수 있는 데이터 생성이 가능합니다. 이 도구를 사용할 때 주의할 점은 크롤링 작업의 프로세스가 여러 동시 프로세스 또는 노드에서 병렬로 수행되기 때문에 64비트 버전의 R을 사용하는 것이 좋습니다.
Rcrawler를 사용하면 사이트의 내부 및 외부 하이퍼링크(노드 및 에지)의 네트워크 표현을 구축하여 웹사이트 구조를 연구할 수 있습니다.
결론
이들은 데이터 과학을 위한 7개의 뛰어난 R 라이브러리입니다. 그러나 Plotly, Rcharts, Rbokeh, Rvest, RMySQL, StringR, Broom, SnowballC, Swirl 및 DataScienceR을 포함하여 다른 데이터 과학 목적을 제공하는 다른 많은 R 라이브러리가 있습니다.
데이터 과학에 대해 자세히 알아보려면 일하는 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 1:1 멘토링을 제공하는 데이터 과학 PG 디플로마를 확인하십시오. 업계 멘토, 400시간 이상의 학습 및 최고의 기업에서의 취업 지원.
R의 라이브러리와 패키지는 다른 것입니까?
패키지는 네임스페이스에 불과합니다. 패키지 내에는 하위 패키지가 있습니다. 라이브러리에는 고유한 코드를 작성하지 않고도 다양한 활동을 수행할 수 있는 관련 코드 기능 모음이 포함되어 있습니다. 패키지는 R 함수, 데이터 및 R 프로그래밍 언어로 생성된 코드의 모음입니다. 라이브러리는 패키지가 보관되는 사이트입니다.
Dplyr이 매우 유용한 R 라이브러리로 간주되는 이유는 무엇입니까?
Dplyr 패키지는 작업 흐름을 개선하는 좋은 방법입니다. 프로세스 속도를 높이고 정리하고 단순화하여 데이터 분석 및 조작을 용이하게 합니다. Dplyr은 다른 전통적인 기능보다 훨씬 빠릅니다. 외부 데이터베이스에 대한 직접 액세스 및 분석은 방대한 양의 데이터 처리를 단순화합니다. 함수 연결을 사용하여 중간 객체로 작업 공간을 어지럽히는 것을 피할 수 있습니다. 코드는 작성하기 쉽고 이해하기 쉽습니다. 구문도 간단합니다.
R 프로그래밍 언어에서 격자란 무엇입니까?
Trellis 그래픽에서 영감을 받은 Lattice는 R을 위한 강력하고 우아한 고급 데이터 시각화 솔루션입니다. 다변수 데이터를 염두에 두고 구축되었으며 간단한 컨디셔닝을 통해 '작은 배수' 차트를 생성할 수 있습니다. Lattice는 대부분의 기존 그래픽 요구 사항을 처리할 수 있는 동시에 대부분의 비표준 요구 사항을 충족할 만큼 충분히 유연합니다.