주의해야 할 7가지 흥미로운 빅 데이터 프로젝트

게시 됨: 2018-05-29

오늘날 빅데이터는 화두입니다. 빅 데이터를 현명하게 활용하면 조직을 더 나은 방향으로 크게 변화시킬 수 있는 잠재력이 있습니다. 그리고 변화의 물결은 이미 시작되었습니다. 빅 데이터는 IT 및 비즈니스 부문, 의료 산업 및 학계를 빠르게 변화시키고 있습니다. 그러나 빅 데이터의 잠재력을 최대한 활용하는 열쇠는 오픈 소스 소프트웨어(OSS)입니다. 최초의 자원이 풍부한 빅 데이터 프로젝트인 Apache Hadoop 이후로 다른 혁신적인 빅 데이터 프로젝트의 기반을 마련했습니다.

논리적 비즈니스 의사결정의 디지털 마케팅

Black Duck Software와 North Bridge의 설문 조사따르면 응답자의 거의 90%가 "개선된 효율성, 혁신 및 상호 운용성" 을 촉진하기 위해 오픈 소스 빅 데이터 프로젝트에 의존한다고 주장합니다 . 그러나 가장 중요한 것은 이것이 "벤더 종속으로부터의 자유"를 제공하기 때문 입니다. 경쟁적 특징 및 기술적 능력; 커스터마이징 능력; 그리고 전반적인 품질.”

초보자를 위한 빅 데이터 튜토리얼: 알아야 할 모든 것

이제 조직이 전반적인 기능을 개선할 뿐만 아니라 고객 응답 측면을 향상할 수 있도록 하는 최고의 오픈 소스 빅 데이터 프로젝트를 확인해 보겠습니다.

  1. 목차

    아파치 빔

이 오픈 소스 빅 데이터 프로젝트는 Batch와 Stream의 두 가지 빅 데이터 프로세스에서 이름을 따왔습니다. 따라서 Apache Beam을 사용하면 단일 통합 플랫폼 내에서 데이터의 일괄 처리와 스트리밍을 동시에 통합할 수 있습니다.

Beam으로 작업할 때 하나의 데이터 파이프라인을 생성하고 선호하는 처리 프레임워크에서 실행하도록 선택해야 합니다. 데이터 파이프라인은 유연하고 이식성이 뛰어나므로 다른 처리 프레임워크를 선택할 때마다 별도의 데이터 파이프라인을 설계할 필요가 없습니다. 데이터의 일괄 처리 또는 스트리밍이든 단일 데이터 파이프라인을 계속해서 재사용할 수 있습니다.

  1. 아파치 에어플로우

Airbnb의 오픈 소스 빅 데이터 프로젝트인 Airflow는 Beam 파이프라인의 스마트 스케줄링을 통해 프로젝트와 프로세스를 자동화, 구성 및 최적화하도록 특별히 설계되었습니다. DAG(방향성 비순환 그래프)로 데이터 파이프라인을 예약하고 모니터링할 수 있습니다.
Airflow는 배열의 작업을 예약하고 종속성에 따라 작업을 실행합니다. Airflow의 가장 좋은 기능은 아마도 DAG의 복잡한 작업을 훨씬 더 편리하게 만드는 풍부한 명령줄 유틸리티일 것입니다. Airflow의 구성은 Python 코드에서 실행되기 때문에 매우 동적인 사용자 경험을 제공합니다.

  1. 아파치 스파크

Spark는 클러스터 컴퓨팅을 위해 전 세계 조직에서 가장 인기 있는 선택 중 하나입니다. 이 빅 데이터 프로젝트는 최첨단 DAG 스케줄러, 실행 엔진 및 쿼리 최적화 프로그램인 Spark를 통해 초고속 데이터 처리가 가능합니다. Hadoop, Apache Mesos, Kubernetes 또는 클라우드에서 Spark를 실행하여 다양한 소스에서 데이터를 수집할 수 있습니다.
라이브 데이터로 보완된 방대한 과거 데이터 세트를 분석하여 실시간으로 의사 결정을 내릴 수 있는 대화형 스트리밍 분석을 용이하게 하도록 더욱 최적화되었습니다. Java, Scala, Python, R 및 SQL에서 대화식으로 코딩할 수 있는 Spark의 80개 상위 수준 연산자를 사용하면 병렬 앱을 빌드하는 것이 그 어느 때보다 쉬워졌습니다. 이 외에도 DataFrames, MLlib, GraphX ​​및 Spark Streaming과 같은 인상적인 라이브러리 스택이 포함되어 있습니다.

대중 문화의 빅 데이터 응용
  1. 아파치 제플린

또 다른 독창적인 빅 데이터 프로젝트인 Apache Zeppelin은 한국의 NFLabs에서 만들어졌습니다. Zeppelin은 주로 Spark용 프런트 엔드 웹 인프라를 제공하기 위해 개발되었습니다. 노트북 기반 접근 방식을 기반으로 하는 Zeppelin을 통해 사용자는 데이터 수집, 데이터 탐색 및 데이터 시각화를 위해 Spark 앱과 원활하게 상호 작용할 수 있습니다. 따라서 Zeppelin을 사용할 때 Spark 앱을 위한 별도의 모듈이나 플러그인을 구축할 필요가 없습니다.

Apache Zeppelin Interpreter는 아마도 이 Big Data 프로젝트의 가장 인상적인 기능일 것입니다. 모든 데이터 처리 백엔드를 Zeppelin에 플러그인할 수 있습니다. Zeppelin 인터프리터는 Spark, Python, JDBC, Markdown 및 Shell을 지원합니다.

  1. 아파치 카산드라

확장 가능한 고성능 데이터베이스를 찾고 있다면 Cassandra가 이상적인 선택입니다. 최고의 OSS 중 하나로 만드는 것은 선형 확장성 및 내결함성 기능으로 여러 노드에 걸쳐 데이터를 복제하는 동시에 아무 것도 종료하지 않고 결함이 있는 노드를 교체할 수 있습니다!

Cassandra에서 클러스터의 모든 노드는 동일하고 내결함성이 있습니다. 따라서 전체 데이터 센터에 장애가 발생하더라도 데이터 손실에 대해 걱정할 필요가 없습니다. 기존 구조에 새 시스템이 추가될 때 읽기 및 쓰기 처리량을 향상시키는 힌트 핸드오프 및 읽기 복구와 같은 추가 기능으로 더욱 최적화되었습니다.

빅 데이터: 반드시 알아야 할 도구와 기술
  1. 텐서플로우

TensorFlow는 ML과 딥 러닝을 지원하기 위해 Google Brain의 연구원과 엔지니어가 만들었습니다. CPU, GPU 및 TPU와 같은 다양한 플랫폼에서 고성능의 유연한 수치 계산을 지원하기 위해 OSS 라이브러리로 설계되었습니다.
TensorFlow의 다용성과 유연성을 통해 많은 새로운 ML 알고리즘을 실험할 수 있으므로 기계 학습의 새로운 가능성이 열립니다. Google, Intel, eBay, DeepMind, Uber, Airbnb와 같은 업계의 거물들은 TensorFlow를 성공적으로 사용하여 고객 경험을 지속적으로 혁신하고 개선하고 있습니다.

  1. 쿠버네티스

컨테이너 애플리케이션의 확장, 배포 및 관리를 위해 개발된 운영 지원 시스템입니다. 원활한 탐색 및 관리를 용이하게 하기 위해 애플리케이션 내의 컨테이너를 작은 단위로 묶습니다.
Kubernetes를 사용하면 하이브리드 또는 공용 클라우드 인프라를 활용하여 데이터를 소싱하고 워크로드를 원활하게 이동할 수 있습니다. 종속성에 따라 컨테이너를 자동으로 정렬하여 데이터 리소스의 활용도를 높이는 순서로 중요 워크로드와 최선형 워크로드를 신중하게 혼합합니다. 이 외에도 Kubernetes는 자가 치유 기능을 갖추고 있습니다. 즉, 응답하지 않는 노드를 감지 및 종료하고 노드에 장애가 발생하면 컨테이너를 교체하고 일정을 조정합니다.

빅 데이터 엔지니어: 신화 대 현실

이러한 빅 데이터 프로젝트는 기업이 '바퀴를 재발명'하고 혁신을 촉진하는 데 도움이 되는 엄청난 잠재력을 가지고 있습니다. 우리가 빅 데이터에서 더 많은 진전을 이루면서 앞으로 더 많은 자원을 갖춘 빅 데이터 프로젝트가 나타나 새로운 탐색의 길을 열 수 있기를 바랍니다. 그러나 이러한 빅 데이터 프로젝트를 사용하는 것만으로는 충분하지 않습니다.

유튜브 영상을 보세요.
다른 사람들도 귀하로부터 혜택을 받을 수 있도록 자신의 기술적 발견과 발전을 플랫폼에 제공함으로써 OSS 커뮤니티의 적극적인 구성원이 되기 위해 노력해야 합니다.
Jean-Baptiste Onofre 는 다음과 같이 말했습니다.

“윈윈입니다. 다른 사람들이 귀하의 작업에서 혜택을 받을 수 있도록 프로젝트의 업스트림에 기여하지만 귀하의 회사도 그들의 작업으로부터 혜택을 받습니다. 더 많은 피드백, 더 많은 새로운 기능, 더 많은 잠재적으로 수정된 문제를 의미합니다."

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하세요. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 온라인으로 소프트웨어 개발 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

자신의 기술을 향상시키고 미래를 준비하십시오

더 알아보기