빅 데이터에서 Apache Spark의 역할과 차별화

게시 됨: 2018-05-30

Apache Spark는 원래 빅 데이터 관리를 위한 선택이었던 Hadoop을 훨씬 더 쉽게 접근할 수 있고 매력적인 대안으로 떠올랐습니다. 다른 정교한 빅 데이터 도구와 마찬가지로 Apache Spark는 거대한 데이터 세트를 효율적으로 처리하는 데 매우 강력하고 잘 갖춰져 있습니다.
이 블로그 게시물을 통해 Apache Spark의 세부 사항을 명확히 하도록 도와드리겠습니다.

목차

아파치 스파크란?

아파치 스파크
Spark는 매우 간단한 용어로 다양한 상황에서 사용하기에 적합한 범용 데이터 처리 및 처리 엔진입니다. 데이터 과학자는 Apache Spark를 사용하여 쿼리, 분석 및 데이터 변환을 개선합니다. Spark를 사용하여 가장 자주 수행되는 작업에는 대규모 데이터 세트에 대한 대화형 쿼리, 분석 및 센서 및 기타 소스의 스트리밍 데이터 처리, 기계 학습 작업이 포함됩니다.
Spark는 2009년 University of California, Berkeley에서 소개되었습니다. 그것은 2014년에 Apache Software Foundation의 인큐베이터로 돌아가고 2014년에 재단의 최고 수준 프로젝트 중 하나로 승격되었습니다. 현재 Spark는 재단에서 가장 높은 평가를 받은 프로젝트 중 하나입니다. 프로젝트를 중심으로 성장한 커뮤니티에는 많은 개인 기여자와 자금이 넉넉한 기업 후원자가 모두 포함됩니다.

처음 도입될 때부터 대부분의 작업이 메모리 내에서 발생하도록 했습니다. 따라서 각 처리 단계 사이에서 하드 드라이브에 데이터를 쓰거나 받는 Hadoop의 MapReduce와 같은 다른 접근 방식보다 항상 더 빠르고 훨씬 더 최적화되었습니다. Spark의 인메모리 기능은 Hadoop의 MapReduce보다 100배 빠른 속도를 제공한다고 주장됩니다. 이 비교는 사실이지만 공정하지 않습니다. Spark는 속도를 염두에 두고 설계되었지만 Hadoop은 일괄 처리(스트림 처리만큼 많은 속도가 필요하지 않음)를 위해 이상적으로 개발되었기 때문입니다.

Apache Storm에 대해 알아야 할 모든 것

스파크는 무엇을 합니까?

Spark는 한 번에 페타바이트의 데이터를 처리할 수 있습니다. 이 데이터는 물리적 또는 가상의 수천 대의 협력 서버 클러스터에 분산됩니다. Apache spark는 Python, R 및 Scala와 같이 일반적으로 사용되는 모든 언어를 지원하는 광범위한 라이브러리 및 API 세트와 함께 제공됩니다. Spark는 종종 HDFS(Hadoop 분산 파일 시스템 – Hadoop의 데이터 저장 시스템)와 함께 사용되지만 다른 데이터 저장 시스템과도 동등하게 잘 통합될 수 있습니다.

Apache Spark의 몇 가지 일반적인 사용 사례는 다음과 같습니다.

  • Spark 스트리밍 및 처리: 오늘날 데이터 "스트림"을 관리하는 것은 모든 데이터 전문가에게 어려운 과제입니다. 이 데이터는 여러 소스에서 한 번에 안정적으로 도착하는 경우가 많습니다. 한 가지 방법은 이 데이터를 디스크에 저장하고 소급하여 분석하는 것일 수 있지만, 이는 비즈니스 손실을 초래합니다. 예를 들어 금융 데이터 스트림을 실시간으로 처리하여 잠재적인 사기 거래를 식별하고 거부할 수 있습니다. Apache Spark는 이를 정확히 도와줍니다.
  • 기계 학습: 데이터 양이 증가함에 따라 ML 접근 방식도 훨씬 더 실현 가능하고 정확해지고 있습니다. 오늘날 소프트웨어는 트리거를 식별하고 이에 따라 조치를 취한 다음 새롭고 알려지지 않은 데이터에 동일한 솔루션을 적용하도록 훈련될 수 있습니다. 데이터를 메모리에 저장하는 Apache Spark의 뛰어난 기능은 더 빠른 쿼리에 도움이 되므로 ML 알고리즘 교육에 탁월한 선택이 됩니다.
  • 대화형 스트리밍 분석: 비즈니스 분석가와 데이터 과학자는 질문을 통해 데이터를 탐색하려고 합니다. 그들은 더 이상 판매, 생산 라인 생산성 또는 주가에 대한 정적 대시보드를 생성하기 위해 미리 정의된 쿼리로 작업하는 것을 원하지 않습니다. 이 대화형 쿼리 프로세스에는 신속하게 응답할 수 있는 Spark와 같은 시스템이 필요합니다.
  • 데이터 통합: 데이터는 다양한 소스에서 생성되며 거의 깨끗하지 않습니다. ETL(추출, 변환, 로드) 프로세스는 종종 다른 시스템에서 데이터를 가져와 정리하고 표준화한 다음 분석을 위해 별도의 시스템에 저장하기 위해 수행됩니다. Spark는 이에 필요한 비용과 시간을 줄이기 위해 점점 더 많이 사용되고 있습니다.
2018년 상위 15가지 Hadoop 인터뷰 질문과 답변

Apache Spark를 사용하는 회사

다양한 조직에서 Apache Spark를 신속하게 지원하고 협력하고 있습니다. 그들은 Spark가 대화형 쿼리 및 기계 학습과 같은 실제 가치를 제공한다는 것을 깨달았습니다.
IBM 및 Huawei와 같은 유명한 회사는 이미 이 기술에 상당한 금액을 투자했으며 많은 성장하는 신생 기업이 Spark 안팎에서 제품을 구축하고 있습니다. 예를 들어, Spark 제작을 담당하는 Berkeley 팀은 2013년 Databricks를 설립했습니다. Databricks는 Spark에서 제공하는 호스팅된 종단 간 데이터 플랫폼을 제공합니다.

모든 주요 Hadoop 공급업체는 기존 제품과 함께 Spark를 지원하기 시작했습니다. Baidu, 전자 상거래 업체 Alibaba Taobao, 소셜 네트워킹 회사 Tencent와 같은 웹 지향 조직은 모두 Spark 기반 작업을 대규모로 사용합니다. Apache Spark의 성능에 대한 몇 가지 관점을 제공하기 위해 Tencent는 처리를 위해 하루에 800TB가 넘는 데이터를 생성하는 8억 명의 활성 사용자를 보유하고 있습니다.

이러한 웹 기반 거대 기업 외에도 Novartis와 같은 제약 회사도 Spark에 의존하고 있습니다. Spark Streaming을 사용하여 모델링 데이터를 연구원에게 제공하는 데 필요한 시간을 단축했습니다.

MapReduce에 대한 히치하이커를 위한 안내서

스파크를 차별화하는 요소는 무엇입니까?

Apache Spark가 빠르게 데이터 과학자가 선호하는 주요 이유를 살펴보겠습니다.

  • 유연성 및 접근성: 이처럼 풍부한 API 세트를 보유한 Spark는 모든 기능에 매우 쉽게 액세스할 수 있도록 했습니다. 이러한 모든 API는 대규모 데이터와 빠르고 효율적으로 상호 작용하도록 설계되어 Apache Spark를 매우 유연하게 만듭니다. 이러한 API에 대한 철저한 문서가 있으며 매우 명료하고 직관적인 방식으로 작성되었습니다.
  • 속도: 속도는 Spark가 설계된 목적입니다. 인메모리 또는 디스크 모두. Databricks 팀은 100TB 벤치마크 챌린지에 Spark를 사용했습니다. 이 문제에는 거대하지만 정적인 데이터 세트를 처리하는 것이 포함됩니다. 팀은 Spark를 사용하여 단 23분 만에 SSD에 저장된 100TB의 데이터를 처리할 수 있었습니다. 이전 승자는 Hadoop을 사용하여 72분 만에 이 작업을 수행했습니다. 더 좋은 점은 메모리에 저장된 데이터의 대화형 쿼리를 지원할 때 Spark가 잘 수행된다는 것입니다. 이러한 상황에서 Apache Spark는 MapR보다 100배 더 빠릅니다.
  • 지원: 앞서 말했듯이 Apache Spark는 Java, Python, Scala 및 R을 포함한 대부분의 유명한 프로그래밍 언어를 지원합니다. Spark는 HDFS를 제외한 여러 스토리지 시스템과의 긴밀한 통합에 대한 지원도 포함합니다. 또한 Apache Spark 뒤에 있는 커뮤니티는 거대하고 활동적이며 국제적입니다.
주의해야 할 7가지 흥미로운 빅 데이터 프로젝트

결론

이상으로 이 블로그 포스트를 마칩니다. Apache Spark에 대한 세부 정보를 즐기셨기를 바랍니다. 많은 양의 데이터로 인해 아드레날린이 솟구치는 경우 Apache Spark를 직접 체험하고 자산을 만드는 것이 좋습니다!

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하세요. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 온라인으로 소프트웨어 개발 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

데이터 주도 기술 혁명을 주도하다

IIT Bangalore의 빅 데이터 고급 인증 프로그램