Apache Spark'ın Büyük Verideki Rolü ve Onu Neyin Ayırdığı

Yayınlanan: 2018-05-30

Apache Spark, Büyük Veriyi yönetmek için orijinal seçim olan Hadoop'un yerine çok daha erişilebilir ve çekici bir alternatif olarak ortaya çıktı. Apache Spark, diğer gelişmiş Büyük Veri araçları gibi, son derece güçlüdür ve devasa veri kümelerini verimli bir şekilde ele almak için iyi donanımlıdır.
Bu blog gönderisi aracılığıyla Apache Spark'ın ince noktalarını netleştirmenize yardımcı olalım.

İçindekiler

Apache Spark nedir?

Apaçi Kıvılcımı
Spark, çok basit bir ifadeyle, çeşitli koşullarda kullanıma uygun genel amaçlı bir veri işleme ve işleme motorudur. Veri bilimcileri, veri dönüştürmenin yanı sıra sorgulama, analizlerini geliştirmek için Apache Spark'ı kullanır. Spark kullanılarak en sık gerçekleştirilen görevler arasında büyük veri kümeleri arasında etkileşimli sorgular, sensörlerden ve diğer kaynaklardan gelen akış verilerinin analizi ve işlenmesi ile makine öğrenimi görevleri yer alır.
Spark, 2009 yılında Berkeley'deki California Üniversitesi'nde tanıtıldı. 2014'te Apache Software Foundation'ın kuluçka makinesine giden yolu buldu ve 2014'te Vakfın en üst düzey projelerinden birine terfi etti. Şu anda Spark, vakfın en yüksek puan alan projelerinden biridir. Proje etrafında büyüyen topluluk, hem üretken bireysel katkıda bulunanları hem de iyi finanse edilen kurumsal destekçileri içerir.

Kurulduğu andan itibaren görevlerin çoğunun bellekte gerçekleşmesi sağlandı. Bu nedenle, işlemenin her aşaması arasında sabit disklere ve sabit disklerden veri yazan Hadoop'un MapReduce gibi diğer yaklaşımlardan her zaman daha hızlı ve çok daha optimize olacaktı. Spark'ın bellek içi yeteneğinin, ona Hadoop'un MapReduce'undan 100 kat daha hızlı olduğu iddia ediliyor. Bu karşılaştırma, ancak doğru, adil değil. Spark, hız göz önünde bulundurularak tasarlandığından, Hadoop ideal olarak toplu işleme için geliştirildi (bu, akış işleme kadar hız gerektirmez).

Apache Storm Hakkında Bilmeniz Gereken Her Şey

Kıvılcım Ne Yapar?

Spark, bir seferde petabaytlarca veriyi işleyebilir. Bu veriler, fiziksel veya sanal olarak işbirliği yapan binlerce sunucudan oluşan bir kümeye dağıtılır. Apache Spark, Python, R ve Scala gibi yaygın olarak kullanılan tüm dilleri destekleyen kapsamlı bir kitaplık ve API seti ile birlikte gelir. Spark genellikle HDFS (Hadoop Dağıtılmış Dosya Sistemi – Hadoop'un veri depolama sistemi) ile birlikte kullanılır, ancak diğer veri depolama sistemleriyle eşit derecede iyi entegre edilebilir.

Apache Spark'ın bazı tipik kullanım durumları şunları içerir:

  • Akış ve işlemeyi harekete geçirin: Günümüzde veri "akışlarını" yönetmek, herhangi bir veri uzmanı için zorlu bir iştir. Bu veriler, genellikle birden fazla kaynaktan ve hepsi aynı anda sabit bir şekilde gelir. Bir yol, bu verileri disklerde depolamak ve geriye dönük olarak analiz etmek olsa da, bu, işletmelere zarar verebilir. Örneğin finansal veri akışları, potansiyel olarak dolandırıcılık amaçlı işlemleri belirlemek ve reddetmek için gerçek zamanlı olarak işlenebilir. Apache Spark tam olarak bu konuda yardımcı olur.
  • Makine öğrenimi: Artan veri hacmiyle birlikte ML yaklaşımları da çok daha uygulanabilir ve doğru hale geliyor. Bugün yazılım, tetikleyicileri belirlemek ve bunlara göre hareket etmek ve ardından aynı çözümleri yeni ve bilinmeyen verilere uygulamak için eğitilebilir. Apache Spark'ın göze çarpan verileri bellekte depolama özelliği, daha hızlı sorgulamaya yardımcı olur ve bu nedenle onu ML algoritmalarını eğitmek için mükemmel bir seçim haline getirir.
  • Etkileşimli akış analizi: İş analistleri ve veri bilimcileri, bir soru sorarak verilerini keşfetmek ister. Artık satış, üretim hattı üretkenliği veya hisse senedi fiyatlarının statik panolarını oluşturmak için önceden tanımlanmış sorgularla çalışmak istemiyorlar. Bu etkileşimli sorgulama işlemi, Spark gibi hızlı yanıt verebilen sistemler gerektirir.
  • Veri entegrasyonu: Veriler çeşitli kaynaklar tarafından üretilir ve nadiren temizdir. ETL (Ayıkla, dönüştür, yükle) işlemleri genellikle farklı sistemlerden veri çekmek, temizlemek, standart hale getirmek ve daha sonra analiz için ayrı bir sistemde depolamak için gerçekleştirilir. Spark, bunun için gereken maliyeti ve zamanı azaltmak için giderek daha fazla kullanılmaktadır.
2018'deki En İyi 15 Hadoop Mülakat Sorusu ve Yanıtı

Apache Spark kullanan şirketler

Çok çeşitli kuruluşlar, Apache Spark'ı desteklemekte ve el ele vermekte hızlı olmuştur. Spark'ın etkileşimli sorgulama ve makine öğrenimi gibi gerçek değerler sunduğunu fark ettiler.
IBM ve Huawei gibi ünlü şirketler bu teknolojiye şimdiden oldukça önemli miktarda yatırım yaptı ve büyüyen birçok startup, ürünlerini Spark içinde ve çevresinde inşa ediyor. Örneğin, Spark'ı oluşturmaktan sorumlu Berkeley ekibi Databricks'i 2013'te kurdu. Databricks, Spark tarafından desteklenen, barındırılan bir uçtan uca veri platformu sağlar.

Tüm büyük Hadoop satıcıları, mevcut ürünleriyle birlikte Spark'ı desteklemeye başlıyor. Baidu, e-ticaret operasyonu Alibaba Taobao ve sosyal ağ şirketi Tencent gibi web odaklı kuruluşların tümü, Spark tabanlı operasyonları geniş ölçekte kullanır. Size Apache Spark'ın gücü hakkında bir fikir vermek için, Tencent'in işlenmek üzere günde 800 TB'den fazla veri üreten 800 milyon aktif kullanıcısı vardır.

Bu web tabanlı devlere ek olarak Novartis gibi ilaç şirketleri de Spark'a güveniyor. Spark Streaming'i kullanarak, modelleme verilerinin araştırmacıların eline geçmesi için gereken süreyi azalttılar.

Bir Otostopçunun MapReduce Rehberi

Spark'ı Ayıran Nedir?

Apache Spark'ın hızla bir veri bilimcisinin favorisi olmasının temel nedenlerine bakalım:

  • Esneklik ve erişilebilirlik: Bu kadar zengin bir API kümesine sahip olan Spark, tüm yeteneklerinin inanılmaz derecede erişilebilir olmasını sağlamıştır. Tüm bu API'ler, ölçekte verilerle hızlı ve verimli bir şekilde etkileşim kurmak için tasarlanmıştır ve böylece Apache Spark'ı son derece esnek hale getirir. Bu API'ler için kapsamlı belgeler vardır ve olağanüstü net ve anlaşılır bir şekilde yazılmıştır.
  • Hız: Hız, Spark'ın tasarlandığı şeydir. Hem bellekte hem de diskte. Bir Databricks ekibi, 100 TB Benchmark mücadelesi için Spark'ı kullandı. Bu zorluk, çok büyük ama statik bir veri kümesinin işlenmesini içerir. Ekip, Spark kullanarak bir SSD'de depolanan 100 TB'lık veriyi yalnızca 23 dakikada işleyebildi. Önceki kazanan Hadoop kullanarak 72 dakika içinde yaptı. Daha da iyisi, Spark'ın bellekte depolanan verilerin etkileşimli sorgularını desteklerken iyi performans göstermesidir. Bu durumlarda Apache Spark'ın MapR'den 100 kat daha hızlı olduğu iddia edilmektedir.
  • Destek: Daha önce de söylediğimiz gibi, Apache Spark Java, Python, Scala ve R dahil olmak üzere ünlü programlama dillerinin çoğunu destekler. Spark ayrıca yalnızca HDFS dışında bir dizi depolama sistemiyle sıkı entegrasyon desteği içerir. Ayrıca, Apache Spark'ın arkasındaki topluluk çok büyük, aktif ve uluslararasıdır.
Dikkat Etmeniz Gereken 7 İlginç Büyük Veri Projesi

Çözüm

Bununla, bu blog yazısının sonuna geliyoruz. Apache Spark'ın ayrıntılarına girmekten keyif aldığınızı umarız. Büyük veri kümeleri adrenalinizi hızlandırıyorsa, Apache Spark ile uygulamalı olarak çalışmanızı ve kendinizi bir varlık haline getirmenizi öneririz!

Büyük Veri hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 7+ vaka çalışması ve proje sağlayan, 14 programlama dili ve aracını kapsayan, pratik uygulamalı Büyük Veride Yazılım Geliştirme Uzmanlığı programında PG Diplomamıza göz atın çalıştaylar, en iyi firmalarla 400 saatten fazla titiz öğrenim ve işe yerleştirme yardımı.

Dünyanın En İyi Üniversitelerinden Online Yazılım Geliştirme Kursları öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Veriye Dayalı Teknolojik Devrime Öncülük Edin

IIIT Bangalore'den Büyük Veride Gelişmiş Sertifika Programı