Rolul Apache Spark în Big Data și ceea ce îl diferențiază

Publicat: 2018-05-30

Apache Spark a apărut ca un înlocuitor mult mai accesibil și convingător pentru Hadoop, alegerea inițială pentru gestionarea Big Data. Apache Spark, ca și alte instrumente sofisticate pentru Big Data, este extrem de puternic și bine echipat pentru a aborda eficient seturi de date uriașe.
Prin această postare pe blog, să vă ajutăm să clarificați punctele mai fine ale Apache Spark.

Cuprins

Ce este Apache Spark?

Spark, în termeni foarte simpli, este un proces general de prelucrare a datelor și un motor de procesare care este potrivit pentru utilizare într-o varietate de circumstanțe. Oamenii de știință de date folosesc Apache Spark pentru a-și îmbunătăți interogările, analizele și transformarea datelor. Sarcinile realizate cel mai frecvent folosind Spark includ interogări interactive în seturi mari de date, analiza și procesarea datelor în flux de la senzori și alte surse, precum și sarcini de învățare automată.
Spark a fost introdus în 2009 la Universitatea din California, Berkeley. Și-a găsit drumul către incubatorul Apache Software Foundation încă din 2014 și a fost promovat în 2014 la unul dintre proiectele de cel mai înalt nivel ale Fundației. În prezent, Spark este unul dintre cele mai apreciate proiecte ale fundației. Comunitatea care a crescut în jurul proiectului include atât colaboratori individuali prolifici, cât și susținători corporativi bine finanțați.

Din momentul în care a fost inițiat, sa asigurat că majoritatea sarcinilor au loc în memorie. Prin urmare, urma să fie întotdeauna mai rapid și mult mai optimizat decât alte abordări precum MapReduce de la Hadoop, care scrie date pe și de pe hard disk-uri între fiecare etapă de procesare. Se susține că capacitatea în memorie a lui Spark îi oferă o viteză de 100 de ori decât MapReduce de la Hadoop. Această comparație, oricât de adevărată, nu este corectă. Deoarece Spark a fost conceput ținând cont de viteza, în timp ce Hadoop a fost dezvoltat în mod ideal pentru procesarea în lot (care nu necesită la fel de multă viteză ca procesarea fluxului).

Tot ce trebuie să știți despre Apache Storm

Ce face Spark?

Spark este capabil să gestioneze petaocteți de date la un moment dat. Aceste date sunt distribuite pe un cluster de mii de servere care cooperează – fizice sau virtuale. Apache spark vine cu un set extins de biblioteci și API care acceptă toate limbajele utilizate în mod obișnuit, cum ar fi Python, R și Scala. Spark este adesea folosit cu HDFS (Hadoop Distributed File System – sistemul de stocare a datelor Hadoop), dar poate fi integrat la fel de bine cu alte sisteme de stocare a datelor.

Unele cazuri tipice de utilizare ale Apache Spark includ:

Spark streaming și procesare: astăzi, gestionarea „fluxurilor” de date este o provocare pentru orice profesionist de date. Aceste date vin în mod constant, adesea din mai multe surse și toate în același timp. Deși o modalitate ar putea fi stocarea acestor date pe discuri și analizarea lor retroactiv, acest lucru ar costa companiile o pierdere. Fluxurile de date financiare, de exemplu, pot fi procesate în timp real pentru a identifica și a refuza tranzacțiile potențial frauduloase. Apache Spark ajută tocmai în acest sens.
Învățare automată: odată cu creșterea volumului de date, și abordările ML devin mult mai fezabile și mai precise. Astăzi, software-ul poate fi instruit să identifice și să acționeze asupra declanșatorilor și apoi să aplice aceleași soluții la date noi și necunoscute. Caracteristica remarcabilă a Apache Spark de stocare a datelor în memorie ajută la interogare mai rapidă și, prin urmare, o face o alegere excelentă pentru antrenarea algoritmilor ML.
Analiză interactivă în flux: analiștii de afaceri și oamenii de știință de date doresc să-și exploreze datele punând o întrebare. Ei nu mai doresc să lucreze cu interogări predefinite pentru a crea tablouri de bord statice ale vânzărilor, productivității liniei de producție sau prețurilor stocurilor. Acest proces de interogare interactiv necesită sisteme precum Spark care să poată răspunde rapid.
Integrarea datelor: Datele sunt produse de o varietate de surse și sunt rareori curate. Procesele ETL (Extract, transform, load) sunt adesea efectuate pentru a extrage date din sisteme diferite, pentru a le curăța, a le standardiza și apoi a le stoca într-un sistem separat pentru analiză. Spark este din ce în ce mai folosit pentru a reduce costul și timpul necesar pentru aceasta.

Top 15 întrebări și răspunsuri la interviu Hadoop în 2018

Companii care folosesc Apache Spark

O gamă largă de organizații s-au grăbit să susțină și să se alăture cu Apache Spark. Ei și-au dat seama că Spark oferă valoare reală, cum ar fi interogările interactive și învățarea automată.
Companii renumite precum IBM și Huawei au investit deja o sumă destul de importantă în această tehnologie, iar multe startup-uri în creștere își construiesc produsele în și în jurul lui Spark. De exemplu, echipa Berkeley responsabilă cu crearea spark a fondat Databricks în 2013. Databricks oferă o platformă de date end-to-end găzduită, alimentată de Spark.

Toți principalii furnizori Hadoop încep să sprijine Spark alături de produsele lor existente. Organizațiile orientate pe web precum Baidu, operațiunea de comerț electronic Alibaba Taobao și compania de rețele sociale Tencent folosesc toate operațiunile bazate pe Spark la scară. Pentru a vă oferi o perspectivă asupra puterii Apache Spark, Tencent are 800 de milioane de utilizatori activi care generează peste 800 TB de date pe zi pentru procesare.

Pe lângă acești giganți bazați pe web, companiile farmaceutice precum Novartis depind și de Spark. Folosind Spark Streaming, au redus timpul necesar pentru a pune datele de modelare în mâinile cercetătorilor.

Un ghid pentru autostopul pentru MapReduce

Ce îl deosebește pe Spark?

Să ne uităm la principalele motive pentru care Apache Spark a devenit rapid favoritul cercetătorilor de date:

Flexibilitate și accesibilitate: Având un set atât de bogat de API-uri, Spark s-a asigurat că toate capabilitățile sale sunt incredibil de accesibile. Toate aceste API-uri sunt concepute pentru a interacționa rapid și eficient cu datele la scară, făcând astfel Apache Spark extrem de flexibil. Există o documentație completă pentru aceste API-uri și este scrisă într-o manieră extraordinar de lucidă și directă.
Viteza: Viteza este pentru care este proiectat Spark. Atât în memorie, cât și pe disc. O echipă de Databricks a folosit Spark pentru provocarea Benchmark de 100 TB. Această provocare implică procesarea unui set de date imens, dar statice. Echipa a reușit să proceseze 100 TB de date stocate pe un SSD în doar 23 de minute folosind Spark. Câștigătorul anterior a făcut-o în 72 de minute folosind Hadoop. Ceea ce este și mai bun este că Spark funcționează bine atunci când acceptă interogări interactive de date stocate în memorie. În aceste situații, se pretinde că Apache Spark este de 100 de ori mai rapid decât MapR.
Suport: Așa cum am spus mai devreme, Apache Spark acceptă majoritatea limbajelor de programare celebre, inclusiv Java, Python, Scala și R. Spark include, de asemenea, suport pentru integrarea strânsă cu o serie de sisteme de stocare, cu excepția doar HDFS. În plus, comunitatea din spatele Apache Spark este imensă, activă și internațională.

7 proiecte interesante de date mari de care trebuie să fii atent

Concluzie

Cu asta, ajungem la sfârșitul acestei postări pe blog. Sperăm că v-a plăcut să intrați în detalii despre Apache Spark. Dacă seturi mari de date vă fac să vă avânte adrenalină, vă recomandăm să folosiți Apache Spark și să vă faceți un atu!

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.

Conduceți revoluția tehnologică bazată pe date

Program de certificat avansat în Big Data de la IIIT Bangalore