7 proiecte interesante de date mari de care trebuie să fii atent
Publicat: 2018-05-29Big Data este cuvântul la modă astăzi. Atunci când sunt valorificate cu înțelepciune, Big Data are potențialul de a transforma drastic organizațiile în bine. Și valul schimbării a început deja – Big Data schimbă rapid sectorul IT și de afaceri, industria sănătății, precum și mediul academic. Cu toate acestea, cheia pentru valorificarea întregului potențial al Big Data este software-ul cu sursă deschisă (OSS). De când Apache Hadoop, primul proiect Big Data plin de resurse, a pus bazele altor proiecte inovatoare Big Data.
Potrivit sondajului Black Duck Software și North Bridge , aproape 90% dintre respondenți susțin că se bazează pe proiecte open source Big Data pentru a facilita „eficiența, inovația și interoperabilitatea îmbunătățite”. Dar, cel mai important, este pentru că acestea le oferă „libertate de blocarea vânzătorului; caracteristici competitive și capabilități tehnice; capacitatea de personalizare; și calitatea generală.”
Tutorial Big Data pentru începători: tot ce trebuie să știțiAcum, haideți să vedem unele dintre cele mai bune proiecte open source Big Data care permit organizațiilor nu numai să își îmbunătățească funcționarea generală, ci și să își îmbunătățească aspectul de receptivitate al clienților.
Cuprins
Apache Beam
Acest proiect open source Big Data și-a derivat numele din cele două procese Big Data – Batch și Stream. Astfel, Apache Beam vă permite să integrați atât lotul, cât și streamingul de date simultan într-o singură platformă unificată.
Când lucrați cu Beam, trebuie să creați o conductă de date și să alegeți să o rulați pe cadrul de procesare preferat. Conducta de date este atât flexibilă, cât și portabilă, eliminând astfel nevoia de a proiecta conducte de date separate de fiecare dată când doriți să alegeți un cadru de procesare diferit. Fie că este vorba de un lot sau de streaming de date, o singură conductă de date poate fi reutilizată în mod repetat.
Apache Airflow
Un proiect open source Big Data de la Airbnb, Airflow a fost special conceput pentru a automatiza, organiza și optimiza proiecte și procese prin programarea inteligentă a conductelor Beam. Vă permite să programați și să monitorizați conductele de date ca grafice aciclice direcționate (DAG).
Airflow programează sarcinile într-o matrice și le execută în funcție de dependența lor. Cea mai bună caracteristică a Airflow este probabil utilitățile bogate ale liniilor de comandă care fac sarcinile complexe pe DAG-uri mult mai convenabile. Deoarece configurația Airflow rulează pe coduri Python, oferă o experiență de utilizator foarte dinamică.

Apache Spark
Spark este una dintre cele mai populare opțiuni ale organizațiilor din întreaga lume pentru calculul cluster. Acest proiect Big Data este echipat cu un planificator DAG de ultimă generație, un motor de execuție și un optimizator de interogări, Spark permite procesarea datelor super-rapidă. Puteți rula Spark pe Hadoop, Apache Mesos, Kubernetes sau în cloud pentru a aduna date din diverse surse.
A fost optimizat în continuare pentru a facilita analiza interactivă în flux, unde puteți analiza seturi masive de date istorice completate cu date live pentru a lua decizii în timp real. Crearea de aplicații paralele este acum mai ușoară ca niciodată cu cei 80 de operatori de nivel înalt Spark care vă permit să codificați interactiv în Java, Scala, Python, R și SQL. În afară de aceasta, include și un teanc impresionant de biblioteci, cum ar fi DataFrames, MLlib, GraphX și Spark Streaming.
Apache Zeppelin
Un alt proiect inventiv Big Data, Apache Zeppelin a fost creat la NFLabs din Coreea de Sud. Zeppelin a fost dezvoltat în primul rând pentru a furniza infrastructura web front-end pentru Spark. Înrădăcinat pe o abordare bazată pe notebook, Zeppelin permite utilizatorilor să interacționeze fără probleme cu aplicațiile Spark pentru asimilarea datelor, explorarea datelor și vizualizarea datelor. Deci, nu trebuie să construiți module sau plugin-uri separate pentru aplicațiile Spark atunci când utilizați Zeppelin.

Apache Zeppelin Interpreter este probabil cea mai impresionantă caracteristică a acestui proiect Big Data. Vă permite să conectați orice backend de procesare a datelor la Zeppelin. Interpretul Zeppelin acceptă Spark, Python, JDBC, Markdown și Shell.
Apache Cassandra
Dacă sunteți în căutarea unei baze de date scalabile și de înaltă performanță, Cassandra este alegerea ideală pentru dvs. Ceea ce îl face unul dintre cele mai bune OSS, sunt scalabilitatea liniară și caracteristicile de toleranță la erori care vă permit să replicați datele pe mai multe noduri, înlocuind simultan nodurile defecte, fără a închide nimic!
În Cassandra, toate nodurile dintr-un cluster sunt identice și tolerante la erori. Deci, nu trebuie să vă faceți niciodată griji cu privire la pierderea datelor, chiar dacă un întreg centru de date eșuează. Este optimizat în continuare cu suplimente precum Hinted Handoff și Read Repair, care îmbunătățesc viteza de citire și scriere pe măsură ce se adaugă noi mașini la structura existentă.
Big Data: trebuie să cunoașteți instrumentele și tehnologiileTensorFlow
TensorFlow a fost creat de cercetătorii și inginerii Google Brain pentru a sprijini ML și învățarea profundă. A fost conceput ca o bibliotecă OSS pentru a alimenta calculul numeric flexibil și de înaltă performanță pe o serie de platforme precum CPU, GPU și TPU, pentru a numi câteva.
Versatilitatea și flexibilitatea TensorFlow vă permit, de asemenea, să experimentați cu mulți algoritmi ML noi, deschizând astfel ușa pentru noi posibilități în învățarea automată. Magnații din industrie precum Google, Intel, eBay, DeepMind, Uber și Airbnb folosesc cu succes TensorFlow pentru a inova și a îmbunătăți în mod constant experiența clienților.

Kubernetes
Este un sistem de suport pentru operațiuni dezvoltat pentru scalarea, implementarea și gestionarea aplicațiilor container. Acesta grupează containerele dintr-o aplicație în unități mici pentru a facilita explorarea și gestionarea fără probleme.
Kubernetes vă permite să utilizați infrastructurile hibride sau publice de cloud pentru a furniza date și pentru a muta sarcinile de lucru fără probleme. Aranjează automat containerele în funcție de dependențele lor, amestecând cu atenție sarcinile de lucru esențiale și cele mai bune într-o ordine care sporește utilizarea resurselor dvs. de date. În afară de aceasta, Kubernetes se auto-vindecă - detectează și omoara nodurile care nu răspund și înlocuiește și reprogramează containerele atunci când un nod eșuează.
Aceste proiecte Big Data au un potențial enorm de a ajuta companiile să „reinventeze roata” și să stimuleze inovația. Pe măsură ce continuăm să facem mai multe progrese în Big Data, sperăm că în viitor vor apărea mai multe astfel de proiecte de Big Data, deschizând noi căi de explorare. Cu toate acestea, doar utilizarea acestor proiecte Big Data nu este suficientă.
Urmăriți videoclipul de pe youtube.
Trebuie să te străduiești să devii un membru activ al comunității OSS, contribuind cu propriile descoperiri și progrese tehnologice la platformă, astfel încât și alții să poată beneficia de tine.
După cum a spus Jean-Baptiste Onofre :
„Este un câștig-câștig. Contribuiți în amonte la proiect pentru ca alții să beneficieze de munca dvs., dar compania dvs. beneficiază și de munca lor. Înseamnă mai mult feedback, mai multe funcții noi, mai multe probleme potențiale remediate.”
Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.
Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.