7 interesujących projektów Big Data, na które musisz uważać
Opublikowany: 2018-05-29Big Data to dziś modne hasło. Mądrze wykorzystana Big Data może drastycznie zmienić organizacje na lepsze. A fala zmian już się rozpoczęła – Big Data szybko zmienia sektor IT i biznes, branżę opieki zdrowotnej, a także środowisko akademickie. Jednak kluczem do wykorzystania pełnego potencjału Big Data jest oprogramowanie Open Source (OSS). Odkąd Apache Hadoop, pierwszy pomysłowy projekt Big Data wyszedł na pierwszy plan, położył podwaliny pod inne innowacyjne projekty Big Data.
Według ankiety Black Duck Software i North Bridge prawie 90% respondentów twierdzi, że polega na projektach Big Data typu open source, aby ułatwić „poprawę wydajności, innowacji i interoperacyjności”. Ale co najważniejsze, to dlatego, że oferują im „wolność od uzależnienia od dostawcy; konkurencyjne cechy i możliwości techniczne; możliwość dostosowania; i ogólna jakość.”
Samouczek Big Data dla początkujących: wszystko, co musisz wiedziećTeraz przyjrzyjmy się niektórym z najlepszych projektów open source Big Data, które pozwalają organizacjom nie tylko poprawić ich ogólne funkcjonowanie, ale także poprawić aspekt reakcji klientów.
Spis treści
Wiązka Apache
Ten projekt open source Big Data wywodzi swoją nazwę od dwóch procesów Big Data — Batch i Stream. W ten sposób Apache Beam umożliwia jednoczesną integrację zarówno wsadowych, jak i strumieniowych danych w ramach jednej zunifikowanej platformy.
Pracując z Beam, musisz utworzyć jeden potok danych i wybrać uruchomienie go w preferowanej strukturze przetwarzania. Potok danych jest zarówno elastyczny, jak i przenośny, co eliminuje potrzebę projektowania oddzielnych potoków danych za każdym razem, gdy chcesz wybrać inną strukturę przetwarzania. Niezależnie od tego, czy chodzi o dane wsadowe, czy strumieniowe, pojedynczy potok danych może być wielokrotnie używany ponownie.
Przepływ powietrza Apache
Airflow, projekt open source Big Data firmy Airbnb, został specjalnie zaprojektowany do automatyzacji, organizowania i optymalizacji projektów i procesów poprzez inteligentne planowanie rurociągów Beam. Umożliwia planowanie i monitorowanie potoków danych jako ukierunkowanych wykresów acyklicznych (DAG).
Airflow planuje zadania w tablicy i wykonuje je zgodnie z ich zależnościami. Najlepszą cechą Airflow są prawdopodobnie bogate narzędzia wiersza poleceń, które sprawiają, że złożone zadania na DAGs są o wiele wygodniejsze. Ponieważ konfiguracja Airflow działa na kodach Pythona, oferuje bardzo dynamiczne wrażenia użytkownika.

Apache Spark
Spark to jeden z najpopularniejszych wyborów organizacji na całym świecie w zakresie przetwarzania klastrowego. Ten projekt Big Data jest wyposażony w najnowocześniejszy harmonogram DAG, silnik wykonawczy i optymalizator zapytań, Spark umożliwia superszybkie przetwarzanie danych. Możesz uruchomić Spark na Hadoop, Apache Mesos, Kubernetes lub w chmurze, aby zbierać dane z różnych źródeł.
Został on dodatkowo zoptymalizowany w celu ułatwienia interaktywnej analizy strumieniowej, w której można analizować ogromne zbiory danych historycznych uzupełnionych danymi na żywo, aby podejmować decyzje w czasie rzeczywistym. Tworzenie aplikacji równoległych jest teraz łatwiejsze niż kiedykolwiek dzięki 80 operatorom wysokiego poziomu Spark, które umożliwiają interaktywne kodowanie w językach Java, Scala, Python, R i SQL. Oprócz tego zawiera również imponujący zestaw bibliotek, takich jak DataFrames, MLlib, GraphX i Spark Streaming.
Apache Zeppelin
Kolejny pomysłowy projekt Big Data, Apache Zeppelin, powstał w NFLabs w Korei Południowej. Zeppelin został opracowany głównie w celu zapewnienia infrastruktury sieciowej typu front-end dla platformy Spark. Opierając się na podejściu opartym na notebookach, Zeppelin umożliwia użytkownikom bezproblemową interakcję z aplikacjami Spark w celu pozyskiwania danych, eksploracji danych i wizualizacji danych. Nie musisz więc tworzyć osobnych modułów ani wtyczek dla aplikacji Spark podczas korzystania z Zeppelina.

Apache Zeppelin Interpreter jest prawdopodobnie najbardziej imponującą funkcją tego projektu Big Data. Pozwala na podłączenie dowolnego zaplecza przetwarzania danych do Zeppelina. Interpreter Zeppelin obsługuje platformy Spark, Python, JDBC, Markdown i Shell.
Apache Cassandra
Jeśli szukasz skalowalnej i wydajnej bazy danych, Cassandra jest dla Ciebie idealnym wyborem. To, co czyni go jednym z najlepszych OSS, to jego liniowa skalowalność i odporność na błędy, które umożliwiają replikację danych w wielu węzłach, jednocześnie wymieniając wadliwe węzły, bez wyłączania czegokolwiek!
W Cassandrze wszystkie węzły w klastrze są identyczne i odporne na błędy. Dzięki temu nigdy nie musisz się martwić o utratę danych, nawet jeśli całe centrum danych ulegnie awarii. Jest dodatkowo zoptymalizowany dzięki dodatkom, takim jak Hinted Handoff i Read Repair, które zwiększają przepustowość odczytu i zapisu w miarę dodawania nowych maszyn do istniejącej struktury.
Big Data: narzędzia i technologie trzeba znaćPrzepływ Tensora
TensorFlow został stworzony przez naukowców i inżynierów Google Brain, aby wspierać ML i głębokie uczenie. Została zaprojektowana jako biblioteka OSS do obsługi wydajnych i elastycznych obliczeń numerycznych na wielu platformach, takich jak CPU, GPU i TPU, żeby wymienić tylko kilka.
Wszechstronność i elastyczność TensorFlow pozwalają również na eksperymentowanie z wieloma nowymi algorytmami ML, otwierając tym samym drzwi dla nowych możliwości uczenia maszynowego. Potentaci z branży, tacy jak Google, Intel, eBay, DeepMind, Uber i Airbnb, z powodzeniem wykorzystują TensorFlow do ciągłego wprowadzania innowacji i ulepszania obsługi klienta.

Kubernetes
Jest to system wsparcia operacji opracowany z myślą o skalowaniu, wdrażaniu i zarządzaniu aplikacjami kontenerowymi. Grupuje pojemniki w aplikacji na małe jednostki, aby ułatwić płynną eksplorację i zarządzanie.
Kubernetes umożliwia wykorzystanie infrastruktur hybrydowych lub chmur publicznych do pozyskiwania danych i płynnego przenoszenia obciążeń. Automatycznie rozmieszcza kontenery zgodnie z ich zależnościami, starannie mieszając obciążenia kluczowe i obciążenia typu best-effort w kolejności, która zwiększa wykorzystanie zasobów danych. Poza tym Kubernetes naprawia się samoczynnie – wykrywa i zabija węzły, które nie odpowiadają, oraz zastępuje i zmienia harmonogram kontenerów w przypadku awarii węzła.
Te projekty Big Data mają ogromny potencjał, aby pomóc firmom „odkryć koło” i wspierać innowacje. Mamy nadzieję, że w miarę postępów w zakresie Big Data pojawi się więcej takich pomysłowych projektów Big Data w przyszłości, otwierając nowe możliwości eksploracji. Jednak samo korzystanie z tych projektów Big Data nie wystarczy.
Obejrzyj wideo na youtube.
Musisz dążyć do zostania aktywnym członkiem społeczności OSS poprzez wnoszenie własnych odkryć technologicznych i postępów na platformę, aby inni również mogli z Ciebie skorzystać.
Jak powiedział Jean-Baptiste Onofre :
„Jest to korzystne dla obu stron. Wnosisz swój wkład w projekt, aby inni czerpali korzyści z Twojej pracy, ale Twoja firma również korzysta z ich pracy. Oznacza to więcej opinii, więcej nowych funkcji, więcej potencjalnie naprawionych problemów”.
Jeśli chcesz dowiedzieć się więcej o Big Data, sprawdź nasz program PG Diploma in Software Development Specialization in Big Data, który jest przeznaczony dla pracujących profesjonalistów i zawiera ponad 7 studiów przypadków i projektów, obejmuje 14 języków programowania i narzędzi, praktyczne praktyczne warsztaty, ponad 400 godzin rygorystycznej pomocy w nauce i pośrednictwie pracy w najlepszych firmach.
Ucz się kursów rozwoju oprogramowania online z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.