7 интересных проектов по работе с большими данными, на которые стоит обратить внимание

Опубликовано: 2018-05-29

«Большие данные» — модное слово сегодня. При разумном использовании большие данные могут кардинально изменить организации к лучшему. И волна перемен уже началась — большие данные быстро меняют ИТ и бизнес-сектор, отрасль здравоохранения, а также научные круги. Однако ключом к использованию всего потенциала больших данных является программное обеспечение с открытым исходным кодом (OSS). С тех пор как Apache Hadoop, первый изобретательный проект больших данных, вышел на первый план, он заложил основу для других инновационных проектов больших данных.

Цифровой маркетинг в логических бизнес-решениях

Согласно опросу Black Duck Software и North Bridge , почти 90% респондентов утверждают, что они полагаются на проекты больших данных с открытым исходным кодом, чтобы способствовать «повышению эффективности, инновациям и функциональной совместимости». Но самое главное, это потому, что они предлагают им «свободу от привязки к поставщику; конкурентные характеристики и технические возможности; возможность настройки; и общее качество».

Учебное пособие по большим данным для начинающих: все, что вам нужно знать

Теперь давайте рассмотрим некоторые из лучших проектов больших данных с открытым исходным кодом, которые позволяют организациям не только улучшить их общее функционирование, но и улучшить их аспект реагирования на запросы клиентов.

Оглавление
- Луч Апача
- Воздушный поток Apache
- Апач Спарк
- Апач Цеппелин
- Апач Кассандра
- ТензорФлоу
- Кубернетес
Луч Апача

Этот проект больших данных с открытым исходным кодом получил свое название от двух процессов больших данных — пакетного и потокового. Таким образом, Apache Beam позволяет интегрировать одновременно и пакетную, и потоковую передачу данных в рамках единой унифицированной платформы.

При работе с Beam вам необходимо создать один конвейер данных и запустить его в предпочтительной среде обработки. Конвейер данных является одновременно гибким и переносимым, что избавляет от необходимости проектировать отдельные конвейеры данных каждый раз, когда вы хотите выбрать другую структуру обработки. Будь то пакетная или потоковая передача данных, один и тот же конвейер данных можно многократно использовать повторно.

Воздушный поток Apache

Airflow — открытый проект Big Data от Airbnb, специально разработанный для автоматизации, организации и оптимизации проектов и процессов посредством интеллектуального планирования конвейеров Beam. Он позволяет планировать и отслеживать конвейеры данных в виде направленных ациклических графов (DAG).
Airflow планирует задачи в массиве и выполняет их в соответствии с их зависимостью. Лучшей особенностью Airflow, вероятно, являются богатые утилиты командной строки, которые делают сложные задачи в DAG намного более удобными. Поскольку конфигурация Airflow работает на кодах Python, она предлагает очень динамичный пользовательский интерфейс.

Апач Спарк

Spark — один из самых популярных вариантов для кластерных вычислений, который выбирают организации по всему миру. Этот проект больших данных оснащен современным планировщиком DAG, механизмом выполнения и оптимизатором запросов, Spark обеспечивает сверхбыструю обработку данных. Вы можете запустить Spark в Hadoop, Apache Mesos, Kubernetes или в облаке для сбора данных из различных источников.
Он был дополнительно оптимизирован для облегчения интерактивной потоковой аналитики, где вы можете анализировать массивные наборы исторических данных, дополненные оперативными данными, для принятия решений в режиме реального времени. Создание параллельных приложений стало проще, чем когда-либо, благодаря 80 высокоуровневым операторам Spark, которые позволяют интерактивно писать код на Java, Scala, Python, R и SQL. Помимо этого, он также включает в себя впечатляющий стек библиотек, таких как DataFrames, MLlib, GraphX и Spark Streaming.

Применение больших данных в поп-культуре

Апач Цеппелин

Другой изобретательный проект больших данных, Apache Zeppelin, был создан в NFLabs в Южной Корее. Zeppelin был в первую очередь разработан для предоставления интерфейсной веб-инфраструктуры для Spark. Основанный на подходе на основе ноутбуков, Zeppelin позволяет пользователям беспрепятственно взаимодействовать с приложениями Spark для приема, исследования и визуализации данных. Таким образом, вам не нужно создавать отдельные модули или плагины для приложений Spark при использовании Zeppelin.

Apache Zeppelin Interpreter, пожалуй, самая впечатляющая особенность этого проекта больших данных. Он позволяет вам подключить любой сервер обработки данных к Zeppelin. Интерпретатор Zeppelin поддерживает Spark, Python, JDBC, Markdown и Shell.

Апач Кассандра

Если вам нужна масштабируемая и высокопроизводительная база данных, Cassandra — идеальный выбор для вас. Что делает его одним из лучших OSS, так это его функции линейной масштабируемости и отказоустойчивости, которые позволяют вам реплицировать данные между несколькими узлами, одновременно заменяя неисправные узлы, ничего не закрывая!

В Cassandra все узлы в кластере идентичны и отказоустойчивы. Таким образом, вам никогда не придется беспокоиться о потере данных, даже если выйдет из строя весь центр обработки данных. Он дополнительно оптимизирован с помощью надстроек, таких как Hinted Handoff и Read Repair, которые повышают пропускную способность чтения и записи по мере добавления новых машин в существующую структуру.

Большие данные: инструменты и технологии, которые необходимо знать

ТензорФлоу

TensorFlow был создан исследователями и инженерами Google Brain для поддержки машинного обучения и глубокого обучения. Он был разработан как библиотека OSS для обеспечения высокопроизводительных и гибких числовых вычислений на множестве платформ, таких как CPU, GPU и TPU, и это лишь некоторые из них.
Универсальность и гибкость TensorFlow также позволяют экспериментировать со многими новыми алгоритмами машинного обучения, тем самым открывая двери для новых возможностей машинного обучения. Магнаты отрасли, такие как Google, Intel, eBay, DeepMind, Uber и Airbnb, успешно используют TensorFlow для постоянного внедрения инноваций и улучшения качества обслуживания клиентов.

Кубернетес

Это система поддержки операций, разработанная для масштабирования, развертывания и управления контейнерными приложениями. Он объединяет контейнеры внутри приложения в небольшие блоки, чтобы упростить их изучение и управление.
Kubernetes позволяет использовать гибридные или общедоступные облачные инфраструктуры для получения данных и беспрепятственного перемещения рабочих нагрузок. Он автоматически упорядочивает контейнеры в соответствии с их зависимостями, тщательно смешивая основные рабочие нагрузки и рабочие нагрузки с максимальной эффективностью в порядке, повышающем эффективность использования ваших ресурсов данных. Помимо этого, Kubernetes является самовосстанавливающимся — он обнаруживает и уничтожает узлы, которые не отвечают, а также заменяет и перепланирует контейнеры, когда узел выходит из строя.

Инженеры по работе с большими данными: мифы против реальности

Эти проекты по работе с большими данными обладают огромным потенциалом, помогая компаниям «изобретать велосипед» и стимулировать инновации. Мы надеемся, что по мере того, как мы продолжаем добиваться большего прогресса в области больших данных, в будущем появится больше таких находчивых проектов в области больших данных, открывающих новые возможности для исследований. Однако просто использовать эти проекты больших данных недостаточно.

Посмотрите видео на ютубе.
Вы должны стремиться стать активным членом сообщества OSS, внося свои собственные технологические находки и достижения в платформу, чтобы другие тоже могли извлечь из вас пользу.
Как выразился Жан-Батист Онофре :

«Это беспроигрышный вариант. Вы вносите свой вклад в проект, чтобы другие получали выгоду от вашей работы, но и ваша компания также получала выгоду от их работы. Это означает больше отзывов, больше новых функций, больше потенциально устраненных проблем».

Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.

Изучайте онлайн-курсы по разработке программного обеспечения в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Повышай свою квалификацию и будь готов к будущему

Узнать больше

7 интересных проектов по работе с большими данными, на которые стоит обратить внимание

Луч Апача

Воздушный поток Apache

Апач Спарк

Апач Цеппелин

Апач Кассандра

ТензорФлоу

Кубернетес

Повышай свою квалификацию и будь готов к будущему