Инженеры по работе с большими данными: мифы и реальность
Опубликовано: 2018-05-07Данные, представленные организациям, увеличиваются с каждой минутой. Эти данные представлены в различных форматах, размерах и типах, и поэтому их чрезвычайно трудно изучать, не говоря уже об их эффективном анализе. Чтобы помочь с этим, есть инженеры по большим данным! Это люди, которые несут ответственность за преобразование бесполезных больших данных в полезные большие данные, которые затем могут быть дополнительно изучены и проанализированы специалистами по данным.
Инженеров по большим данным можно по праву назвать смесью специалиста по данным и инженера. Любая организация, работающая с большими данными, по умолчанию нуждается в инженере по большим данным.
Как правило, роль инженера по большим данным требует от него выполнения одного (или нескольких) из следующих навыков:
Оглавление
Анализ данных
- Hadoop, MapReduce, IBM Biginsights, Hortonworks и MapR — это лишь некоторые из инструментов, которыми инженеры по работе с большими данными должны управлять для выполнения анализа данных. Большинство инженеров, как правило, имеют опыт работы только с MapReduce (поскольку он самый старый, а другие совсем новые), но лежащие в его основе алгоритмы облегчают быстрое и эффективное изучение новых технологий.
- Интеллектуальный анализ данных является одним из важнейших аспектов анализа данных. Инженеры по большим данным работают с такими технологиями, как Mahout, для выполнения задач, связанных с интеллектуальным анализом данных. Первая обязанность инженера по большим данным заключается в поиске данных еще до того, как он сможет их очистить. Поэтому им необходимо владеть Mahout или другими инструментами интеллектуального анализа данных.
- Статистический анализ также играет важную роль, и ожидается, что инженер по большим данным в некоторой степени владеет R, SPSS, SAS, MATLAB и т. д.
- Инженеры по большим данным — это инженеры в конце дня. Они должны хорошо разбираться в основах программирования. Большая часть сильных навыков программирования потребуется только для пользовательских/специализированных реализаций алгоритмов.
Хранилище данных
- Хранилище данных относится к подъему данных в хранилище. Для этого от инженера по большим данным требуется знание MySQL, MS SQL Server, Oracle или любых реляционных баз данных. Эти инструменты позволяют видным инженерам по работе с большими данными беспрепятственно работать с реляционными данными, имеющимися в их организации.
- Сегодня не все данные структурированы и реляционны. Большинство данных с этими организациями не являются реляционными. Следовательно, знание нереляционных баз данных, таких как NoSQL, HBase, HDFS, Cassandra, CouchDB и т. д., также очень пригодится инженеру по работе с большими данными.
Сбор информации
- Сбор данных является одной из основных задач инженера по большим данным. Им нужно работать с API данных, например. Интерфейсы RESTful для извлечения данных из хранилища данных. Для этого им нужно иметь практические навыки работы с каким-либо языком сценариев.
- Кроме того, инженеры по большим данным должны быть экспертами в SQL и моделировании данных. Это очень удобно при сборе данных. Моделирование данных позволяет инженерам по работе с большими данными иметь четкое представление о данных и их взаимозависимостях.
Преобразование и очистка данных
- После того, как данные были собраны, основная обязанность инженера по большим данным состоит в том, чтобы преобразовать их в формат, подходящий для специалиста по обработке и анализу данных. Для этого используются различные инструменты ETL, такие как Informatica, DataStage, Redpoint и SSIS. Владение любым из этих инструментов позволяет инженерам по работе с большими данными эффективно преобразовывать данные, которые они собирали ранее.
- После преобразования данные очищаются от всех аномалий и несоответствий. Это важно, потому что эти данные в дальнейшем будут анализироваться Data Scientist, и его анализ будет настолько хорош, насколько хороши данные, которые он получит.
Инжиниринг больших данных — относительно новая область, возможности которой с каждым днем увеличиваются. Инженер по большим данным — это мастер навыков, которые мы обсуждали ранее. Однако не все инженеры по большим данным обладают всеми этими навыками. Каждая роль уникальна, поэтому некоторым могут потребоваться более специализированные знания в одной из этих областей по сравнению с другими. Однако для эксперта в одном из этих навыков обычно не слишком сложно применить эти навыки в других областях. Теперь мы находимся на одной странице в отношении обязанностей и задач инженера по большим данным.

Давайте сделаем еще один шаг и развеем некоторые распространенные мифы об их жизни, работе и квалификации:
Миф № 1. Нет большой разницы между обычным днем специалиста по обработке и анализу данных и инженера по работе с большими данными.
Если вы следили за нашей серией, вы будете знать лучше. Специалист по данным — это тот, кто ищет тенденции, значения и закономерности в данных и пытается сформулировать действенные идеи, которые улучшат работу организации. С другой стороны, инженер по большим данным, совершенно очевидно, работает с данными до того, как они будут проанализированы. Он отвечает за очистку данных и представление их исследователю данных в максимально первозданном виде.

Миф № 2: Инженеры по работе с большими данными гораздо более ценны, чем специалисты по данным (или наоборот).
Обе эти рабочие роли имеют собственное значение для функционирования организации. Без эффективного инженера по большим данным специалисту по данным будет трудно добиться хороших результатов. Точно так же без опытного Data Scientist организация никогда не будет знать, что делать со своими данными. Таким образом, мы просто не можем упорядочить эти рабочие роли на основе их важности, поскольку, в конце концов, оба этих профиля составляют основу любой успешной команды по науке о данных.
Применение больших данных в поп-культуреМиф № 3: Инженеры по работе с большими данными требуются только в крупных компаниях.
Как мы уже говорили ранее, если ваша организация имеет дело с большими данными, вам нужен инженер по большим данным. Сегодня любая организация, большая или маленькая, имеет терабайты данных о клиентах. Нет ни одной компании, независимо от сферы деятельности, которая не может улучшить свои функции, разобравшись со своими большими данными. По мере того, как инструменты и технологии, связанные с большими данными, становятся дешевле и доступнее, все больше и больше малых и средних предприятий выбирают путь больших данных и назначают инженеров и ученых, занимающихся большими данными, чтобы помочь им оставаться на шаг впереди.

Миф № 4: Инженер по большим данным должен быть опытным программистом.
Инженер по большим данным должен быть не только специалистом по программированию, но и специалистом по управлению данными. Чаще всего вы обнаружите, что инженеры по большим данным работают с библиотекой или фреймворком, который подходит для их случая. Они поставляются готовыми и выполняют большую часть сложного программирования. По-прежнему рекомендуется, чтобы инженер по большим данным имел четкое представление об основных принципах программирования. Это поможет им настроить/модифицировать любой алгоритм/фреймворк/библиотеку в зависимости от их конкретного варианта использования. Кроме того, некоторые знания языка сценариев являются обязательными, поскольку эти инженеры больших данных несут ответственность за получение данных из хранилищ и их очистку, что требует написания сценариев.
Миф №5: Инженеры по работе с большими данными нужны только в технологических компаниях
Сегодня организации используют данные для всего, в том числе для лучшего ориентирования на своих клиентов. Подробное изучение данных о своих клиентах позволяет любой организации разработать успешную маркетинговую кампанию. Инженеры по большим данным требуются организациям как техническим, так и нетехническим. Практически любая организация может стать лучше и эффективнее в своей работе, если у нее будет доступ к нужным данным.
Большие данные: инструменты и технологии, которые необходимо знать
Подведение итогов
На этом мы подошли к концу наших разрушителей мифов на сегодня. Оставайтесь с нами, и мы вернемся с другими такими Разрушителями мифов. Дайте нам знать, если вы столкнулись с такими мифами, которые нужно развеять!
Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.
Изучайте онлайн-курсы по разработке программного обеспечения в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.
