Руководство для начинающих по науке о данных и ее приложениям

Опубликовано: 2018-02-24

Слов «данные», «наука» или «наука о данных» недостаточно, чтобы вызвать у читателей чувство страха или страха. Честно говоря, они слишком симпатичны, чтобы даже отталкивать, не говоря уже о том, чтобы быть ужасными, в отличие от таких слов, как тесселяция, k-средних, k-ближайших соседей, евклидово минимальное остовное дерево и тому подобного — слов, которые вам не нравятся. с которыми вы столкнетесь в своем путешествии по науке о данных.
Хотя «Наука о данных» не внушает страха, она также ничего не объясняет в этой области. Все знают, что такое данные; по крайней мере, в обывательском смысле. Данные — это, по сути, просто необработанные биты информации. Наука, с другой стороны, может использоваться для обозначения любой группы действий, следующих научному методу.

Итак, следуя этой логике, мы можем сделать вывод, что наука о данных — это область, в которой используются научные методы для больших объемов данных. Но для чего? И что такое наука о данных?
Это наша тема для сегодняшней дискуссии. Прочитав эту статью, вы сможете ответить на следующие вопросы:

  • Что такое наука о данных?
  • Каковы различные этапы пайплайна Data Science?
  • Где я могу увидеть Data Science в действии?

Оглавление

Что такое наука о данных?

Википедия, мать всех энциклопедий, определяет науку о данных как область, ориентированную на извлечение знаний и идей из данных с использованием научных методов. Однако это не говорит вам о том, что мы, люди, рождены учеными данных. Как? Давайте посмотрим.
Вы наблюдаете за миром вокруг вас независимо от того, что вы делаете. В каждый момент бодрствования вы собираете детали из своего окружения и загружаете их в свой мозг. Затем вы превращаете эти наблюдения в данные и используете их, чтобы понимать вещи вокруг вас, выясняя значения и делая прогнозы того, что, вероятно, произойдет дальше.

Когда вы опаздываете на работу на час, вы звоните им и сообщаете, что будете работать из дома. Вы используете свои прошлые наблюдения за пробками и остановками на пути, чтобы сделать вывод, что вы, скорее всего, потеряете время, застряв в пробке, чем вы бы выиграли, находясь в офисе. Когда вы входите в свою комнату и видите разбросанные обертки от шоколада, случайный анализ подскажет вам, что кто-то ел ваши шоколадки в ваше отсутствие.
4 главные роли в области аналитики данных, на которые стоит обратить внимание

В любом из упомянутых случаев, если вы делаете эти расчеты и прогнозы в уме, не записывая их, вы нормальный человек. С другой стороны, если вы продолжите и запишете эти точки данных (конечно, в машиночитаемом формате), а затем попытаетесь разработать алгоритм (или процедуры) и компьютерные программы для запуска приложения. Если вывод этой «гипотетической» системы таков: «трафик будет отстойным» или «ваши соседи по комнате съели ваши шоколадки», то бинго! Вы специалист по данным.

Это так же просто (теоретически), как и приведенная выше аналогия. В конце концов, у вас есть данные, процедуры, алгоритмы и инструменты. Вам просто нужно извлечь из него знания. Чтобы сделать это эффективно, вы должны следовать рабочему процессу/конвейеру. Давайте посмотрим, что входит в типичный конвейер обработки данных.

Конвейер науки о данных

Пайплайн науки о данных рассказывает о потоке всего процесса — от получения нужных данных до точных расчетов и прогнозов. Давайте посмотрим на элементы этого пайплайна:

Конвейер науки о данных

Получите ваши данные

По умолчанию это первое, что вам нужно сделать, чтобы практиковать науку о данных — получить данные! Небольшое предупреждение — есть некоторые вещи, которые вы должны учитывать при получении данных. Сначала вы должны определить все свои наборы данных (могут быть из Интернета или внутренних/внешних баз данных). Затем вы должны извлечь данные в пригодный для использования формат (CSV, XML, JSON и т. д.).
Вот лучшие навыки и инструменты, которые нужно освоить, чтобы стать аналитиком данных

Требуются навыки

  • Управление базой данных: либо SQL, либо NoSQL, в зависимости от ваших потребностей и требований.
  • Запросы к этим базам данных
  • Получение неструктурированных данных в виде видео, аудио, текстов, документов и т. д.
  • Распределенное хранилище: Hadoop, Apache Spark или Apache Flink.

Очистка / очистка ваших данных

Очистке данных следует уделять первостепенное значение, потому что окончательный результат вашей системы настолько хорош, насколько хороши данные, которые вы в нее вложили. Очистка относится к удалению аномалий, заполнению пустых/отсутствующих значений, проверке согласованности данных и другим подобным вещам.

Требуются навыки

  • Язык сценариев: Python, R, SAS
  • Инструменты обработки данных: Python Pandas, R
  • Распределенная обработка: Hadoop, MapReduce/Spark

Исследование (исследовательский анализ данных)

Теперь, когда данные чистые, вы начнете понимать, какие шаблоны имеют ваши данные. На этом этапе используются различные типы визуализации и статистического моделирования. По сути, этот этап направлен на то, чтобы извлечь скрытый смысл из наших данных.
В области исследовательского анализа данных происходит много всего. Если вы чувствуете, что это то, что вам понравится, не забудьте прочитать нашу статью о том же.
Чтобы лучше работать на этом этапе, вам нужно, чтобы ваши «паучьи чувства» покалывали. Сходите с ума и замечайте странные закономерности или тенденции — всегда ищите что-то нестандартное. Однако при этом не забывайте о проблеме, которую вы хотите решить. Не выходите за рамки. Исследовательский анализ данных — это искусство, и художник всегда должен помнить об аудитории.

Требуются навыки

  • Библиотеки Python: Numpy, Matplotlib, Pandas, Scipy
  • Библиотеки R: GGplot2, Dplyr
  • Выведенный статистика
  • Визуализация данных
  • Экспериментальная конструкция
Лучшие шаги к освоению науки о данных, поверьте мне, я их пробовал!

Моделирование (машинное обучение)

Это самое интересное. Модели — это просто общие правила в статистическом смысле. Модель машинного обучения — это просто инструмент в вашем наборе инструментов. У вас есть доступ к такому количеству алгоритмов с различными вариантами использования и целями, что простое исследование приведет вас к алгоритму, который соответствует потребностям вашего бизнеса.
После очистки данных и выявления основных функций (на этапе EDA) использование статистической модели в качестве инструмента прогнозирования улучшит ваше общее принятие решений. Вместо того, чтобы оглядываться назад, чтобы увидеть «что произошло?», прогнозная аналитика стремится ответить на вопрос «что дальше?» и «как мы должны это сделать?».

Требуются навыки

  • Машинное обучение: алгоритмы обучения с учителем / без учителя / с подкреплением
  • Методы оценки
  • Библиотеки машинного обучения: Python (Sci-kit Learn) / R (CARET)
  • Линейная алгебра и многомерное исчисление

Интерпретация (История данных)

Это одна из самых сложных задач в процессе разработки. Здесь вы стремитесь объяснить свои выводы посредством общения. В конце концов, все дело в установлении связи с вашей аудиторией, и именно это делает рассказывание историй ключевым моментом.
Ваши выводы вряд ли будут полезны, если вы не сможете донести их значение до нетехнических специалистов в вашем офисе или даже до своего начальника, если уж на то пошло. Хорошей практикой, чтобы взять ситуацию под контроль, было бы много репетировать. Попробуйте сформулировать историю о своих открытиях и рассказать ее непрофессионалу (желательно ребенку). Если они это поймут, то поймет и ваш босс. А если нет, ну, вы знаете, что сказал Эйнштейн:

«Если вы не можете объяснить это шестилетнему ребенку, вы сами этого не понимаете».

Этот этап направлен на получение истинных бизнес-идей. Ваша главная задача здесь — визуализировать свои выводы и отобразить их в красивом и понятном виде.

Требуются навыки

  • Знание предметной области вашего бизнеса
  • Инструменты визуализации данных: Tableau, D3.JS, Matplotlib, GGplot, Seaborn и др.
  • Коммуникация: Навыки презентации – как устные, так и письменные.

Это не конец нашего конвейера. Если вы действительно хотите извлечь максимальную пользу из своей системы, вам необходимо убедиться, что вы обновляете свою модель по мере необходимости. В науке о данных один размер не подходит всем, и вам нужно будет постоянно пересматривать и обновлять свою модель.
Манипуляции с данными: как распознать ложь в данных?

Приложения науки о данных

Как уже ясно, наука о данных — это широкий термин, как и его приложения. Почти каждое приложение на вашем смартфоне использует данные. Таким образом, будет справедливо сказать, что практически невозможно перечислить все приложения науки о данных из-за ее абсолютной вездесущности.
Давайте посмотрим на широкие области, которые используют магию науки о данных:

1. Интернет-поиск

Как Google возвращает такие *точные* результаты поиска в течение доли секунды? Наука о данных!

2. Системы рекомендаций

От «людей, которых вы, возможно, знаете» на Facebook или LinkedIn, до «людям, купившим этот продукт, также понравились…» на Amazon, до ваших ежедневных плейлистов на Spotify и даже «предлагаемых видео» на YouTube — все основано на науке о данных.

3. Распознавание изображений/речь/символов

Это в значительной степени само собой разумеется. Как вы думаете, что стоит за Siri, если не наука о данных? Кроме того, как вы думаете, как Facebook узнает вашего друга, когда вы загружаете фото с ним? Это не магия; это наука – наука о данных.

4. Игры

EA Sports, Sony, Nintendo, Zynga и другие гиганты в этой области взяли на себя обязательство поднять ваш игровой опыт на совершенно новый уровень. Теперь игры разрабатываются и улучшаются с использованием алгоритмов машинного обучения, поэтому их можно обновлять по мере перехода на более высокие уровни.

5. Сайты сравнения цен

Эти веб-сайты подпитываются данными. Для них чем больше, тем лучше. Данные извлекаются с соответствующих веб-сайтов с использованием API. PriceGrabber, PriceRunner, Junglee, Shopzilla — вот некоторые из таких сайтов.

Начните заниматься наукой о данных с помощью Python

Завершение…

Если вы разбираетесь в технологиях и немного разбираетесь в данных, то наука о данных — ваше истинное призвание. Лучшая часть? Есть так много вещей, которые можно сделать и изучить в области науки о данных и вокруг нее. Это общий термин, который охватывает ряд инструментов и технологий, освоение любого из которых сделает вас активом на постоянно растущем рынке Data Science. upGrad предлагает различные курсы по науке о данных, чтобы вы всегда были на шаг впереди. Не забудьте проверить их!

Каковы масштабы науки о данных в различных отраслях промышленности Индии?

Наука о данных оказывает огромное влияние на многие отрасли промышленности Индии. Каждая из перечисленных ниже отраслей в значительной степени зависит от науки о данных и предоставляет отличные перспективы для специалиста по обработке и анализу данных.

1. Здравоохранение. Это универсальное слово для всего, что связано с медициной, пациентами и болезнями. Наука о данных начала играть решающую роль в этой отрасли, начиная от более эффективной диагностики и заканчивая медицинскими исследованиями.
2. Банковское дело и страхование — оценка рисков и обнаружение мошенничества. Банки собирают профили клиентов, предыдущие заявки и расходы, а также множество других личных данных, особенно по кредитам и страхованию. Здесь на помощь приходит наука о данных, поскольку она упрощает процесс и проводит различие между теми, кто подвергается низкому риску, и теми, кто подвергается высокому риску.
3. Маркетинг и реклама. Имея под рукой все данные, вы можете проанализировать и определить, кто должен быть вашей целевой аудиторией, чтобы эффективно продавать свои услуги или продукты.
4. Авиационная отрасль. Наука о данных используется в авиационном секторе для анализа траекторий и маршрутов воздушных судов.

Как специалисты по данным могут использовать свои навыки для решения бизнес-задач?

В зависимости от требований своей компании специалист по данным должен использовать другую стратегию для решения бизнес-задачи. Используя гибридные модели математики и информатики, специалисты по обработке и анализу данных извлекают из данных полезную информацию и помогают принимать более обоснованные решения. Применение науки о данных для решения реальных бизнес-задач включает в себя повышение качества продукции, автоматизацию размещения цифровой рекламы, увеличение доходов за счет прогнозирования спроса и возможностей роста, автоматизацию процессов найма, установление цен на динамичном рынке и другие варианты использования.

Каково будущее науки о данных?

Будущее науки о данных очень захватывающее с широким спектром применения практически во всех областях. Некоторые из лучших цифровых компаний, таких как Google, Amazon, Facebook и т. д., вложили значительные средства в данные. Развитие новых технологий в сочетании с текущими исследованиями приведет к инновационным приложениям и вариантам использования в будущем. С точки зрения карьеры наука о данных имеет большие перспективы.