Основные основы статистики для науки о данных

Опубликовано: 2018-02-27

Если вы начинающий специалист по данным, знакомы с основными понятиями статистики для науки о данных . Вам не нужно быть доктором философии. в статистике, чтобы преуспеть в науке о данных, но вам нужно знать достаточно, чтобы, возможно, описать пару основных алгоритмов за званым обедом.

В дальнейшем мы познакомим вас с некоторыми предварительными требованиями по основам статистики для науки о данных .

Если вы только что вошли в мир науки о данных, вы могли встретить людей, утверждающих, что «математика» является обязательным условием для науки о данных. Честно говоря, это не математика как таковая, но вы должны изучить статистику для науки о данных .

В наши дни такие библиотеки, как Tensorflow, скрывают от пользователя почти всю сложную математику. Это хорошо для нас, но все же полезно иметь общее представление об основных принципах, на которых работают эти вещи. Хорошее понимание аналитики данных может помочь вам лучше понять все.

Эта статья поможет вам вооружиться некоторыми теоремами, концепциями и уравнениями, которые не только помогут вам как специалисту по данным, но и заставят вас звучать так, как будто вы успешно прошли курс Advanced Statistical Computing.

Оглавление

Статистические распределения

Это, вероятно, одна из самых важных вещей, которые вам нужно знать, когда вы вооружаетесь необходимыми параметрами Statistics for Data Science .

  • Распределение Пуассона

    Статистика для науки о данных Распределение Пуассона является одним из наиболее важных инструментов в статистике. Он используется для расчета количества событий, которые могут произойти в интервале времени. Например, сколько телефонных звонков может произойти в любой конкретный период времени.
    Забавный символ в этом уравнении (λ) известен как лямбда . Он используется для представления среднего количества событий, происходящих за интервал времени.

    Еще один хороший пример, в котором находит применение распределение Пуассона, — это расчет производственных потерь. Предположим, что машина производит листы металла и имеет X дефектов на ярд. Предположим, например, что частота ошибок составляет 2 на ярд листа — тогда, используя распределение Пуассона, мы можем рассчитать вероятность того, что на ярд произойдут ровно две ошибки.

  • Биномиальное распределение

    Статистика для науки о данных
    Если вы когда-либо сталкивались с базовой статистикой, возможно, вы сталкивались с биномиальным распределением.

    Допустим, у вас был эксперимент с трижды подбрасыванием беспристрастной монеты.
    Можете ли вы определить вероятность того, что монета выпадет орлом при всех трех бросках?

    Во-первых, из основ комбинаторики мы можем узнать, что существует восемь возможных комбинаций результатов при трехкратном подбрасывании монеты. Теперь мы можем построить вероятности выпадения орла 0, 1, 2 или 3. Этот график даст нам требуемое биномиальное распределение для этой задачи. На графике вы заметите, что он очень похож на типичную кривую нормального распределения, теоретически они очень похожи. В то время как биномиальное распределение предназначено для дискретных значений (ограниченное количество подбрасываний монеты), нормальное распределение заботится о непрерывных значениях.

    Существует ряд дистрибутивов, отличных от тех, о которых мы говорили выше. Если вы заинтересованы в этом, а также хотите лучше вооружиться необходимой статистикой для науки о данных , мы предлагаем вам также прочитать о следующих дистрибутивах:

  • Геометрическое распределение
  • Гипергеометрическое распределение
  • Дискретное равномерное распределение
  • Отрицательное биномиальное распределение
Исследовательский анализ данных и его важность для вашего бизнеса

Некоторые теоремы и алгоритмы

Когда мы говорим о статистике для науки о данных , мы просто не можем игнорировать основные теоремы и алгоритмы, лежащие в основе многих библиотек, над которыми вы будете работать как специалист по данным. Существует ряд алгоритмов классификации, алгоритмов кластеризации, алгоритмов нейронных сетей, деревьев решений и так далее и тому подобное. В этом разделе мы поговорим о нескольких основных теоремах, которые вам следует знать — это также поможет вам с легкостью понять другие сложные теоремы.

Теорема Байеса

Это одна из распространенных теорем, с которой вы столкнетесь, если у вас есть формальное образование в области компьютерных наук. За прошедшие годы было выпущено множество книг, в которых теорема Байеса и ее концепции чрезмерно подробно обсуждаются.

Теорема Байеса значительно упрощает сложные понятия. Он объясняет множество статистических фактов с помощью нескольких простых переменных. Он поддерживает концепцию « условной вероятности » (например, если произошло А, оно сыграло роль в возникновении Б). Самое примечательное в этом то, что вы можете предсказать вероятность любой гипотезы, используя только заданные точки данных.

Байес может помочь вам предсказать вероятность того, что у кого-то будет рак, просто зная его возраст. Он также может сообщить вам, является ли электронное письмо спамом, основываясь на количестве слов. Эта теорема по существу используется для устранения неопределенности.

Забавный факт: теорема Байеса помогла предсказать местонахождение подводных лодок, а также предсказать конфигурацию машины Enigma для перевода немецких кодов во время Второй мировой войны. Даже в современной науке о данных Байес находит широкое применение во многих алгоритмах.
Что такое хранилище данных и интеллектуальный анализ данных

Алгоритм K-ближайшего соседа

Статистика для науки о данных
Это очень простой алгоритм как с точки зрения понимания, так и с точки зрения реализации. Настолько, что его называют «ленивым алгоритмом». Его простота заключается в том, что он основан на логических выводах, а не на каких-либо фундаментальных принципах статистики как таковой. С точки зрения непрофессионала, этот алгоритм ищет группы, наиболее близкие друг к другу.

K-NN использует концепцию евклидова расстояния. Он ищет локальные группы внутри и вокруг указанного количества фокусных точек. Это число представлено буквой «k». Существует множество подходов к выяснению того, насколько большим должно быть значение «k», поскольку это значение определяется пользователем.

Эта концепция отлично подходит для кластеризации функций, базовой сегментации рынка и поиска выбросов из группы записей данных. Большинство современных языков программирования реализуют алгоритм K-NN всего в две строки кода.

Бэггинг (агрегация Bootstrap)

Бэггинг, по сути, относится к созданию более чем одной модели одного алгоритма — например, дерева решений. Каждая из моделей обучается на разных примерах данных (это называется начальной загрузкой).

Поэтому каждое дерево решений составляется с использованием разных выборочных данных — это решает проблему подгонки к размеру выборки. Такое группирование деревьев решений существенно помогает уменьшить общую ошибку, поскольку общая дисперсия уменьшается с каждым добавленным новым деревом. Набор таких деревьев решений называется случайным лесом.

Начните заниматься наукой о данных с помощью Python

Анализ ROC-кривой

Статистика для науки о данных
Термин ROC означает рабочую характеристику приемника. Кривая анализа ROC находит широкое применение в науке о данных. Он предсказывает, насколько хорошо тест, вероятно, будет работать, измеряя его общую чувствительность по сравнению с частотой выпадения. ROC-анализ чрезвычайно важен при определении жизнеспособности любой модели.

Как это работает?

Ваша модель машинного обучения может давать вам неточные прогнозы. Некоторые из них связаны с тем, что определенное значение должно было быть «истинным», но вместо этого установлено «ложное» или наоборот.

Какова тогда вероятность того, что вы правы?

Используя кривую ROC, вы можете увидеть, насколько точен ваш прогноз. С помощью двух разных притч вы также можете выяснить, где разместить пороговое значение. Порог — это то место, где вы решаете, является ли бинарная классификация положительной или отрицательной — истинной или ложной.

По мере того, как две притчи становятся ближе друг к другу, площадь под кривой будет стремиться к нулю. По сути, это означает, что ваша модель имеет тенденцию к неточности. Чем больше площадь, тем выше точность вашей модели. Это один из первых тестов, используемых при тестировании любого моделирования, поскольку он помогает обнаруживать проблемы на ранней стадии, определяя, верна ли модель.

Реальный пример кривых ROC . Они используются для графического изображения связи/компромисса между клинической чувствительностью и специфичностью для отсечки для конкретного теста или комбинации тестов. В дополнение к этому, площадь под кривой ROC также дает четкое представление о преимуществах использования упомянутых выше тестов. Следовательно, кривые ROC находят широкое применение в биохимии для выбора подходящего порога. В идеале наилучшее отсечение — это то, которое имеет наименьший процент ложноположительных результатов вместе с самым высоким показателем истинно положительных результатов.

Как перейти на аналитику данных?

Важность статистики в науке о данных

Из приведенного выше обсуждения теперь, когда вы знакомы с основными понятиями статистики и основами статистики, давайте поговорим о важности изучения статистики для науки о данных. Важнейшие инструменты и технологии для организации и поиска глубокого понимания данных, для анализа и количественной оценки данных предоставляются статистикой для аналитики данных.

Мы предоставили вам обзор основных понятий статистики и влияния статистики на исследование, анализ, моделирование и представление данных. Мы также указываем на проблему, если это несоответствие, пренебрегая основами статистики. Если вы заинтересованы в том, чтобы присоединиться к самой быстрорастущей отрасли, зайдите прямо на наш веб-сайт UpGrad, чтобы следовать нашему учебному пособию по статистике для науки о данных, поскольку мы предлагаем как онлайн, так и оффлайн курсы в одном и том же. Как только вы освоите хотя бы основы статистики и основы статистики, вы будете готовы к работе.

В заключение…
Приведенный выше список тем ни в коем случае не является исчерпывающим списком всего, что вам нужно знать о статистике. Этот список предназначен только для того, чтобы дать вам представление о том, с чем вы можете столкнуться на пути к науке о данных, и как вы можете к этому подготовиться.

В целом, эта статья знакомит с некоторыми из основных концепций статистики для науки о данных . Глубокое понимание понятий, объясняемых вместе, поможет вам легко понять другие понятия. Если вы хотите узнать больше и освоить науку о данных, найдите наши лучшие онлайн-курсы по науке о данных.

Какова важность статистики для науки о данных?

Статистика предоставляет методы и инструменты для определения структуры больших данных, а также дает отдельным лицам и организациям более глубокое понимание реалий, выявленных их данными, с использованием надлежащих статистических методов, которые обеспечивают классификацию и организацию, помогают рассчитать распределение вероятности и оценку, и находить структуру в данных, выявляя аномалии и тенденции. Статистика также помогает в визуализации данных и моделировании с использованием графиков и сетей. Это помогает идентифицировать кластеры данных или другие структуры, на которые влияют переменные, и помогает уменьшить количество допущений в модели, тем самым делая ее более точной и полезной.

Каковы ключевые фундаментальные концепции статистики, необходимые для науки о данных?

Основные понятия статистики являются обязательными для науки о данных. Вот некоторые из ключевых концепций, которые помогут вам начать свое путешествие по науке о данных:

1. Вероятность: это формирует основу науки о данных. Теория вероятностей весьма полезна при формулировании предсказаний. Данные — это основа всех вероятностей и статистики.
2. Выборка: выборка данных — это метод статистического анализа, который включает в себя выбор, обработку и анализ репрезентативной выборки точек данных для выявления закономерностей и тенденций в более крупном наборе данных.
3. Тенденция и распределение данных. Распределение данных является решающим фактором. Значение хорошо известного распределения, такого как нормальное распределение, огромно. В результате определение распределения и асимметрии данных является критически важной концепцией.
4. Проверка гипотез. Проверка гипотез определяет ситуации, в которых действия должны быть предприняты или не предприняты в зависимости от ожидаемых результатов.
5. Вариации: это относится к искажению, ошибке и смещению данных.
6. Регрессия. Это имеет решающее значение для науки о данных, поскольку помогает понять существующие решения, а также открыть новые инновации.

Как статистика используется в науке о данных?

Специалисты по данным используют статистику, чтобы помочь компаниям принимать более обоснованные решения о продуктах, разрабатывать и интерпретировать испытания, определять факторы, влияющие на продажи, прогнозировать тенденции и модели продаж. Визуальное представление данных и производительности алгоритма помогает находить выбросы, конкретные тривиальные закономерности и сводку показателей.