Изучение истории бизнес-аналитики
Опубликовано: 2022-03-11Что такое бизнес-аналитика?
Бизнес-аналитика (BI), термин, который в настоящее время неразрывно связан с информационными технологиями, развивается уже более 150 лет. Хотя его происхождение предшествовало изобретению компьютеров, только после того, как они получили широкое распространение, актуальность BI возросла, и отныне его развитие стало сопровождаться эволюцией компьютеров и баз данных.
BI с помощью ручки и бумаги
Первое использование термина «бизнес-разведка» широко приписывается Ричарду Миллеру Девенсу в его книге «Циклопадия коммерческих и деловых анекдотов», впервые опубликованной в 1865 году. Он использовал его, чтобы описать, как сэр Генри Фернезе, успешный банкир, получил прибыль. от информации, активно собирая ее и действуя на ее основе перед своими конкурентами. Это указывало на тот факт, что для разработки бизнес-стратегии было надежнее использовать данные и эмпирические данные, а не интуицию. Идея была поддержана другими, которые видели ценность в информации.
В последнее десятилетие 1800-х годов Фредерик Тейлор представил первую формализованную систему бизнес-аналитики в Соединенных Штатах. Его система научного управления началась с исследований времени, в которых анализировались методы производства и движения тела рабочих, чтобы найти более высокую эффективность, которая стимулировала промышленное производство.
В конце концов Тейлор стал консультантом Генри Форда, который в начале 1900-х годов начал измерять время, затрачиваемое каждым компонентом его Ford Model T на сборочную линию. Его работа и его успех произвели революцию в обрабатывающей промышленности во всем мире. Тем не менее, он по-прежнему использовал для этого ручку и бумагу.
Бизнес-аналитика получает импульс от компьютеров
Электронные компьютеры находились в зачаточном состоянии в 1930-х годах, но были быстро разработаны во время Второй мировой войны в рамках усилий союзников по взлому немецких кодов.
Вплоть до 1950-х годов компьютеры в основном полагались на перфокарты или перфоленты для хранения данных. Это были огромные стопки карточек с крошечными отверстиями в них, в которых хранилась информация для обработки компьютерами. Однако в 1956 году IBM изобрела первый жесткий диск, позволяющий хранить большие объемы информации с большей гибкостью доступа.
Вскоре после этого, в 1958 году, исследователь IBM Ханс Петер Лун опубликовал историческую статью под названием «Система бизнес-аналитики». Он теоретизировал о потенциале системы «выборочного распространения» документов по «точкам действий» на основе «профилей интересов». Его работа имеет огромное значение и по сей день, поскольку он предсказал несколько тенденций бизнес-аналитики, которые в настоящее время являются передовыми, например, способность информационных систем обучаться и прогнозировать на основе интересов пользователей. Сегодня мы называем это машинным обучением. Лун широко известен как отец бизнес-аналитики.
Несмотря на то, что концепция, предложенная Луном, привлекла внимание нескольких заинтересованных сторон, в то время эта идея считалась слишком дорогой, чтобы иметь какое-либо практическое применение. Чтобы сделать это решение экономически жизнеспособным, требовался дальнейший технологический прогресс.
В следующем десятилетии использование компьютеров резко возросло, даже если учесть, что каждый компьютер представлял собой гигантскую машину, занимавшую весь этаж здания, и для правильной работы которой должны были управляться несколько высококвалифицированных инженеров. Эксперты снова взялись за идею использования компьютеров для извлечения выводов из данных, но главная проблема заключалась в том, что не было централизованного метода, позволяющего собрать все данные в одном месте. Данные сами по себе не могут генерировать никаких идей. Для решения этой задачи были разработаны первые системы управления базами данных. Позже их стали называть просто базами данных. Это первое поколение позволяло осуществлять первый поиск в базе данных с использованием стратегии двоичных деревьев. Эта стратегия, хотя и решала в свое время несколько проблем, сегодня считается слишком тяжелой и неэффективной. Тем не менее, для компаний, которые могли себе это позволить, этот новый инструмент представлял свою ценность, поскольку его использовали, чтобы окончательно сделать выводы из доступных данных.
Технологии BI совершенствуются: на поле выходят крупные игроки
В 1970 году Эдгар Кодд из IBM опубликовал статью под названием «Реляционная модель данных для больших общих банков данных». Это проложило путь к реляционным базам данных следующего поколения, предоставив гораздо более широкие возможности для хранения данных и управления ими. Однако IBM сделала странный шаг, чтобы воздержаться от реализации проекта Кодда, чтобы сохранить доход от своих нынешних систем баз данных. Только после того, как конкуренты начали их внедрять, IBM последовала их примеру.
К этому времени рынка было достаточно, чтобы появились первые поставщики бизнес-аналитики. Среди них были SAP, Siebel и JD Edwards. В то время они назывались системами поддержки принятия решений (СППР).
Большой проблемой на тот момент было то, что эти базы данных страдали от «бункерных» проблем. Из-за того, что они были очень одномерными, гибкость их использования была очень ограниченной. Даже такие простые проблемы, как одна база данных, кодирующая города как «Огайо, Нью-Джерси и Нью-Йорк», в то время как другая использует «Огайо, Нью-Джерси и Нью-Йорк», делала перекрестные ссылки сложной задачей.
Тем не менее, становилось все больше и больше успешных случаев прибыльного использования данных. Один из самых известных в то время пришел от Нильсена. Используемый для измерения аудитории маркетинговый инструмент, известный как рейтинг Нильсена, использовался для измерения того, сколько людей смотрело конкретное телешоу в любое время, с помощью устройства под названием Audimeter, которое подключалось к телевизору и записывало, какой канал наблюдался.
Рейтинги Nielsen считались наиболее просматриваемыми национальными рейтингами в телеиндустрии. Однако четыре раза в году бывали «черные недели» — недели, когда рейтинги Nielsen не публиковались. Поскольку не было надежного способа измерить рейтинги в эти «черные недели», телеканалы заполнили свои программы повторами.
И индустрия, и аудитория уже привыкли к «черным неделям», но они закончились в сентябре 1973 года. Компания Nielsen представила свой мгновенный аудиометр Storage Instantaneous Audimeter (SIA), который соединил 1200 домохозяйств напрямую с компьютером бизнес-аналитики компании во Флориде. Он мог составить национальный рейтинг всего за 36 часов, что намного меньше, чем одна-две недели, которые требовались для более старой системы компании. Национальные рейтинги будут доступны каждый день недели, каждую неделю года. В «черных неделях» больше не было необходимости, и данные стали гораздо доступнее.
Ближе к концу 70-х Ларри Эллисон и двое его друзей выпустили первую коммерческую версию базы данных Oracle. Это была первая настоящая система управления реляционными базами данных на рынке, заменившая использовавшиеся до того идеи иерархических баз данных и сетевых баз данных более надежной структурой, которая обеспечивала гораздо более гибкий поиск. Эта технология будет определять историю и тенденции BI в ближайшие десятилетия.
Значение BI растет: нам нужно больше места!
Более низкие цены на дисковое пространство и улучшенные базы данных позволили использовать решения для бизнес-аналитики следующего поколения. Ральф Кимбалл и Билл Инмон предложили две разные, но похожие стратегии решения проблемы хранения всех данных бизнеса в одном месте для возможности их анализа. Это были хранилища данных (ХД). Многие считают Инмона отцом хранилища данных.
Хранилища данных — это базы данных, предназначенные для агрегирования большого количества данных из других источников данных (в основном из других баз данных), что позволяет проводить гораздо более глубокий анализ с возможностью перекрестных ссылок на эти разные источники. Однако это было все еще слишком технично и дорого. Отчеты должны были запускаться и поддерживаться множеством дорогостоящих технических специалистов в области ИТ.
Высшее руководство в то время жило за счет решений BI, таких как Crystal Reports и Microstrategy. И, конечно же, Microsoft Excel (выпущен в 1985 году). Бизнес-аналитика теперь стала неотъемлемой частью инструментов, доступных для процесса принятия решений.
В 1989 году Говард Дрезднер из Gartner Group способствовал популяризации термина «бизнес-аналитика», используя его как общий термин для описания «концепций и методов улучшения принятия бизнес-решений с помощью систем поддержки, основанных на фактах».
Бизнес-аналитика 1.0
В 90-е годы стоимость хранилищ данных снизилась, так как на рынок вышло все больше конкурентов и больше ИТ-специалистов познакомились с технологией. Это был период «Бизнес-аналитики 1.0».
Теперь данные стали общедоступными для корпоративного персонала в целом, а не только для высшего руководства. Однако проблема на тот момент заключалась в том, что задавать новые вопросы все равно было очень дорого. Как только вопрос был «сконструирован», ответ был бы доступен быстро, но только для этого вопроса.
Чтобы сократить эти усилия, были разработаны некоторые новые инструменты и «строительные блоки», ускоряющие обработку различных запросов:
- ETL (извлечение, преобразование и загрузка) представлял собой набор инструментов, похожих на язык программирования, которые упрощали проектирование потока данных в хранилище данных.
- OLAP (онлайн-аналитическая обработка) помогла создать различные варианты визуализации запрошенных данных, позволив аналитикам делать более точные выводы из имеющейся информации.
По сей день инструменты ETL и OLAP по-прежнему являются важной частью решений для бизнес-аналитики.
Это был также период, когда системы планирования ресурсов предприятия (ERP) стали популярными. Это огромные программные платформы для управления, которые интегрируют приложения для управления и автоматизации аспектов бизнеса. Они также предоставляли структурированные данные для хранилищ данных и в последующие годы стали сердцем каждой крупной компании в мире.

В 1995 году Microsoft выпустила Windows 95, первую «удобную» операционную систему, и компьютеры стали обычным предметом домашнего обихода. Это окажет глубокое влияние на то, как люди будут производить и потреблять данные в последующие десятилетия.
Разрушение BI: взрыв данных в новом тысячелетии
К 2000 году решения для бизнес-аналитики уже были признаны обязательными для всех средних и крупных предприятий. Теперь это широко считалось требованием, чтобы оставаться конкурентоспособным.
С точки зрения поставщиков решений, изобилие решений начало собираться в руках нескольких крупных конкурентов, таких как IBM, Microsoft, SAP и Oracle.
В этот период появилось несколько новых концепций. Сложность поддержания своих хранилищ данных в актуальном состоянии заставила некоторые компании переосмыслить свой подход, превратив свои ХД в «единственный источник правды». Для уже существующих данных другие программы будут использовать информацию, предоставленную ХД, вместо своей собственной, что устраняет большинство проблем несовместимости данных. Это было легче сказать, чем сделать, поскольку возникло множество технических проблем. Однако эта концепция оказалась настолько полезной, что в последующие годы доступные на рынке решения адаптировались для использования этой стратегии.
По мере того, как данных становилось все больше и больше, а инструменты BI доказывали свою полезность, усилия разработчиков были направлены на увеличение скорости, с которой информация стала бы доступной, и на снижение сложности доступа к ней. Инструменты стали проще в использовании, и люди, не являющиеся техническими специалистами, теперь могут собирать данные и получать информацию самостоятельно, без помощи технической поддержки.
В начале 2000-х бум платформ социальных сетей проложил путь к свободному доступу общественного мнения в Интернете, и заинтересованные стороны могли собирать (или «майнинг») данные и анализировать их. К 2005 году растущая взаимосвязанность делового мира означала, что компаниям требовалась информация в режиме реального времени, где данные о событиях могли быть включены в хранилища данных по мере их возникновения в режиме реального времени.
В этом году был представлен Google Analytics, предоставляющий пользователям бесплатный способ анализа данных своего веб-сайта. Это также год, когда впервые был использован термин « большие данные ». Роджер Магулас из O'Reilly Media использовал его для обозначения «большого набора данных, которыми практически невозможно управлять и обрабатывать с помощью традиционных инструментов бизнес-аналитики».
Чтобы справиться с дополнительным пространством для хранения и вычислительной мощностью, необходимой для управления этим экспоненциально растущим объемом данных, компании начали искать другие решения. О создании больших и быстрых компьютеров не могло быть и речи, поэтому использование нескольких машин одновременно стало лучшим вариантом. Это были семена облачных вычислений .
Современное использование BI
За последние 10 лет большие данные, облачные вычисления и наука о данных стали известны почти всем. В настоящее время трудно признать, какие новые достижения за последние годы оказали наибольшее влияние. Однако есть несколько интересных случаев, продемонстрировавших растущую мощь современных аналитических инструментов.
Реклама, файлы cookie и AdTech
В 2012 году The New York Times опубликовала статью, в которой рассказывалось, как Target случайно обнаружила беременность старшеклассницы раньше своих родителей. С помощью аналитики они определили 25 продуктов, которые при совместной покупке указывают на то, что женщина, вероятно, беременна. Ценность этой информации заключалась в том, что Target могла отправлять купоны беременной женщине в тот период, когда покупательские привычки женщины могли измениться.
Разъяренный отец вошел в Target за пределами Миннеаполиса и потребовал встречи с менеджером. Он жаловался на то, что ее дочь получает купоны на детскую одежду, хотя она еще учится в старшей школе. Менеджер глубоко извинился от имени компании, но через несколько дней отец перезвонил, чтобы извиниться: «Оказывается, в моем доме были какие-то действия, о которых я не знал. Она должна родить в августе. Я должен извиниться перед тобой.
Этот анекдотический пример показывает современную мощь анализа данных.
Политика
Стратегия предвыборной кампании Обамы во многом основывалась на аналитике. Многие специалисты указывают на это как на одну из главных причин его успеха. Стратегия, разработанная руководителем кампании Джимом Мессиной, была сосредоточена на сборе данных об избирателях и использовании их для обеспечения того, чтобы они 1) зарегистрировались для голосования, 2) их убедили проголосовать за Обаму и 3) пришли голосовать в день выборов. Около 100 аналитиков данных приняли участие в работе, используя среду, работающую на HP Vertica и написанную на R и Stata.
Для достижения этих целей было применено несколько инициатив, одной из которых была Airwolf. Созданный для интеграции усилий полевых и цифровых групп, он гарантировал, что после того, как полевая группа свяжется с избирателем в рамках кампании с обходом, его интересы будут записаны, так что они будут получать частые электронные письма от местных организаторов, специально предназначенные для этого. к любимым вопросам кампании каждого.
С помощью правильных инструментов и данных аналитики могли быстро и легко ответить практически на любой вопрос, независимо от того, откуда изначально были получены данные. С тех пор успех кампании Обамы сделал среды для анализа больших данных стандартным требованием для каждой кампании.
Наука
Проект «Геном человека» был завершен в 2003 году, но многие вопросы остались без ответа. Несмотря на картографирование всей последовательности пар нуклеотидов, составляющих ДНК человека, полное понимание того, как работает генетика человека, требовало более интенсивных исследований, и это было идеальным приложением для больших данных. Типичный геном человека содержит более 20 000 генов, каждый из которых состоит из миллионов пар оснований. Простое картирование генома требует сотни гигабайт данных, а секвенирование нескольких геномов и отслеживание взаимодействия генов многократно увеличивает это число — в некоторых случаях сотни петабайт.
Применив аналитику в своем исследовании, опубликованном в 2016 году, ученые Хайфского университета смогли наблюдать то, что называют «социальным характером» генов. Что ученые давно хотели выяснить, так это внутреннюю работу сложных генетических эффектов, которые участвуют в создании сложных заболеваний. Эта цель была особенно трудной, поскольку генетические проявления определенных заболеваний обычно возникают в результате комбинации нескольких генетических маркеров, взаимодействующих друг с другом. Таким образом, исследователям придется не только прочесать всю генетическую последовательность, но и отследить взаимодействие между несколькими различными генами.
Несмотря на то, что еще предстоит проанализировать множество данных, проложен путь к пониманию и излечению огромного количества генетических дефектов, больших и малых.
Дорога впереди
Сейчас мы подошли к тому моменту, когда Facebook сможет распознавать ваше лицо на фотографиях, когда Google может предсказать, какая реклама лучше всего подойдет вашему профилю, а Netflix может подсказать, какие шоу посмотреть. Это время, когда вы можете поговорить со своим телефоном, а не только с кем-то на другой стороне телефонной линии. Способность обрабатывать и обрабатывать огромные объемы данных была первоначальным шагом к пониманию того, как появились эти чудеса.
Большие данные по-прежнему являются растущей тенденцией. Примерно 90% доступных данных было создано за последние два года. На конференции Techonomy в 2010 году Эрик Шмидт заявил, что «было 5 экзабайтов информации, созданной всем миром между зарей цивилизации и 2003 годом. Теперь такое же количество создается каждые два дня».
Обработка такого огромного количества данных по-прежнему сопряжена со многими проблемами. Качество данных, одна из первых и старейших головных болей бизнес-аналитики, по-прежнему остается сложной областью. Аналитика, набор навыков, необходимых для понимания огромного количества данных, которые собирают компании, также пользуются большим спросом. В настоящее время существует множество разновидностей аналитики: описательная аналитика, прогнозная аналитика, предписывающая аналитика, потоковая аналитика, автоматизированная аналитика и т. д. Аналитика использует несколько передовых технологий для извлечения информации из данных, таких как искусственный интеллект, машинное обучение и множество статистических данных. модели. Наконец-то настало время, когда круто быть математиком.
Инструменты BI теперь часто разрабатываются с учетом конкретной отрасли, будь то здравоохранение, правоохранительные органы и т. д. Теперь они работают на нескольких устройствах и используют несколько инструментов визуализации, позволяя любому применять рассуждения к данным через интерактивные визуальные интерфейсы. Мобильный BI стал реальностью.
Объединив сильные стороны больших данных, машинного обучения и аналитики, ваша жизнь в будущем может сильно измениться. Возможно, вам больше не нужно ходить в продуктовый магазин — ваш холодильник закажет то, что вам, скорее всего, понадобится, исходя из ваших пищевых привычек. Возможно, вы не будете звонить своему врачу, чтобы сказать, что больны, потому что они позвонят вам еще до того, как вы почувствуете первые симптомы.
Человечество сейчас живет в век информации, и бизнес-аналитика является важной особенностью нашего времени, помогая нам разобраться во всем этом. Бизнес-аналитика теперь даже является образовательной программой во многих университетах. История бизнес-аналитики началась сравнительно недавно, но день ото дня она становится все более насыщенной. Лучшие дни BI еще впереди.