Как большие данные и машинное обучение объединяются против рака

Опубликовано: 2018-01-09

Рак — это не одна болезнь. Болезней много. Давайте разберемся в причине рака на простом примере. Если вы сделаете ксерокопию документа, из-за некоторых проблем на ней появятся другие точки или пятна, даже если их нет в исходной копии. Точно так же в процессах репликации генов непреднамеренно возникают ошибки. Большую часть времени гены с ошибками не смогут поддерживаться и в конечном итоге погибнут.

В некоторых редких случаях мутировавший ген с ошибками выживает и бесконтрольно воспроизводится в дальнейшем. Неконтролируемая репликация мутировавших генов является основной причиной рака. Эта мутация может произойти в любом из двадцати тысяч генов нашего тела. Изменчивость любого одного или комбинации генов делает рак серьезной болезнью, которую необходимо победить. Чтобы искоренить рак, нам нужны методы, позволяющие уничтожать клетки-изгои, не нанося вреда функциональным клеткам организма; что делает его вдвойне трудно победить.

Оглавление

Рак и его сложность

Рак — это болезнь с длинным хвостом распространения. Распределение с длинным хвостом означает, что существуют различные причины возникновения этого состояния, и нет единого решения для его устранения. Есть заболевания, которые поражают большой процент населения, но имеют единственную причину возникновения. Например, возьмем холеру. Употребление пищи или питьевой воды, зараженных бактерией Vibrio Cholerae, является причиной холеры. Холера может возникнуть только из-за холерного вибриона, другой причины нет. Как только мы узнаем единственную причину болезни, победить ее относительно легко.

Большие данные и машинное обучение вместе против рака Блог UpGrad
Что делать, если условие возникает из-за нескольких причин? Мутация может произойти в любом из двадцати тысяч генов нашего тела. Не только это, но мы также должны рассмотреть их комбинации. Рак может возникнуть не только из-за случайной мутации в гене, но и из-за комбинации генных мутаций. Количество причин рака становится экспоненциальным, и единого механизма для его лечения не существует. Например, мутация любого из этих генов ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET и RIT1 может вызвать рак легких. Существует много путей возникновения рака, поэтому это болезнь с длинным хвостом распространения.

В нашем арсенале для ведения этой войны с раком и его победы большие данные и машинное обучение являются критически важными инструментами. Как большие данные могут помочь в этой войне? Какое отношение машинное обучение имеет к раку? Как они помогут в борьбе с болезнью со многими причинами, состоянием с длинным хвостом распространения? Во-первых, как и где генерируются эти большие данные? Найдем ответы на эти вопросы.

Секвенирование генов и взрыв данных

Секвенирование генов — это одна из областей, которая производит огромное количество данных. Точно, сколько данных? По данным Washington Post , человеческие данные, полученные с помощью секвенирования генов (примерно 2,5 миллиона последовательностей), занимают около четверти объема ежегодных данных YouTube. Если бы все эти данные были объединены со всей дополнительной информацией, полученной при секвенировании геномов, и записаны на 4-гигабайтные DVD-диски, то получилась бы стопка высотой около полумили.

Методы секвенирования генов с годами совершенствовались, а их стоимость падала в геометрической прогрессии. В 2008 году стоимость секвенирования генов составила 10 миллионов долларов. На сегодняшний день это всего лишь 1000 долларов. В дальнейшем ожидается дальнейшее снижение. По оценкам, к 2025 году гены одного миллиарда человек будут секвенированы. Таким образом, в течение следующего десятилетия генерируемые геномные данные будут составлять от 2 до 40 экзабайт в год. Эксабайт — это десять, за которыми следуют 17 нулей.

Прежде чем перейти к тому, как данные помогут в лечении рака, давайте возьмем один конкретный пример и посмотрим, как данные могут помочь в борьбе с болезнью. Данные и их анализ помогли выяснить причину одной инфекционной болезни и бороться с ней не сейчас, а в самом девятнадцатом веке! Да еще в девятнадцатом веке! Название этой болезни – холера.

Группировка в девятнадцатом веке – прорыв в борьбе с холерой

Джон Сноу был анестезиологом, и в сентябре 1854 года недалеко от дома Сноу вспыхнула холера. Чтобы узнать причину холеры, Сноу решил отметить пространственные размеры больных на карте города. Он отметил расположение домашнего адреса пациентов на карте Лондона. Благодаря этому упражнению Джон Сноу понял, что люди, страдающие холерой, собираются вокруг каких-то конкретных колодцев с водой. Он твердо верил, что причиной эпидемии стал зараженный насос, и вопреки воле местных властей заменил насос. Эта замена резко сократила распространение холеры.

Впоследствии Сноу опубликовал карту вспышки в поддержку своей теории, показав расположение 13 общественных колодцев в этом районе и 578 смертей от холеры, нанесенных на карту по домашнему адресу. Эта карта в конечном итоге привела к пониманию того, что холера является инфекционным заболеванием и быстро распространяется через воду. Эксперимент Джона Сноу — самый ранний пример применения алгоритма кластеризации для определения причины болезни и помощи в ее искоренении. В девятнадцатом веке Джон Сноу мог применить алгоритм кластеризации на карте Лондона с помощью карандаша. При раке в качестве целевого заболевания этот уровень анализа невозможен с той же легкостью, что и анализ Джона Сноу. Нам нужны сложные инструменты и технологии для добычи этих данных. Именно здесь мы используем возможности современных технологий, таких как машинное обучение и большие данные.

Большие данные и машинное обучение — инструменты для борьбы с раком

Огромные объемы данных вместе с алгоритмами машинного обучения во многом помогут нам в борьбе с раком. Это может помочь нам с диагностикой, лечением и прогнозом. В основном это поможет настроить терапию в соответствии с пациентом, что невозможно иначе. Это также поможет разобраться с длинным хвостом распределения.

Большие данные и машинное обучение вместе против рака Блог UpGrad
Учитывая огромное количество электронных медицинских карт (EMR), данных, генерируемых и записываемых различными больницами; можно использовать «помеченные» данные при диагностике рака. Такие методы, как программирование на естественном языке (NLP), используются для понимания назначений врача, а нейронные сети с глубоким обучением развернуты для анализа КТ и МРТ. Различные типы алгоритмов машинного обучения выполняют поиск в базах данных EMR и находят скрытые закономерности. Эти скрытые закономерности помогут в диагностике рака.

Студентка колледжа смогла спроектировать искусственную нейронную сеть, не выходя из дома, и разработала модель, которая может диагностировать рак молочной железы с высокой степенью точности.

Диагностика с помощью больших данных и машинного обучения

Бриттани Венгер было 16 лет, когда у ее старшей двоюродной сестры диагностировали рак груди. Это вдохновило ее на то, чтобы сделать процесс лучше, улучшив диагностику. Тонкоигольная аспирация (ТТА) была менее инвазивным методом биопсии и самым быстрым методом диагностики. Врачи не хотели использовать FNA, потому что результаты ненадежны. Бриттани подумала о том, чтобы использовать свои навыки программирования, чтобы что-то с этим сделать. Она решила повысить надежность ТАБ, что позволило бы женщинам выбирать менее инвазивные и комфортные методы диагностики.

Бриттани нашла общедоступные данные из Университета Висконсина, в том числе аспирацию Fine Needle. Она закодировала искусственную нейронную сеть (ИНС), вдохновленную архитектурой человеческого мозга. Она использовала облачные технологии для обработки данных и обучения ИНС находить сходства. После многих попыток и ошибок, наконец, ее сеть смогла обнаружить рак молочной железы по данным теста FNA с чувствительностью 99,1% к злокачественности. Этот метод применим и для диагностики других видов рака.

Точность диагностики зависит от количества и качества имеющихся данных. Чем больше данных будет доступно, тем больше алгоритмы смогут запрашивать базу данных, находить сходства и получать ценные модели.

Лечение с помощью больших данных и машинного обучения

Большие данные и машинное обучение будут полезны не только для диагностики, но и для лечения. Джон и Кэти были женаты три десятилетия. В возрасте 49 лет у Кэти диагностировали рак молочной железы III стадии. Джон, директор по информационным технологиям бостонской больницы, помог спланировать ее лечение с помощью разработанных и внедренных им инструментов для работы с большими данными.

В 2008 году пять аффилированных с Гарвардом больниц поделились своими базами данных и создали мощный инструмент поиска, известный как «Общая информационная сеть медицинских исследований» (SHRINE). К тому времени, когда Кэти поставили диагноз, ее врачи могли просмотреть базу данных из 6,1 миллиона записей, чтобы найти полезную информацию. Врачи задавали SHRINE такие вопросы, как «50-летние азиатские женщины, у которых диагностирован рак груди III стадии, и их лечение». Вооружившись этой информацией, врачи смогли лечить ее химиотерапевтическими препаратами, воздействуя на чувствительные к эстрогену опухолевые клетки, избегая хирургического вмешательства.

К тому времени, когда Кэти завершила курс химиотерапии, рентгенологи уже не могли обнаружить никаких опухолевых клеток. Это один из примеров того, как инструменты больших данных могут помочь в настройке плана лечения в соответствии с требованиями каждого пациента.

Поскольку рак представляет собой распределение с длинным хвостом, философия «один размер подходит всем» не сработает. Для индивидуальной настройки лечения в зависимости от истории пациента, его последовательности генов, результатов диагностических тестов, мутации, обнаруженной в их генах, или комбинации их генов и окружающей среды незаменимы большие данные и инструменты машинного обучения.

Поиск лекарств с помощью больших данных и машинного обучения

Большие данные и машинное обучение не только помогут в диагностике и лечении, но и революционизируют открытие лекарств. Исследователи могут использовать открытые данные и вычислительные ресурсы для поиска новых способов применения лекарств, которые уже одобрены такими агентствами, как FDA, для других целей. Например, ученые из Калифорнийского университета в Сан-Франциско путем подсчета чисел обнаружили, что препарат под названием «пирвиния памоат», который используется для лечения остриц, может уменьшить гепатоцеллюлярную карциному, тип рака печени, у мышей. Это заболевание, связанное с печенью, занимает второе место в мире по смертности от рака.

Большие данные и машинное обучение вместе против рака Блог UpGrad
Большие данные используются не только для открытия новых способов применения старых наркотиков, но также могут использоваться для обнаружения новых наркотиков. Обрабатывая данные, относящиеся к различным лекарствам, химическим веществам и их свойствам, симптомам различных заболеваний, химическому составу лекарств, используемых для этих состояний, и побочным эффектам этих лекарств, собранным из разных источников; новые лекарства могут быть разработаны для различных видов рака. Это значительно сократит время, затрачиваемое на разработку новых лекарств, не тратя при этом миллионы долларов.

Использование больших данных и машинного обучения, несомненно, улучшит процесс диагностики, лечения и разработки лекарств для лечения рака, но не обойдется без проблем. На пути впереди много камней преткновения и проблем. Если эти блоки не убрать и эти вызовы не решить, то наш враг возьмет верх и победит нас в будущей битве.

Проблемы использования больших данных и машинного обучения для борьбы с раком

Оцифровка

За исключением нескольких крупных и технически продвинутых больниц, большинство из них еще предстоит оцифровать. Они все еще следуют старым методам сбора и записи данных в огромные стопки файлов. Из-за отсутствия технических знаний, доступности, экономии за счет масштаба и различных других причин оцифровка не состоялась. Предоставление программного обеспечения EMR с открытым исходным кодом, обучение тому, насколько полезными могут быть эти цифровые записи в лечении пациентов и насколько они выгодны для больниц, — это некоторые шаги в правильном направлении.

Данные заблокированы в корпоративных хранилищах

На сегодняшний день только несколько больниц могут вести записи пациентов в цифровом виде. Этот аппарат тоже заперт на складах предприятий и недоступен для всего мира.

Больницы неохотно делятся своими базами данных с другими больницами. Даже если они этого хотят, их мучают различные схемы и архитектуры баз данных. На этом фронте требуется критическое осмысление того, как больницы могут делиться своими базами данных между собой для взаимной выгоды, не вызывая подозрений друг у друга. Необходимо достичь консенсуса в отношении схемы, по которой эти данные также должны использоваться совместно в интересах всех больниц. Эти данные пациентов должны быть демократизированы и использованы для улучшения будущего человечества.

Большие данные и машинное обучение вместе против рака Блог UpGrad
Данные пациентов не должны использоваться для роста одной организации. Особое внимание следует уделить анонимности лица, которому принадлежат данные. Если предпочтения человека по помаде просочились, то особого вреда нет. Если произойдет утечка истории болезни человека, то это окажет существенное влияние на его жизнь и перспективы.

Правительство должно предпринять позитивные шаги в этом направлении и помочь создать инфраструктуру больших данных для хранения медицинских карт пациентов из всех больниц. Необходимо сделать обязательным для всех больниц совместное использование своей базы данных в рамках этой общей инфраструктуры. Доступ к этой базе данных должен быть бесплатным для лечения пациентов и проведения исследований.

Повышение эффективности алгоритмов машинного обучения

Машинное обучение — это не волшебная таблетка для диагностики и лечения рака. Это инструмент, который при правильном использовании может помочь в нашем путешествии по борьбе с раком. Машинное обучение все еще находится в зачаточном состоянии и имеет свои недостатки. Например, данные, на которых обучаются эти алгоритмы, должны быть очень близки к данным, на которых они используются для получения результатов. Если в них будет огромная разница, то алгоритм не сможет дать значимых результатов, которые можно было бы использовать.

Существует множество алгоритмов машинного обучения со своими специфическими предположениями, преимуществами и недостатками. Если бы мы смогли найти способ объединить все эти разные алгоритмы для достижения требуемых нам результатов, т. е. излечения от рака, разумеется, мы бы получили чрезвычайно полезный результат. Известный ученый в области машинного обучения Педро Домингос называет его «Мастер-алгоритм», который также написал одноименную научно-популярную книгу.
По словам Педро, в машинном обучении существует пять разных направлений. Символисты, коннекционисты, байесовцы, эволюционисты и аналогийщики. В этой статье сложно подробно остановиться на всех этих различных типах систем машинного обучения. Я расскажу обо всех пяти типах систем машинного обучения в одном из своих будущих блогов. А пока нам нужно понять, что все эти разные методы имеют свои преимущества и недостатки. Если мы сможем объединить их, то сможем извлечь из наших данных очень важную информацию. Это будет чрезвычайно полезно не только для разного рода предсказаний и прогнозов, но и для нашей борьбы с мстительным врагом – раком.

Подводя итог, можно сказать, что рак — грозный враг, который часто меняет свою форму. Однако теперь у нас есть новое оружие в нашем арсенале в виде больших данных и машинного обучения, чтобы противостоять ему со знанием дела. Но чтобы разрушить его полностью, нам нужно более мощное оружие, чем то, что у нас есть сейчас. Имя этому оружию — «Главный алгоритм».

Нам также необходимо внести некоторые изменения в стратегии и методы борьбы с этим врагом. Эти изменения создают инфраструктуру больших данных, обязывают больницы обмениваться анонимными картами пациентов, обеспечивают безопасность базы данных и предоставляют свободный доступ к базе данных для лечения пациентов и исследований по лечению рака.

Получите сертификат по науке о данных от лучших университетов мира. Изучите программы Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Подведение итогов

Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.

Изучайте степени по программной инженерии онлайн в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Спланируйте свою карьеру в области Data Science прямо сейчас.

Подать заявку на профессиональную сертификационную программу в области науки о данных от IIM-Kozhikode