빅 데이터와 머신 러닝이 암에 대항하는 방법

게시 됨: 2018-01-09

암은 하나의 질병이 아닙니다. 많은 질병입니다. 간단한 예를 들어 암의 원인을 이해합시다. 문서를 복사하면 일부 문제로 인해 원본에 없는 다른 점이나 얼룩이 문서에 나타납니다. 마찬가지로 유전자 복제 과정에서도 실수로 오류가 발생합니다. 대부분의 경우 오류가 있는 유전자는 유지할 수 없으며 궁극적으로 소멸됩니다.

드문 경우지만, 실수로 돌연변이된 유전자는 살아남아 통제할 수 없을 정도로 더 많이 복제됩니다. 돌연변이 유전자의 통제할 수 없는 복제는 암의 주요 원인입니다. 이 돌연변이는 우리 몸에 있는 2만 개의 유전자 중 어느 곳에서나 일어날 수 있습니다. 유전자 중 하나 또는 조합의 변이는 암을 극복해야 할 심각한 질병으로 만듭니다. 암을 근절하기 위해서는 신체의 기능적 세포를 손상시키지 않으면서 악성 세포를 파괴하는 방법이 필요합니다. 패배를 두 배로 어렵게 만듭니다.

암과 그 복잡성
- 유전자 시퀀싱 및 데이터 폭발
- 19세기의 클러스터링 - 콜레라의 돌파구
빅 데이터 및 머신 러닝 – 암 퇴치를 위한 도구
- 빅데이터와 머신러닝을 통한 진단
- 빅 데이터 및 머신 러닝으로 처리
- 빅 데이터 및 머신 러닝을 통한 약물 발견
- 암 퇴치를 위해 빅 데이터 및 머신 러닝을 사용할 때의 과제
  - 디지털화
  - 엔터프라이즈 웨어하우스에 잠긴 데이터
- 머신러닝 알고리즘의 효율성 향상
마무리

암과 그 복잡성

암은 꼬리가 긴 질병입니다. 롱테일 분포는 이러한 상태가 발생하는 데에는 여러 가지 이유가 있으며 이를 근절하기 위한 단일 솔루션이 없음을 의미합니다. 인구의 많은 비율에 영향을 미치지만 발생의 유일한 원인이 있는 질병이 있습니다. 예를 들어 콜레라를 생각해 봅시다. 비브리오 콜레라균에 오염된 음식을 먹거나 물을 마시는 것이 콜레라의 원인입니다. 콜레라는 비브리오 콜레라에 의해서만 발생할 수 있으며 다른 이유는 없습니다. 우리가 질병의 유일한 원인을 찾으면, 그것을 극복하는 것은 상대적으로 쉽습니다.

암에 대항하는 빅 데이터와 머신 러닝 UpGrad Blog
여러 가지 이유로 상태가 발생하면 어떻게 합니까? 돌연변이는 우리 몸에 있는 2만 개의 유전자 중 어느 곳에서나 발생할 수 있습니다. 뿐만 아니라 이들의 조합도 고려해야 합니다. 암은 유전자의 무작위 돌연변이 때문만이 아니라 유전자 돌연변이의 조합으로 인해 발생할 수도 있습니다. 암의 원인은 기하급수적으로 늘어나고, 이를 치료하는 단일 메커니즘은 없습니다. 예를 들어, 이러한 유전자 ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET 및 RIT1의 돌연변이는 폐암을 유발할 수 있습니다. 암이 발생하는 방법에는 여러 가지가 있으며 이것이 긴 꼬리 분포를 갖는 질병인 이유입니다.

암과의 전쟁을 벌이고 정복하기 위한 우리의 무기고에서 빅 데이터와 머신 러닝은 중요한 도구입니다. 빅 데이터가 이 전쟁에 어떻게 도움이 될 수 있습니까? 기계 학습이 암과 어떤 관련이 있습니까? 긴 꼬리 분포를 가진 여러 원인이 있는 질병과 싸우는 데 어떻게 도움이 될까요? 첫째, 이 빅데이터는 어떻게, 어디서 생성되는가? 이 질문들에 대한 답을 찾아보자.

유전자 시퀀싱 및 데이터 폭발

유전자 시퀀싱은 엄청난 양의 데이터를 생성하는 영역 중 하나입니다. 정확히 얼마나 많은 데이터? Washington Post 에 따르면 유전자 시퀀싱을 통해 생성된 인간 데이터(약 250만 시퀀스)는 YouTube 연간 데이터 생산 규모의 약 4분의 1을 차지합니다. 이 모든 데이터가 게놈 시퀀싱과 함께 제공되는 모든 추가 정보와 결합되고 4GB DVD에 기록된다면 약 0.5마일 높이의 스택이 될 것입니다.

유전자 시퀀싱 방법은 수년에 걸쳐 개선되었으며 비용은 기하급수적으로 떨어졌습니다. 2008년에 유전자 시퀀싱 비용은 천만 달러였습니다. 현재로서는 1000달러에 불과하다. 앞으로는 더 줄어들 것으로 예상된다. 2025년까지 10억 명의 사람들이 유전자 염기서열을 갖게 될 것으로 추산됩니다. 따라서 향후 10년 이내에 생성되는 게놈 데이터는 1년에 2-40엑사바이트 사이가 될 것입니다. 1엑사바이트는 10 뒤에 0이 17개가 옵니다.

데이터가 암 치료에 어떻게 도움이 되는지 알아보기 전에 구체적인 예를 하나 들어 데이터가 질병 정복에 어떻게 도움이 되는지 알아보겠습니다. 데이터와 그 분석은 현재가 아니라 19세기에 하나의 전염병의 원인을 찾고 퇴치하는 데 도움이 되었습니다! 예, 19세기에! 그 병의 이름은 콜레라입니다.

19세기의 클러스터링 - 콜레라의 돌파구

John Snow는 마취과 의사였으며 1854년 9월 Snow의 집 근처에서 콜레라가 발생했습니다. 콜레라의 원인을 알기 위해 Snow는 도시 지도에서 환자의 공간적 치수를 기록하기로 결정했습니다. 그는 런던의 도시 지도에 환자의 집 주소 위치를 표시했습니다. 이 연습을 통해 John Snow는 콜레라에 걸린 사람들이 특정 우물 주변에 모여 있다는 것을 이해했습니다. 그는 오염된 펌프가 전염병의 원인이며 지방 당국의 의지에 반하여 펌프를 교체했다고 굳게 믿었습니다. 이 교체는 콜레라의 확산을 크게 줄였습니다.

Snow는 이후 자신의 이론을 뒷받침하기 위해 해당 지역의 13개 공공 우물의 위치와 집 주소로 매핑된 578명의 콜레라 사망자를 보여주는 발병 지도를 발표했습니다. 이 지도는 궁극적으로 콜레라가 전염병이고 물을 매개로 빠르게 퍼진다는 것을 이해하게 했습니다. John Snow의 실험은 클러스터링 알고리즘을 적용하여 질병의 원인을 파악하고 이를 근절하는 최초의 예입니다. 19세기에 John Snow는 연필로 런던 도시 지도에 클러스터링 알고리즘을 적용할 수 있었습니다. 암을 표적 질환으로 하여 이 수준의 분석은 John Snow의 분석처럼 쉽게 불가능합니다. 이 데이터를 마이닝하려면 정교한 도구와 기술이 필요합니다. 여기서 우리는 기계 학습 및 빅 데이터와 같은 현대 기술의 기능을 활용합니다.

빅 데이터 및 머신 러닝 – 암 퇴치를 위한 도구

머신 러닝 알고리즘과 함께 방대한 양의 데이터는 다양한 방식으로 암과의 싸움에서 우리를 도울 것입니다. 진단, 치료 및 예후에 도움이 될 수 있습니다. 주로 환자에 따라 치료법을 맞춤화하는 데 도움이 됩니다. 이는 다른 방법으로는 불가능합니다. 또한 배포의 롱테일을 처리하는 데 도움이 됩니다.

암에 대항하는 빅 데이터와 머신 러닝 UpGrad Blog
방대한 양의 전자 의료 기록(EMR)을 감안할 때 다양한 병원에서 생성 및 기록된 데이터, 암 진단에 '표지된' 데이터를 사용하는 것이 가능합니다. 의사의 처방을 이해하기 위해 자연어 프로그래밍(NLP)과 같은 기술이 활용되고 CT 및 MRI 스캔을 분석하기 위해 딥 러닝 신경망이 배포됩니다. 다양한 유형의 기계 학습 알고리즘이 EMR 데이터베이스를 검색하고 숨겨진 패턴을 찾습니다. 이러한 숨겨진 패턴은 암 진단에 도움이 됩니다.

한 대학생이 집에서 편안하게 인공신경망을 설계하고 유방암을 높은 정확도로 진단할 수 있는 모델을 개발했습니다.

빅데이터와 머신러닝을 통한 진단

큰 사촌이 유방암 진단을 받았을 때 브리타니 벵거는 16세였습니다. 이것은 그녀가 진단을 개선하여 프로세스를 개선하도록 영감을 주었습니다. 미세 바늘 흡인(FNA)은 덜 침습적인 생검 방법이자 가장 빠른 진단 방법이었습니다. 의사들은 결과가 신뢰할 수 없기 때문에 FNA 사용을 꺼렸습니다. Brittanny는 그녀의 프로그래밍 기술을 사용하여 그것에 대해 뭔가를 할 생각을 했습니다. 그녀는 여성이 덜 침습적이고 편안한 진단 방법을 선택할 수 있도록 FNA의 신뢰성을 개선하기로 결정했습니다.

Brittanny는 위스콘신 대학교에서 Fine Needle Aspiration이 포함된 공개 도메인 데이터를 찾았습니다. 그녀는 인간 두뇌 아키텍처의 디자인에서 영감을 받은 인공 신경망(ANN)을 코딩했습니다. 그녀는 클라우드 기술을 사용하여 데이터를 처리하고 ANN이 유사점을 찾도록 훈련했습니다. 여러 번의 시도와 오류 끝에 마침내 그녀의 네트워크는 FNA 테스트 데이터에서 악성 종양에 대한 민감도 99.1%로 유방암을 감지할 수 있었습니다. 이 방법은 다른 암 진단에도 적용할 수 있습니다.

진단의 정확성은 사용 가능한 데이터의 양과 품질에 따라 다릅니다. 사용 가능한 데이터가 많을수록 알고리즘은 데이터베이스를 쿼리하고 유사점을 찾고 가치 있는 모델을 도출할 수 있습니다.

빅 데이터 및 머신 러닝으로 처리

빅데이터와 머신러닝은 진단뿐만 아니라 치료에도 도움이 될 것입니다. John과 Kathy는 30년 동안 결혼 생활을 했습니다. 캐시는 49세에 유방암 III기 진단을 받았습니다. 보스턴 병원의 CIO인 John은 그가 설계하고 구현한 빅 데이터 도구의 도움으로 그녀의 치료 계획을 도왔습니다.

2008년에 5개의 Harvard 계열 병원이 데이터베이스를 공유하고 'Shared Health Research Information Network'(SHRINE)로 알려진 강력한 검색 도구를 만들었습니다. Kathy가 진단을 받았을 때 그녀의 의사는 통찰력 있는 정보를 찾기 위해 610만 개의 기록 데이터베이스를 조사할 수 있었습니다. 의사들은 '슈린'에 "50세 아시아 여성, 유방암 3기 진단과 치료" 등의 질문을 던졌다. 이 정보로 무장한 의사들은 수술을 피함으로써 에스트로겐에 민감한 종양 세포를 표적으로 하는 화학요법 약물로 그녀를 치료할 수 있었습니다.

Kathy가 화학 요법을 완료했을 때 방사선 전문의는 더 이상 종양 세포를 찾을 수 없었습니다. 이것은 빅 데이터 도구가 각각의 요구 사항에 따라 치료 계획을 맞춤화하는 데 어떻게 도움이 될 수 있는지 보여주는 한 가지 예입니다.

암은 롱테일 분포이기 때문에 '모두에게 적합하다'는 철학은 통하지 않을 것입니다. 환자의 병력, 유전자 염기서열, 진단 검사 결과, 유전자에서 발견된 돌연변이 또는 유전자와 환경의 조합에 따른 맞춤형 치료를 위해서는 빅데이터와 머신러닝 도구가 필수 불가결하다.

빅 데이터 및 머신 러닝을 통한 약물 발견

빅 데이터와 머신 러닝은 진단과 치료에 도움이 될 뿐만 아니라 신약 개발에도 혁명을 일으킬 것입니다. 연구원은 다른 목적으로 FDA와 같은 기관에서 이미 승인한 약물의 새로운 용도를 발견하기 위해 공개 데이터 및 계산 리소스를 사용할 수 있습니다. 예를 들어 샌프란시스코 캘리포니아 대학의 과학자들은 요충 치료에 사용되는 '피르비늄 파모에이트(pyrvinium pamoate)'라는 약물이 쥐에서 간암의 일종인 간세포 암종을 수축시킬 수 있다는 것을 숫자 분석을 통해 발견했습니다. 간과 관련된 이 질병은 세계에서 암 사망에 두 번째로 많이 기여합니다.

암에 대항하는 빅 데이터와 머신 러닝 UpGrad Blog
빅데이터는 기존 의약품의 새로운 용도를 찾는 데 활용될 뿐만 아니라 신약을 발굴하는 데에도 활용될 수 있습니다. 다양한 약물, 화학 물질 및 그 특성, 다양한 질병의 증상, 해당 조건에 사용되는 약물의 화학적 조성 및 이러한 약물의 부작용과 관련된 데이터를 다양한 매체에서 수집하여; 다양한 유형의 암에 대한 새로운 약물이 고안될 수 있습니다. 이것은 그 과정에서 수백만 달러를 낭비하지 않고 새로운 의약품을 찾는 데 걸리는 시간을 상당히 줄여줄 것입니다.

빅 데이터와 머신 러닝을 사용하면 암 치료에서 진단, 치료 및 약물 발견 프로세스가 개선될 것이 분명하지만 도전이 없는 것은 아닙니다. 앞으로의 길에는 많은 걸림돌과 문제가 있습니다. 이 블록이 제거되지 않고 이러한 도전에 직면하지 않으면 우리의 적이 우위를 점하고 미래의 전투에서 우리를 패배시킬 것입니다.

암 퇴치를 위해 빅 데이터 및 머신 러닝을 사용할 때의 과제

디지털화

몇 개의 크고 기술적으로 앞선 병원을 제외하고는 대부분이 아직 디지털화되지 않았습니다. 그들은 여전히 대량의 파일 스택에서 데이터를 캡처하고 기록하는 오래된 방법을 따르고 있습니다. 기술적 전문성, 경제성, 규모의 경제 및 기타 여러 가지 이유로 인해 디지털화가 이루어지지 않았습니다. 오픈 소스 EMR 소프트웨어를 제공하고 이러한 디지털 기록이 환자를 치료하는 데 얼마나 도움이 될 수 있으며 병원에 얼마나 유익한지를 가르치는 것은 올바른 방향으로 가는 몇 가지 단계입니다.

엔터프라이즈 웨어하우스에 잠긴 데이터

현재로서는 소수의 병원만이 환자 기록을 디지털 방식으로 캡처할 수 있습니다. 이 장치 역시 기업 창고에 잠겨 있어 전 세계에 접근할 수 없습니다.

병원은 데이터베이스를 다른 병원과 공유하는 것을 꺼립니다. 그들이 의욕이 있더라도 다른 데이터베이스 스키마와 아키텍처로 인해 어려움을 겪습니다. 병원이 서로를 의심하지 않고 상호 이익을 위해 데이터베이스를 공유할 수 있는 방법에 대한 비판적 사고가 이 프론트에서 필요합니다. 모든 병원의 이익을 위해 이 데이터를 공유해야 하는 스키마에 대해서도 합의가 필요합니다. 이 환자 데이터는 민주화되어 인류의 미래를 위해 활용되어야 합니다.

암에 대항하는 빅 데이터와 머신 러닝 UpGrad Blog
단일 조직의 성장을 위해 환자 데이터를 사용해서는 안 됩니다. 데이터가 속한 개인을 익명화하는 데 최대한 주의를 기울여야 합니다. 사람의 립스틱 선호도가 유출되어도 큰 피해는 없다. 개인의 병력이 유출되면 생명과 장래에 중대한 영향을 미치게 됩니다.

정부는 이를 위해 적극적인 조치를 취해야 하며, 모든 병원의 환자들의 진료기록을 보관할 수 있는 빅데이터 인프라 구축을 지원해야 한다. 모든 병원이 이 공유 인프라 내에서 데이터베이스를 공유하는 것을 의무화해야 합니다. 이 데이터베이스에 대한 액세스는 환자 치료 및 연구를 위해 무료로 허용되어야 합니다.

머신러닝 알고리즘의 효율성 향상

기계 학습은 암 진단 및 치료를 위한 마법의 약이 아닙니다. 잘 사용하면 암을 정복하는 여정에 도움이 될 수 있는 도구입니다. 머신 러닝은 아직 초기 단계이며 단점이 있습니다. 예를 들어, 이러한 알고리즘이 훈련된 데이터는 결과 생성에 활용되는 데이터와 매우 유사해야 합니다. 그들 사이에 큰 차이가 있는 경우 알고리즘은 사용할 수 있는 의미 있는 결과를 제공할 수 없습니다.

고유한 가정, 장점 및 단점이 있는 많은 기계 학습 알고리즘이 있습니다. 말할 필요도 없이 암 치료와 같이 우리가 요구하는 결과를 달성하기 위해 이러한 모든 다른 알고리즘을 결합하는 방법을 찾을 수 있다면 매우 유익한 결과를 찾았을 것입니다. 유명한 기계 학습 과학자인 Pedro Domingos는 이를 "마스터 알고리즘" 이라고 부르며, 동명의 인기 과학 책도 저술했습니다.
Pedro에 따르면 기계 학습에는 5가지 다른 학파가 있습니다. 상징주의자, 연결주의자, 베이지안주의자, 진화론자 및 유추론자. 이 기사에서 이러한 다양한 유형의 기계 학습 시스템을 모두 살펴보는 것은 어렵습니다. 앞으로 내 블로그 중 하나에서 다섯 가지 유형의 기계 학습 시스템을 모두 다룰 것입니다. 지금으로서는 이러한 모든 방법이 나름대로의 장단점이 있다는 것을 이해해야 합니다. 이들을 결합할 수 있다면 데이터에서 매우 영향력 있는 통찰력을 도출할 수 있습니다. 이것은 예측과 예측의 종류뿐만 아니라 복수의 적인 암과의 싸움에서도 매우 유용할 것입니다.

요약하자면, 암은 형태가 자주 바뀌는 무서운 적입니다. 그러나 우리는 이제 빅 데이터와 머신 러닝의 형태로 새로운 무기를 보유하고 있지만 능숙하게 대처할 수 있습니다. 그러나 그것을 완전히 부수기 위해서는 우리가 현재 가지고 있는 것보다 더 강력한 무기가 필요합니다. 그 무기의 이름은 '마스터 알고리즘'이다.

우리는 또한 이 적과 싸우는 전략과 방법에 약간의 변화를 줄 필요가 있습니다. 이러한 변화로 인해 빅 데이터 인프라가 생성되어 병원에서 익명의 환자 기록을 공유하고 데이터베이스의 보안을 유지하며 암 치료를 위한 환자 치료 및 연구를 위한 데이터베이스에 무료로 액세스할 수 있게 되었습니다.

세계 최고의 대학에서 데이터 과학 인증 을 받으십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 통해 경력을 빠르게 추적하십시오.

마무리

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하세요. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 온라인으로 소프트웨어 엔지니어링 학위 를 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

지금 데이터 과학 경력을 계획하십시오.

IIM-Kozhikode에서 데이터 과학 전문 인증 프로그램 신청