ビッグデータと機械学習が癌に対してどのように統合されているか

公開: 2018-01-09

癌は一つの病気ではありません。 多くの病気です。 簡単な例で癌の原因を理解しましょう。 ドキュメントのコピーをとると、いくつかの問題により、元のコピーには存在していなくても、他のドットやスミアがドキュメントに表示されます。 同様に、遺伝子複製プロセスでは、エラーが誤って発生します。 ほとんどの場合、エラーのある遺伝子は持続できず、最終的には消滅します。

まれに、間違いのある変異遺伝子が生き残り、制御不能にさらに複製されることがあります。 変異した遺伝子の制御不能な複製は、癌の主な原因です。 この突然変異は、私たちの体の2万の遺伝子のいずれかで発生する可能性があります。 遺伝子のいずれか1つまたは組み合わせの変化により、癌は克服すべき重篤な疾患になります。 癌を根絶するためには、体の機能細胞に害を与えることなく、不正な細胞を破壊する方法が必要です。 倒すのが2倍難しくなります。

目次

がんとその複雑さ

がんは、尾の分布が長い病気です。 ロングテール分布は、この状態が発生するさまざまな理由があり、それを根絶するための単一の解決策がないことを意味します。 人口の大部分に影響を与えるが、発生の唯一の原因を持っている病気があります。 たとえば、コレラについて考えてみましょう。 コレラ菌の原因は、コレラ菌に汚染された食べ物や飲料水です。 コレラはコレラ菌が原因でのみ発生する可能性があり、他の理由はありません。 病気の唯一の原因がわかれば、それを克服するのは比較的簡単です。

ビッグデータと機械学習がCancerUpGradブログに対して統合
複数の理由で状態が発生した場合はどうなりますか? 突然変異は、私たちの体の2万の遺伝子のいずれかで発生する可能性があります。 それだけでなく、それらの組み合わせも考慮する必要があります。 がんは、遺伝子のランダムな突然変異だけでなく、遺伝子突然変異の組み合わせが原因で発生する可能性があります。 癌の原因の数は指数関数的になり、それを治療する単一のメカニズムはありません。 たとえば、これらの遺伝子ALK、BRAF、DDR2、EGFR、ERBB2、KRAS、MAP2K1、NRAS、PIK3CA、PTEN、RET、およびRIT1のいずれかの変異は、肺がんを引き起こす可能性があります。 がんが発生する方法はたくさんあります。そのため、がんは尾の分布が長い病気です。

この癌との戦いを戦い、それを征服するための私たちの武器庫では、ビッグデータと機械学習が重要なツールです。 ビッグデータはこの戦争との戦いにどのように役立ちますか? 機械学習は癌と何の関係がありますか? 彼らは多くの原因を持つ病気、長い尾の分布を持つ状態と戦うのをどのように助けるつもりですか? まず、このビッグデータはどこでどのように生成されますか? これらの質問に対する答えを見つけましょう。

データの遺伝子配列決定と爆発

遺伝子シーケンシングは、膨大な量のデータを生成している分野の1つです。 正確にどのくらいのデータですか? ワシントンポスト紙よると、遺伝子配列決定によって生成された人間のデータ(約2.5万ルピーの配列)は、YouTubeの年間データ生成の約4分の1のサイズを占めています。 このすべてのデータを、シーケンシングゲノムに付属するすべての追加情報と組み合わせて、4GB DVDに記録すると、約0.5マイルの高さのスタックになります。

遺伝子配列決定の方法は何年にもわたって改善されており、その費用は指数関数的に急落しています。 2008年の遺伝子配列決定の費用は1000万ドルでした。 今日の時点で、それはたったの1000ドルです。 将来的にはさらに減少することが見込まれます。 2025年までに10億人が遺伝子の配列を決定すると推定されています。したがって、今後10年以内に、生成されるゲノミクスデータは1年で2〜40エクサバイトになります。 エクサバイトは10で、その後に17個のゼロが続きます。

データが癌の治癒にどのように役立つかを説明する前に、具体的な例を1つ挙げて、データが病気の克服にどのように役立つかを見てみましょう。 データとその分析は、1つの感染症の原因を突き止め、それと戦うのに役立ちました。現在ではなく、19世紀自体です。 はい、19世紀に! その病気の名前はコレラです。

19世紀のクラスタリング–コレラの突破口

ジョン・スノーは麻酔科医であり、1854年9月にスノーの家の近くでコレラが発生しました。 コレラの理由を知るために、スノーは都市地図上で患者の空間的寸法を記録することにしました。 彼はロンドンの都市地図上で患者の自宅住所の場所をマークしました。 この演習で、ジョンスノーは、コレラに苦しむ人々がいくつかの特定の井戸の周りに集まっていることを理解しました。 彼は、汚染されたポンプが流行の原因であり、地方自治体の意志に反してポンプを交換したと固く信じていました。 この交換により、コレラの蔓延が大幅に減少しました。

スノーはその後、彼の理論を裏付けるために発生の地図を公開し、その地域の13の公共の井戸の場所と、自宅の住所によってマッピングされた578のコレラの死を示しました。 この地図は、最終的に、コレラが感染症であり、水を介して急速に広がるという理解につながりました。 John Snowの実験は、クラスタリングアルゴリズムを適用して病気の原因を知り、それを根絶するのに役立つ最も初期の例です。 19世紀、ジョンスノーは、鉛筆を使ってロンドンの都市地図にクラスタリングアルゴリズムを適用することができました。 癌を標的疾患とする場合、このレベルの分析は、ジョン・スノーの分析と同じくらい簡単には不可能です。 このデータをマイニングするには、高度なツールとテクノロジーが必要です。 そこで、機械学習やビッグデータなどの最新テクノロジーの機能を活用します。

ビッグデータと機械学習–がんと闘うためのツール

膨大な量のデータと機械学習アルゴリズムは、さまざまな方法で癌との闘いに役立ちます。 それは、診断、治療、および予後に役立ちます。 主に、それは他の方法では不可能である、患者に応じて治療をカスタマイズするのに役立ちます。 また、分布のロングテールに対処するのにも役立ちます。

ビッグデータと機械学習がCancerUpGradブログに対して統合
膨大な量の電子医療記録(EMR)を考えると、さまざまな病院によって生成および記録されたデータ。 癌の診断に「ラベル付けされた」データを使用することが可能です。 自然言語プログラミング(NLP)のような技術は、医師の処方を理解するために利用され、ディープラーニングニューラルネットワークは、CTおよびMRIスキャンを分析するために展開されます。 さまざまなタイプの機械学習アルゴリズムがEMRデータベースを検索し、隠れたパターンを見つけます。 これらの隠されたパターンは、癌の診断に役立ちます。

大学生は、自宅の快適さから人工ニューラルネットワークを設計し、乳がんを高精度で診断できるモデルを開発することができました。

ビッグデータと機械学習による診断

Brittanny Wengerは、彼女の年上のいとこが乳がんと診断されたとき、16歳でした。 これにより、彼女は診断を改善することでプロセスを改善するようになりました。 穿刺吸引生検(FNA)は、より侵襲性の低い生検法であり、最も迅速な診断法でした。 結果が信頼できないため、医師はFNAの使用に消極的でした。 Brittannyは、プログラミングスキルを使って何かをすることを考えました。 彼女は、女性がより侵襲性が低く快適な診断方法を選択できるようにするFNAの信頼性を改善することを決定しました。

Brittannyは、ウィスコンシン大学のパブリックドメインデータにFineNeedleAspirationが含まれていることを発見しました。 彼女は、人間の脳のアーキテクチャの設計に触発された人工ニューラルネットワーク(ANN)をコーディングしました。 彼女はクラウドテクノロジーを使用してデータを処理し、類似点を見つけるためにANNをトレーニングしました。 最終的に多くの試みとエラーが発生した後、彼女のネットワークは、悪性腫瘍に対して99.1%の感度でFNAテストデータから乳がんを検出することができました。 この方法は、他の癌の診断にも適用できます。

診断の精度は、利用可能なデータの量と質に依存します。 利用可能なデータが多ければ多いほど、アルゴリズムはデータベースにクエリを実行し、類似点を見つけて、価値のあるモデルを生み出すことができます。

ビッグデータと機械学習による治療

ビッグデータと機械学習は、診断だけでなく治療にも役立ちます。 ジョンとキャシーは30年間結婚していました。 49歳のとき、キャシーはステージIIIの乳がんと診断されました。 ボストンの病院のCIOであるジョンは、彼が設計して実現したビッグデータツールの助けを借りて、彼女の治療計画を支援しました。

2008年、ハーバード大学の5つの提携病院がデータベースを共有し、「Shared Health Research Information Network」(SHRINE)と呼ばれる強力な検索ツールを作成しました。 キャシーの診断時までに、彼女の医師は、610万件の記録のデータベースをふるいにかけて洞察に満ちた情報を見つけることができました。 医師は「SHRINE」に「ステージIIIの乳がんと診断された50歳のアジア人女性とその治療法」などの質問をしました。 この情報を武器に、医師は手術を避けてエストロゲン感受性腫瘍細胞を標的にすることにより、化学療法薬で彼女を治療することができました。

キャシーが化学療法レジメンを完了するまでに、放射線科医は腫瘍細胞を見つけることができなくなりました。 これは、ビッグデータツールがそれぞれの要件に応じて治療計画をカスタマイズするのにどのように役立つかの一例です。

癌はロングテール分布であるため、「1つのサイズですべてに対応」という哲学は機能しません。 患者の病歴、遺伝子配列、診断テストの結果、遺伝子に見られる変異、または遺伝子と環境の組み合わせに応じて治療をカスタマイズするには、ビッグデータと機械学習ツールが不可欠です。

ビッグデータと機械学習による創薬

ビッグデータと機械学習は、診断と治療に役立つだけでなく、創薬にも革命をもたらします。 研究者は、オープンデータと計算リソースを使用して、他の目的でFDAなどの機関によってすでに承認されている薬の新しい用途を発見できます。 たとえば、カリフォルニア大学サンフランシスコ校の科学者たちは、蠕虫の治療に使用される「パモ酸ピルビニウム」と呼ばれる薬が、マウスの肝癌の一種である肝細胞癌を縮小させる可能性があることを数え切れないほど調べて発見しました。 肝臓に関連するこの病気は、世界で2番目に癌による死亡の原因となっています。

ビッグデータと機械学習がCancerUpGradブログに対して統合
ビッグデータは、古い薬の新しい用途を発見するために使用されるだけでなく、新しい薬を検出するためにも使用できます。 さまざまな薬物、化学物質、およびそれらの特性、さまざまな疾患の症状、それらの状態に使用される薬物の化学組成、およびさまざまな媒体から収集されたこれらの薬物の副作用に関連するデータを処理することによって。 さまざまな種類の癌に対して新薬を考案することができます。 これにより、プロセスで数百万ドルを無駄にすることなく、新薬を考案するのにかかる時間が大幅に短縮されます。

ビッグデータと機械学習を使用することで、がんの治療における診断、治療、創薬のプロセスが改善されることは間違いありませんが、課題がないわけではありません。 先の道には多くのつまずきや問題があります。 これらのブロックが取り除かれず、これらの課題に直面しなければ、敵が優位に立ち、将来の戦いで私たちを打ち負かします。

ビッグデータと機械学習を使用してがんと闘う際の課題

デジタル化

いくつかの大規模で技術的に進んだ病院を除いて、それらのほとんどはまだデジタル化されていません。 彼らはまだファイルの大規模なスタックにデータをキャプチャして記録する古い方法に従っています。 技術的な専門知識、手頃な価格、規模の経済、およびその他のさまざまな理由が不足しているため、デジタル化は行われていません。 オープンソースのEMRソフトウェアの提供、これらのデジタル記録が患者の治療にどれほど役立つか、そしてそれが病院にとってどれほど有益であるかを教えることは、正しい方向へのいくつかのステップです。

エンタープライズウェアハウスにロックされたデータ

現在、患者の記録をデジタルで取得できる病院はごくわずかです。 この装置も企業の倉庫に閉じ込められており、世界中からアクセスすることはできません。

病院は、データベースを他の病院と共有することに消極的です。 彼らが喜んでいるとしても、彼らは異なるデータベーススキーマとアーキテクチャに悩まされています。 この面では、病院がお互いを疑うことなく相互利益のためにデータベースを共有する方法について批判的思考が必要です。 すべての病院の利益のために、このデータも共有する必要があるスキーマについてコンセンサスに達する必要があります。 この患者データは民主化され、人類の未来を改善するために利用されるべきです。

ビッグデータと機械学習がCancerUpGradブログに対して統合
単一の組織の成長のために患者データを使用することを許可するべきではありません。 データが属する個人を匿名化するために細心の注意を払う必要があります。 人の口紅の好みが漏れても、それほど害はありません。 人の病歴が漏洩した場合、それは彼の人生と展望に重大な影響を及ぼします。

政府はこの方向に前向きな措置を講じ、すべての病院の患者の医療記録を保存するためのビッグデータインフラストラクチャの作成を支援する必要があります。 すべての病院がこの共有インフラストラクチャ内でデータベースを共有することを義務付ける必要があります。 このデータベースへのアクセスは、患者の治療と研究のために無料にする必要があります。

機械学習アルゴリズムの効率の向上

機械学習は、がんの診断と治療のための魔法の薬ではありません。 これは、うまく使用すれば、癌を克服するための私たちの旅に役立つツールです。 機械学習はまだ初期段階にあり、欠点があります。 たとえば、これらのアルゴリズムがトレーニングされるデータは、結果を生成するために使用されるデータに非常に近い必要があります。 それらに大きな違いがある場合、アルゴリズムは使用できる意味のある結果を提供できません。

独自の仮定、長所、および短所を備えた多くの機械学習アルゴリズムが存在します。 言うまでもなく、私たちが必要とする結果、つまり癌の治療を達成するために、これらのさまざまなアルゴリズムをすべて組み合わせる方法を見つけることができれば、非常に有益な結果が得られるでしょう。 有名な機械学習科学者のペドロドミンゴスはそれを「マスターアルゴリズム」と呼んでおり、同名の人気の科学書も書いています。
Pedroによると、機械学習には5つの異なる考え方があります。 象徴主義者、コネクショニスト、ベイジアン、進化論者、類推者。 この記事では、これらのさまざまなタイプの機械学習システムすべてに取り組むことは困難です。 今後のブログの1つで、5種類すべての機械学習システムについて説明します。 今のところ、これらのさまざまな方法にはそれぞれ長所と短所があることを理解する必要があります。 それらを組み合わせることができれば、データから非常に影響力のある洞察を引き出すことができます。 これは、あらゆる種類の予測や予測だけでなく、復讐に燃える敵である癌との戦いにも非常に役立ちます。

要約すると、癌はその形を頻繁に変え続ける恐るべき敵です。 私たちは現在、ビッグデータと機械学習の形で新しい武器を保有していますが、それに対抗する能力があります。 しかし、それを完全に破壊するには、現在所有しているものよりも強力な武器が必要です。 その武器の名前は「マスターアルゴリズム」です。

また、この敵と戦うための戦略と方法にいくつかの変更を加える必要があります。 これらの変更により、ビッグデータインフラストラクチャが作成され、病院は匿名の患者記録を共有することが義務付けられ、データベースのセキュリティが維持され、患者の治療と癌治療の研究のためにデータベースに無料でアクセスできるようになります。

世界のトップ大学からデータサイエンス認定取得します。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを学び、キャリアを早急に進めましょう。

まとめ

ビッグデータについて詳しく知りたい場合は、ビッグデータプログラムのソフトウェア開発スペシャライゼーションのPGディプロマをチェックしてください。このプログラムは、働く専門家向けに設計されており、7つ以上のケーススタディとプロジェクトを提供し、14のプログラミング言語とツール、実践的なハンズオンをカバーしています。ワークショップ、トップ企業との400時間以上の厳格な学習と就職支援。

世界のトップ大学からオンラインでソフトウェアエンジニアリングの学位学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

今すぐデータサイエンスのキャリアを計画してください。

IIM-カリカットからデータサイエンスのプロフェッショナル認定プログラムに申し込む