Wie sich Big Data und maschinelles Lernen gegen Krebs vereinen
Veröffentlicht: 2018-01-09Krebs ist keine Krankheit. Es sind viele Krankheiten. Lassen Sie uns die Ursache von Krebs anhand eines einfachen Beispiels verstehen. Wenn Sie eine Fotokopie eines Dokuments machen, erscheinen aufgrund einiger Probleme andere Punkte oder Schlieren darauf, obwohl sie in der Originalkopie nicht vorhanden sind. Ebenso treten bei Genreplikationsprozessen unbeabsichtigt Fehler auf. Meistens werden die Gene mit Fehlern nicht in der Lage sein, sich zu erhalten und werden schließlich zugrunde gehen.
In einigen seltenen Fällen überlebt das mutierte Gen mit Fehlern und wird unkontrolliert weiter repliziert. Die unkontrollierbare Replikation mutierter Gene ist die Hauptursache für Krebs. Diese Mutation kann in jedem der zwanzigtausend Gene in unserem Körper auftreten. Variationen in einem oder mehreren Genen machen Krebs zu einer schweren Krankheit, die es zu besiegen gilt. Um Krebs auszurotten, brauchen wir Methoden, um die Schurkenzellen zu zerstören, ohne die funktionellen Zellen des Körpers zu schädigen; was es doppelt schwer zu besiegen macht.
Inhaltsverzeichnis
Krebs und seine Komplexität
Krebs ist eine Krankheit mit einer Long-Tail-Verbreitung. Long-Tail-Verteilung bedeutet, dass es verschiedene Gründe für das Auftreten dieses Zustands gibt und es keine einzige Lösung gibt, um ihn zu beseitigen. Es gibt Krankheiten, die einen großen Prozentsatz der Bevölkerung betreffen, aber eine einzige Ursache für ihr Auftreten haben. Betrachten wir zum Beispiel Cholera. Der Verzehr von Nahrungsmitteln oder Trinkwasser, die mit dem Bakterium Vibrio Cholerae kontaminiert sind, ist die Ursache der Cholera. Cholera kann nur wegen Vibrio Cholerae auftreten, und es gibt keinen anderen Grund. Sobald wir die einzige Ursache einer Krankheit herausgefunden haben, ist es relativ einfach, sie zu besiegen.

Was ist, wenn eine Bedingung aus mehreren Gründen auftritt? Eine Mutation kann in jedem der zwanzigtausend Gene in unserem Körper auftreten. Nicht nur das, wir müssen auch ihre Kombinationen berücksichtigen. Krebs kann nicht nur aufgrund einer zufälligen Mutation in einem Gen entstehen, sondern auch aufgrund einer Kombination von Genmutationen. Die Zahl der Ursachen für Krebs wird exponentiell, und es gibt keinen einzigen Mechanismus, um ihn zu heilen. Beispielsweise kann eine Mutation eines dieser Gene ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET und RIT1 Lungenkrebs verursachen. Es gibt viele Möglichkeiten, wie Krebs entsteht, und deshalb ist es eine Krankheit mit langer Ausbreitung.
In unserem Arsenal, um diesen Krieg gegen den Krebs zu führen und ihn zu besiegen, sind Big Data und maschinelles Lernen entscheidende Werkzeuge. Wie kann Big Data im Kampf gegen diesen Krieg helfen? Was hat maschinelles Lernen mit Krebs zu tun? Wie werden sie helfen, eine Krankheit mit vielen Ursachen zu bekämpfen, einen Zustand mit einer langen Schwanzverteilung? Erstens, wie und wo werden diese Big Data generiert? Lassen Sie uns Antworten auf diese Fragen finden.
Gensequenzierung und Datenexplosion
Die Gensequenzierung ist ein Bereich, der riesige Datenmengen produziert. Wie viele Daten genau? Laut der Washington Post machen die durch Gensequenzierung generierten menschlichen Daten (ungefähr 2,5 Lakh-Sequenzen) etwa ein Viertel der jährlichen Datenproduktion von YouTube aus. Wenn all diese Daten mit all den zusätzlichen Informationen kombiniert würden, die mit der Sequenzierung von Genomen einhergehen, und auf 4-GB-DVDs aufgezeichnet würden, wäre dies ein Stapel von etwa einer halben Meile Höhe.

Die Methoden zur Gensequenzierung haben sich im Laufe der Jahre verbessert, und die Kosten dafür sind exponentiell gesunken. Im Jahr 2008 betrugen die Kosten für die Gensequenzierung 10 Millionen Dollar. Heute sind es nur noch 1000 Dollar. Für die Zukunft ist mit einer weiteren Reduzierung zu rechnen. Es wird geschätzt, dass bis 2025 die Gene von einer Milliarde Menschen sequenziert werden. Innerhalb des nächsten Jahrzehnts werden die generierten Genomdaten also irgendwo zwischen 2 und 40 Exabyte pro Jahr liegen. Ein Exabyte sind zehn gefolgt von 17 Nullen.
Bevor wir darauf eingehen, wie Daten bei der Heilung von Krebs helfen, lassen Sie uns ein konkretes Beispiel nehmen und sehen, wie Daten bei der Bekämpfung einer Krankheit helfen können. Daten und ihre Analyse halfen dabei, die Ursache einer Infektionskrankheit herauszufinden und sie zu bekämpfen, nicht jetzt, sondern im 19. Jahrhundert selbst! Ja, im neunzehnten Jahrhundert! Der Name dieser Krankheit ist Cholera.
Clusterbildung im 19. Jahrhundert – der Durchbruch der Cholera
John Snow war Anästhesist und im September 1854 brach in der Nähe von Snows Haus die Cholera aus. Um den Grund für Cholera zu erfahren, beschloss Snow, die räumlichen Dimensionen der Patienten auf dem Stadtplan zu notieren. Er markierte den Ort der Privatadresse von Patienten auf dem Londoner Stadtplan. Mit dieser Übung verstand John Snow, dass Menschen, die an Cholera erkrankt waren, sich um bestimmte Wasserbrunnen versammelten. Er war fest davon überzeugt, dass eine kontaminierte Pumpe für die Epidemie verantwortlich war und ersetzte die Pumpe gegen den Willen der örtlichen Behörden. Dieser Ersatz reduzierte die Ausbreitung der Cholera drastisch.
Snow veröffentlichte daraufhin eine Karte des Ausbruchs, um seine Theorie zu untermauern, die die Standorte der 13 öffentlichen Brunnen in der Gegend und die 578 Cholera-Todesfälle nach Privatadressen zeigt. Diese Karte führte letztendlich zu dem Verständnis, dass Cholera eine ansteckende Krankheit war und sich schnell durch das Medium Wasser ausbreitete. Das Experiment von John Snow ist das früheste Beispiel für die Anwendung des Clustering-Algorithmus, um die Ursache von Krankheiten zu erkennen und zu ihrer Ausrottung beizutragen. Im 19. Jahrhundert konnte John Snow den Clustering-Algorithmus mit einem Bleistift auf einen Londoner Stadtplan anwenden. Mit Krebs als Zielkrankheit ist diese Analyseebene nicht mit der gleichen Leichtigkeit möglich wie die Analyse von John Snow. Wir brauchen ausgefeilte Werkzeuge und Technologien, um diese Daten zu gewinnen. Hier nutzen wir die Möglichkeiten moderner Technologien wie Machine Learning und Big Data.
Big Data und maschinelles Lernen – Werkzeuge zur Krebsbekämpfung
Riesige Datenmengen zusammen mit maschinellen Lernalgorithmen werden uns in vielerlei Hinsicht bei unserem Kampf gegen den Krebs helfen. Es kann uns bei der Diagnose, Behandlung und Prognose helfen. Vor allem hilft es, die Therapie an den Patienten anzupassen, was sonst nicht möglich ist. Es wird auch helfen, mit dem langen Schwanz der Verteilung umzugehen.

Angesichts der enormen Mengen an elektronischen Krankenakten (EMR), Daten, die von verschiedenen Krankenhäusern generiert und aufgezeichnet werden; Es ist möglich, „markierte“ Daten bei der Krebsdiagnose zu verwenden. Techniken wie Natural Language Programming (NLP) werden verwendet, um ärztliche Verschreibungen zu verstehen, und Deep Learning Neural Networks werden eingesetzt, um CT- und MRT-Scans zu analysieren. Die verschiedenen Arten von maschinellen Lernalgorithmen durchsuchen die EMR-Datenbanken und finden versteckte Muster. Diese verborgenen Muster helfen bei der Diagnose von Krebs.
Eine Studentin konnte bequem von zu Hause aus ein künstliches neuronales Netzwerk entwerfen und ein Modell entwickeln, das Brustkrebs mit hoher Genauigkeit diagnostizieren kann.
Diagnose mit Big Data und Machine Learning
Brittanny Wenger war 16 Jahre alt, als bei ihrer älteren Cousine Brustkrebs diagnostiziert wurde. Dies inspirierte sie dazu, den Prozess durch eine Verbesserung der Diagnostik zu verbessern. Die Feinnadelaspiration (FNA) war eine weniger invasive Biopsiemethode und die schnellste Diagnosemethode. Die Ärzte zögerten, FNA zu verwenden, da die Ergebnisse nicht zuverlässig sind. Brittanny dachte daran, ihre Programmierkenntnisse einzusetzen, um etwas dagegen zu unternehmen. Sie beschloss, die Zuverlässigkeit der FNA zu verbessern, was es den Frauen ermöglichen würde, weniger invasive und komfortable Diagnosemethoden zu wählen.
Brittanny fand gemeinfreie Daten von der University of Wisconsin, die Fine Needle Aspiration enthielten. Sie codierte ein künstliches neuronales Netzwerk (KNN), das vom Design der menschlichen Gehirnarchitektur inspiriert ist. Sie verwendete Cloud-Technologien, um die Daten zu verarbeiten und das ANN zu trainieren, um die Ähnlichkeiten zu finden. Nach vielen Versuchen und Fehlern war ihr Netzwerk schließlich in der Lage, Brustkrebs anhand von FNA-Testdaten mit einer Sensitivität von 99,1 % gegenüber Malignität zu erkennen. Dieses Verfahren ist auch für die Diagnose anderer Krebsarten anwendbar.
Die Genauigkeit der Diagnose hängt von der Menge und Qualität der verfügbaren Daten ab. Je mehr Daten verfügbar sind, desto mehr können die Algorithmen die Datenbank abfragen, Ähnlichkeiten finden und wertvolle Modelle hervorbringen.

Umgang mit Big Data und maschinellem Lernen
Big Data und maschinelles Lernen werden nicht nur für die Diagnose, sondern auch für die Behandlung hilfreich sein. John und Kathy waren drei Jahrzehnte verheiratet. Im Alter von 49 Jahren wurde bei Kathy Brustkrebs im Stadium III diagnostiziert. John, CIO eines Bostoner Krankenhauses, half bei der Planung ihrer Behandlung mit Hilfe von Big-Data-Tools, die er entwickelt und ins Leben gerufen hat.
Im Jahr 2008 teilten fünf mit Harvard verbundene Krankenhäuser ihre Datenbanken und erstellten ein leistungsstarkes Suchwerkzeug namens „Shared Health Research Information Network“ (SHRINE). Zum Zeitpunkt von Kathys Diagnose konnten ihre Ärzte eine Datenbank mit 6,1 Millionen Datensätzen durchsuchen, um aufschlussreiche Informationen zu finden. Ärzte befragten „SHRINE“ mit Fragen wie „50-jährige asiatische Frauen, bei denen Brustkrebs im Stadium III diagnostiziert wurde, und ihre Behandlungen“. Ausgestattet mit diesen Informationen konnten die Ärzte sie mit Chemotherapeutika behandeln, indem sie auf die Östrogen-empfindlichen Tumorzellen abzielten und eine Operation vermieden.
Als Kathy ihre Chemotherapie abgeschlossen hatte, konnten die Radiologen keine Tumorzellen mehr finden. Dies ist ein Beispiel dafür, wie Big-Data-Tools dabei helfen können, den Behandlungsplan an die jeweiligen Anforderungen anzupassen.
Da es sich bei Krebs um eine Long-Tail-Verteilung handelt, wird eine „one size fits all“-Philosophie nicht funktionieren. Um Behandlungen an die Vorgeschichte des Patienten, seine Gensequenz, die Ergebnisse diagnostischer Tests, eine in seinen Genen gefundene Mutation oder eine Kombination aus Genen und Umgebung anzupassen, sind Big Data und maschinelle Lernwerkzeuge unverzichtbar.
Wirkstoffforschung mit Big Data und maschinellem Lernen
Big Data und maschinelles Lernen werden nicht nur bei der Diagnose und Behandlung helfen, sondern auch die Arzneimittelforschung revolutionieren. Forscher können offene Daten und Rechenressourcen nutzen, um neue Verwendungen für die Medikamente zu entdecken, die bereits von Behörden wie der FDA für andere Zwecke zugelassen sind. Beispielsweise fanden Wissenschaftler der University of California in San Francisco durch Zahlenknirschen heraus, dass ein Medikament namens „Pyrviniumpamoat“, das zur Behandlung von Madenwürmern verwendet wird, das hepatozelluläre Karzinom, eine Art von Leberkrebs, bei Mäusen schrumpfen lassen könnte. Diese Krankheit, die mit der Leber in Verbindung gebracht wird, trägt weltweit am zweithäufigsten zu Todesfällen durch Krebs bei.

Big Data wird nicht nur zur Entdeckung neuer Verwendungsmöglichkeiten für alte Medikamente verwendet, sondern kann auch zur Erkennung neuer Medikamente verwendet werden. Durch das Zusammenführen von Daten zu verschiedenen Medikamenten, Chemikalien und ihren Eigenschaften, Symptomen verschiedener Krankheiten, der chemischen Zusammensetzung der für diese Erkrankungen verwendeten Medikamente und Nebenwirkungen dieser Medikamente, die aus verschiedenen Medien gesammelt wurden; Neue Medikamente können für verschiedene Krebsarten entwickelt werden. Dies wird die Zeit, die benötigt wird, um neue Medikamente zu entwickeln, erheblich verkürzen, ohne dabei Millionen von Dollar zu verschwenden.
Der Einsatz von Big Data und maschinellem Lernen wird zweifellos den Prozess der Diagnose, Behandlung und Arzneimittelentdeckung bei der Behandlung von Krebs verbessern, ist jedoch nicht ohne Herausforderungen. Auf dem Weg dorthin gibt es viele Stolpersteine und Probleme. Wenn diese Blockaden nicht entfernt werden und diese Herausforderungen nicht angegangen werden, wird unser Feind die Oberhand gewinnen und uns in der zukünftigen Schlacht besiegen.
Herausforderungen bei der Verwendung von Big Data und maschinellem Lernen zur Krebsbekämpfung
Digitalisierung
Abgesehen von einigen großen und technisch fortgeschrittenen Krankenhäusern müssen die meisten noch digitalisiert werden. Sie folgen immer noch den alten Methoden der Erfassung und Aufzeichnung von Daten in riesigen Dateistapeln. Aus Mangel an technischem Know-how, Erschwinglichkeit, Skaleneffekten und verschiedenen anderen Gründen hat die Digitalisierung nicht stattgefunden. Die Bereitstellung von Open-Source-EMR-Software und die Aufklärung darüber, wie hilfreich diese digitalen Aufzeichnungen bei der Behandlung der Patienten sein können und wie profitabel sie für die Krankenhäuser sind, sind einige Schritte in die richtige Richtung.
Daten in Enterprise Warehouses gesperrt
Bis heute können nur wenige Krankenhäuser Patientenakten digital erfassen. Auch dieser Apparat ist in den Lagerhäusern der Unternehmen weggesperrt und für die ganze Welt unzugänglich.
Krankenhäuser zögern, ihre Datenbanken mit anderen Krankenhäusern zu teilen. Auch wenn sie bereit sind, werden sie von den unterschiedlichen Datenbankschemata und -architekturen geplagt. An dieser Front muss kritisch darüber nachgedacht werden, wie Krankenhäuser ihre Datenbanken untereinander zum gegenseitigen Nutzen teilen können, ohne sich gegenseitig misstrauisch zu machen. Es muss ein Konsens darüber erzielt werden, in welchem Schema diese Daten zum Nutzen aller Krankenhäuser ebenfalls geteilt werden sollen. Diese Patientendaten sollten demokratisiert und für die Verbesserung der Zukunft der Menschheit genutzt werden.

Patientendaten dürfen nicht für das Wachstum einer einzelnen Organisation verwendet werden. Es sollte größtmögliche Sorgfalt darauf verwendet werden, die Person zu anonymisieren, der die Daten gehören. Wenn die Lippenstiftpräferenz einer Person durchgesickert ist, dann gibt es keinen großen Schaden. Wenn die Krankengeschichte einer Person durchgesickert ist, hat dies erhebliche Auswirkungen auf ihr Leben und ihre Aussichten.
Die Regierung sollte positive Schritte in diese Richtung unternehmen und dabei helfen, eine Big-Data-Infrastruktur zur Speicherung von Krankenakten von Patienten aus allen Krankenhäusern zu schaffen. Es sollte für alle Krankenhäuser verpflichtend sein, ihre Datenbank innerhalb dieser gemeinsamen Infrastruktur zu teilen. Der Zugang zu dieser Datenbank sollte für die Behandlung und Forschung von Patienten kostenlos sein.
Verbesserung der Effizienz von Algorithmen für maschinelles Lernen
Maschinelles Lernen ist keine magische Pille für die Krebsdiagnose und -behandlung. Es ist ein Werkzeug, das, wenn es richtig eingesetzt wird, uns auf unserem Weg helfen kann, den Krebs zu besiegen. Maschinelles Lernen steckt noch in den Kinderschuhen und hat seine Nachteile. Beispielsweise müssen die Daten, auf denen diese Algorithmen trainiert werden, sehr nah an den Daten sein, auf denen sie zur Erzielung von Ergebnissen verwendet werden. Wenn es einen großen Unterschied gibt, kann der Algorithmus keine sinnvollen Ergebnisse liefern, die verwendet werden können.
Es gibt viele maschinelle Lernalgorithmen, die mit ihren eigenen besonderen Annahmen, Vor- und Nachteilen existieren. Wenn wir einen Weg finden könnten, all diese verschiedenen Algorithmen zu kombinieren, um die von uns geforderten Ergebnisse zu erzielen, dh natürlich Krebs zu heilen, hätten wir ein äußerst vorteilhaftes Ergebnis gefunden. Der berühmte Machine-Learning-Wissenschaftler Pedro Domingos nennt es „The Master Algorithm“, der auch ein populärwissenschaftliches Buch mit dem gleichen Namen geschrieben hat.
Laut Pedro gibt es beim maschinellen Lernen fünf verschiedene Denkschulen. Die Symbolisten, Konnektionisten, Bayesianer, Evolutionäre und Analogisierer. Es ist schwierig, in diesem Artikel auf all diese verschiedenen Arten von maschinellen Lernsystemen einzugehen. Ich werde alle fünf Arten von maschinellen Lernsystemen in einem meiner zukünftigen Blogs behandeln. Im Moment müssen wir verstehen, dass all diese verschiedenen Methoden ihre eigenen Vor- und Nachteile haben. Wenn wir sie kombinieren können, können wir aus unseren Daten sehr wirkungsvolle Erkenntnisse gewinnen. Dies wird nicht nur für alle Arten von Vorhersagen und Prognosen von großem Nutzen sein, sondern auch für unseren Kampf gegen einen rachsüchtigen Feind – Krebs.

Zusammenfassend lässt sich sagen, dass Krebs ein gewaltiger Feind ist, der ständig seine Form ändert. Mit Big Data und maschinellem Lernen haben wir jetzt aber neue Waffen in unserem Arsenal, um ihm kompetent zu begegnen. Aber um es vollständig zu zerstören, brauchen wir eine stärkere Waffe als die, die wir derzeit besitzen. Der Name dieser Waffe ist „The Master Algorithm“.
Wir müssen auch einige Änderungen in den Strategien und Methoden vornehmen, mit denen wir diesen Feind bekämpfen. Diese Änderungen schaffen eine Big-Data-Infrastruktur, die es Krankenhäusern vorschreibt, anonymisierte Patientenakten zu teilen, die Sicherheit der Datenbank aufrechtzuerhalten und freien Zugang zur Datenbank für Patientenbehandlung und Forschung zur Heilung von Krebs zu ermöglichen.
Holen Sie sich eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Lernen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.
Einpacken
Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.
Lernen Sie Software-Engineering-Abschlüsse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

