Comment le Big Data et l'apprentissage automatique s'unissent contre le cancer

Publié: 2018-01-09

Le cancer n'est pas une maladie. Il s'agit de nombreuses maladies. Comprenons la cause du cancer par un exemple simple. Si vous prenez une photocopie d'un document, en raison de certains problèmes, d'autres points ou taches apparaissent dessus même s'ils ne sont pas présents dans la copie originale. De la même manière, dans les processus de réplication des gènes, des erreurs se produisent par inadvertance. La plupart du temps, les gènes avec des erreurs ne pourront pas se maintenir et finiront par périr.

Dans de rares cas, le gène muté avec des erreurs survivra et se répliquera de manière incontrôlable. La réplication incontrôlable de gènes mutés est la principale cause de cancer. Cette mutation peut se produire dans n'importe lequel des vingt mille gènes de notre corps. La variation d'un gène ou d'une combinaison de gènes fait du cancer une maladie grave à vaincre. Pour éradiquer le cancer, nous avons besoin de méthodes pour détruire les cellules voyous sans nuire aux cellules fonctionnelles du corps ; ce qui le rend doublement difficile à vaincre.

Table des matières

Le cancer et sa complexité

Le cancer est une maladie avec une distribution à longue queue. La distribution à longue traîne signifie qu'il existe diverses raisons pour que cette condition se produise et qu'il n'y a pas de solution unique pour l'éradiquer. Il existe des maladies qui affectent un grand pourcentage de la population mais qui ont une seule cause d'apparition. Par exemple, considérons le choléra. Manger des aliments ou boire de l'eau contaminée par la bactérie Vibrio Cholerae est la cause du choléra. Le choléra ne peut survenir qu'à cause de Vibrio Cholerae, et il n'y a pas d'autre raison. Une fois que nous avons découvert la seule cause d'une maladie, il est relativement facile de la vaincre.

Big Data et Machine Learning unis contre le cancer UpGrad Blog
Que se passe-t-il si une condition survient pour plusieurs raisons ? Une mutation peut se produire dans n'importe lequel des vingt mille gènes de notre corps. Non seulement cela, mais nous devons également tenir compte de leurs combinaisons. Le cancer peut survenir non seulement à cause d'une mutation aléatoire dans un gène, mais aussi à cause d'une combinaison de mutations génétiques. Le nombre de causes de cancer devient exponentiel et il n'existe pas de mécanisme unique pour le guérir. Par exemple, une mutation de l'un de ces gènes ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET et RIT1 peut provoquer un cancer du poumon. Le cancer peut se produire de nombreuses façons et c'est pourquoi il s'agit d'une maladie à longue queue.

Dans notre arsenal pour mener cette guerre contre le cancer et le vaincre, les mégadonnées et l'apprentissage automatique sont des outils essentiels. Comment le big data peut-il aider à mener cette guerre ? Qu'est-ce que l'apprentissage automatique a à voir avec le cancer ? Comment vont-ils aider à lutter contre une maladie aux multiples causes, une maladie dont la distribution est à longue queue ? Premièrement, comment et où ces mégadonnées sont-elles générées ? Trouvons des réponses à ces questions.

Séquençage des gènes et explosion des données

Le séquençage des gènes est un domaine qui produit d'énormes quantités de données. Combien de données exactement ? Selon le Washington Post , les données humaines générées par le séquençage des gènes (environ 2,5 lakh de séquences) occupent environ un quart de la taille de la production annuelle de données de YouTube. Si toutes ces données étaient combinées avec toutes les informations supplémentaires fournies avec le séquençage des génomes et enregistrées sur des DVD de 4 Go, ce serait une pile d'environ un demi-mile de haut.

Les méthodes de séquençage des gènes se sont améliorées au fil des ans et leur coût a chuté de façon exponentielle. En 2008, le coût du séquençage des gènes était de 10 millions de dollars. À ce jour, ce n'est qu'un 1000 dollars. À l'avenir, on s'attend à ce qu'il diminue encore. On estime qu'un milliard de personnes verront leurs gènes séquencés d'ici 2025. Ainsi, au cours de la prochaine décennie, les données génomiques générées seront comprises entre 2 et 40 exaoctets par an. Un exaoctet est dix suivi de 17 zéros.

Avant d'en venir à la façon dont les données aideront à guérir le cancer, prenons un exemple concret et voyons comment les données peuvent aider à vaincre une maladie. Les données et leur analyse ont aidé à découvrir la cause d'une maladie infectieuse et à la combattre, pas maintenant mais au XIXe siècle même ! Oui, au XIXème siècle ! Le nom de cette maladie est Choléra.

Regroupement au XIXe siècle - la percée du choléra

John Snow était anesthésiste et le choléra éclata en septembre 1854 près de la maison de Snow. Pour connaître la raison du choléra, Snow a décidé de noter les dimensions spatiales des patients sur le plan de la ville. Il a marqué l'emplacement de l'adresse du domicile des patients sur le plan de la ville de Londres. Avec cet exercice, John Snow a compris que les personnes atteintes de choléra étaient regroupées autour de certains puits d'eau spécifiques. Il croyait fermement qu'une pompe contaminée était responsable de l'épidémie et contre la volonté des autorités locales a remplacé la pompe. Ce remplacement a considérablement réduit la propagation du choléra.

Snow a ensuite publié une carte de l'épidémie pour étayer sa théorie, montrant les emplacements des 13 puits publics dans la région et les 578 décès dus au choléra cartographiés par adresse personnelle. Cette carte a finalement permis de comprendre que le choléra était une maladie infectieuse et se propageait rapidement par l'intermédiaire de l'eau. L'expérience de John Snow est le premier exemple d'application de l'algorithme de regroupement pour connaître la cause d'une maladie et aider à l'éradiquer. Au XIXe siècle, John Snow pouvait appliquer un algorithme de regroupement sur une carte de la ville de Londres avec un crayon. Avec le cancer comme maladie cible, ce niveau d'analyse n'est pas possible avec la même facilité que l'analyse de John Snow. Nous avons besoin d'outils et de technologies sophistiqués pour exploiter ces données. C'est là que nous tirons parti des capacités des technologies modernes telles que l'apprentissage automatique et le Big Data.

Big data et Machine learning – des outils pour lutter contre le cancer

De grandes quantités de données ainsi que des algorithmes d'apprentissage automatique nous aideront dans notre lutte contre le cancer de plusieurs façons. Cela peut nous aider avec le diagnostic, le traitement et le pronostic. Cela aidera principalement à personnaliser la thérapie en fonction du patient, ce qui n'est pas possible autrement. Cela aidera également à gérer la longue traîne de la distribution.

Big Data et Machine Learning unis contre le cancer UpGrad Blog
Compte tenu des énormes quantités de dossiers médicaux électroniques (DME), de données générées et enregistrées par divers hôpitaux ; il est possible d'utiliser des données « étiquetées » pour diagnostiquer le cancer. Des techniques telles que la programmation en langage naturel (PNL) sont utilisées pour donner un sens aux prescriptions du médecin et des réseaux de neurones d'apprentissage en profondeur sont déployés pour analyser les tomodensitogrammes et les IRM. Les différents types d'algorithmes d'apprentissage automatique recherchent dans les bases de données EMR et trouvent des modèles cachés. Ces schémas cachés aideront à diagnostiquer les cancers.

Une étudiante a pu concevoir un réseau de neurones artificiels dans le confort de sa maison et a développé un modèle capable de diagnostiquer le cancer du sein avec un haut degré de précision.

Diagnostic avec Big Data et Machine Learning

Brittanny Wenger avait 16 ans lorsque sa cousine aînée a reçu un diagnostic de cancer du sein. Cela l'a inspirée à améliorer le processus en améliorant les diagnostics. L'aspiration à l'aiguille fine (FNA) était une méthode de biopsie moins invasive et la méthode de diagnostic la plus rapide. Les médecins étaient réticents à utiliser FNA car les résultats ne sont pas fiables. Brittanny a pensé à utiliser ses compétences en programmation pour faire quelque chose à ce sujet. Elle a décidé d'améliorer la fiabilité de la FNA, ce qui permettrait aux femmes de choisir des méthodes de diagnostic moins invasives et confortables.

Brittanny a trouvé des données du domaine public de l'Université du Wisconsin qui comprenaient l'aspiration à l'aiguille fine. Elle a codé un réseau de neurones artificiels (ANN) qui s'inspire de la conception de l'architecture du cerveau humain. Elle a utilisé les technologies cloud pour traiter les données et former l'ANN pour trouver les similitudes. Après de nombreuses tentatives et erreurs, son réseau a finalement pu détecter le cancer du sein à partir des données d'un test FNA avec une sensibilité de 99,1 % à la malignité. Cette méthode est également applicable pour diagnostiquer d'autres cancers.

La précision du diagnostic dépend de la quantité et de la qualité des données disponibles. Plus il y aura de données disponibles, plus les algorithmes pourront interroger la base de données, trouver des similitudes et sortir des modèles valables.

Traitement avec Big Data et Machine Learning

Les mégadonnées et l'apprentissage automatique seront utiles non seulement pour le diagnostic, mais aussi pour le traitement. John et Kathy ont été mariés pendant trois décennies. À l'âge de 49 ans, Kathy a reçu un diagnostic de cancer du sein de stade III. John, directeur informatique d'un hôpital de Boston, a aidé à planifier son traitement à l'aide d'outils de données volumineuses qu'il a conçus et mis en place.

En 2008, cinq hôpitaux affiliés à Harvard ont partagé leurs bases de données et créé un puissant outil de recherche connu sous le nom de « Shared Health Research Information Network » (SHRINE). Au moment du diagnostic de Kathy, ses médecins pouvaient parcourir une base de données de 6,1 millions d'enregistrements pour trouver des informations pertinentes. Les médecins ont interrogé 'SHRINE' avec des questions telles que "Femmes asiatiques de 50 ans, diagnostiquées avec un cancer du sein de stade III et leurs traitements". Forts de ces informations, les médecins ont pu la traiter avec des médicaments de chimiothérapie en ciblant les cellules tumorales sensibles aux œstrogènes en évitant la chirurgie.

Au moment où Kathy a terminé son régime de chimiothérapie, les radiologues ne pouvaient plus trouver de cellules tumorales. Ceci est un exemple de la façon dont les outils de mégadonnées peuvent aider à personnaliser le plan de traitement en fonction des besoins de chacun.

Comme le cancer est une distribution à longue traîne, une philosophie « taille unique » ne fonctionnera pas. Pour personnaliser les traitements en fonction de l'histoire du patient, de sa séquence génétique, des résultats des tests diagnostiques, d'une mutation retrouvée dans ses gènes ou d'une combinaison de ses gènes et de son environnement, les outils de big data et de machine learning sont indispensables.

Découverte de médicaments avec Big Data et Machine Learning

Les mégadonnées et l'apprentissage automatique aideront non seulement au diagnostic et au traitement, mais révolutionneront également la découverte de médicaments. Les chercheurs peuvent utiliser des données ouvertes et des ressources informatiques pour découvrir de nouvelles utilisations des médicaments qui sont déjà approuvés par des agences comme la FDA à d'autres fins. Par exemple, des scientifiques de l'Université de Californie à San Francisco ont découvert en calculant qu'un médicament appelé "pamoate de pyrvinium", utilisé pour traiter les oxyures, pouvait réduire le carcinome hépatocellulaire, un type de cancer du foie, chez la souris. Cette maladie associée au foie est la deuxième cause de décès par cancer dans le monde.

Big Data et Machine Learning unis contre le cancer UpGrad Blog
Non seulement les mégadonnées sont utilisées pour découvrir de nouvelles utilisations d'anciens médicaments, mais elles peuvent également être utilisées pour détecter de nouveaux médicaments. En analysant les données relatives à différents médicaments, produits chimiques et leurs propriétés, les symptômes de diverses maladies, la composition chimique des médicaments utilisés pour ces affections et les effets secondaires de ces médicaments collectés à partir de différents supports ; de nouveaux médicaments peuvent être conçus pour différents types de cancer. Cela réduira considérablement le temps nécessaire pour trouver de nouveaux médicaments sans gaspiller des millions de dollars dans le processus.

L'utilisation des mégadonnées et de l'apprentissage automatique améliorera sans aucun doute le processus de diagnostic, de traitement et de découverte de médicaments dans le traitement du cancer, mais ce n'est pas sans défis. Il y a beaucoup d'obstacles et de problèmes sur la route à venir. Si ces blocs ne sont pas supprimés et que ces défis ne sont pas relevés, alors notre ennemi prendra le dessus et nous vaincra dans la bataille future.

Défis liés à l'utilisation du Big Data et de l'apprentissage automatique pour lutter contre le cancer

Numérisation

À l'exception de quelques grands hôpitaux techniquement avancés, la plupart d'entre eux doivent encore être numérisés. Ils suivent toujours les anciennes méthodes de capture et d'enregistrement des données dans d'énormes piles de fichiers. En raison du manque d'expertise technique, de l'abordabilité, des économies d'échelle et de diverses autres raisons, la numérisation n'a pas eu lieu. La fourniture d'un logiciel EMR open source, l'enseignement de l'utilité de ces dossiers numériques dans le traitement des patients et de leur rentabilité pour les hôpitaux sont des pas dans la bonne direction.

Données verrouillées dans les entrepôts d'entreprise

À ce jour, seuls quelques hôpitaux peuvent saisir numériquement les dossiers des patients. Cet appareil aussi est enfermé dans les entrepôts de l'entreprise et inaccessible au monde entier.

Les hôpitaux hésitent à partager leurs bases de données avec d'autres hôpitaux. Même s'ils le souhaitent, ils sont tourmentés par les différents schémas et architectures de base de données. Une réflexion critique est nécessaire à cet égard sur la manière dont les hôpitaux peuvent partager leurs bases de données entre eux pour leur bénéfice mutuel sans se méfier les uns des autres. Un consensus doit être atteint sur le schéma dans lequel ces données doivent également être partagées, au bénéfice de tous les hôpitaux. Ces données sur les patients doivent être démocratisées et utilisées pour l'amélioration de l'avenir de l'humanité.

Big Data et Machine Learning unis contre le cancer UpGrad Blog
Les données des patients ne doivent pas être utilisées pour la croissance d'une seule organisation. Le plus grand soin doit être apporté à l'anonymat de la personne à qui appartiennent les données. Si la préférence de rouge à lèvres d'une personne est divulguée, il n'y a pas beaucoup de mal. Si les antécédents médicaux d'une personne sont divulgués, cela aura un impact significatif sur sa vie et ses perspectives.

Le gouvernement devrait prendre des mesures positives dans cette direction et aider à créer une infrastructure de mégadonnées pour stocker les dossiers médicaux des patients de tous les hôpitaux. Elle devrait obliger tous les hôpitaux à partager leur base de données au sein de cette infrastructure partagée. L'accès à cette base de données devrait être rendu gratuit pour le traitement des patients et la recherche.

Amélioration de l'efficacité des algorithmes d'apprentissage automatique

L'apprentissage automatique n'est pas une pilule magique pour le diagnostic et le traitement du cancer. C'est un outil qui, s'il est bien utilisé, peut nous aider dans notre cheminement pour vaincre le cancer. L'apprentissage automatique en est encore à ses balbutiements et a ses inconvénients. Par exemple, les données sur lesquelles ces algorithmes sont entraînés doivent être très proches des données sur lesquelles ils sont utilisés pour produire des résultats. S'il y a une énorme différence entre eux, l'algorithme ne sera pas en mesure de fournir des résultats significatifs pouvant être utilisés.

Il existe de nombreux algorithmes d'apprentissage automatique qui existent avec leurs propres hypothèses, avantages et inconvénients. Si nous pouvions trouver un moyen de combiner tous ces différents algorithmes pour obtenir les résultats que nous exigeons, c'est-à-dire guérir le cancer, il va sans dire que nous aurions trouvé un résultat extrêmement bénéfique. Le célèbre scientifique en apprentissage automatique Pedro Domingos l'appelle "The Master Algorithm", qui a également écrit un livre de vulgarisation scientifique du même nom.
Selon Pedro, il existe cinq écoles de pensée différentes en matière d'apprentissage automatique. Les symbolistes, les connexionnistes, les bayésiens, les évolutionnistes et les analogistes. Il est difficile d'entrer dans tous ces différents types de systèmes d'apprentissage automatique dans cet article. Je couvrirai les cinq types de systèmes d'apprentissage automatique dans l'un de mes futurs blogs. Pour l'instant, nous devons comprendre que toutes ces différentes méthodes ont leurs propres avantages et inconvénients. Si nous pouvons les combiner, nous pouvons alors tirer des informations très percutantes de nos données. Cela sera extrêmement utile non seulement pour toutes sortes de prédictions et de prévisions, mais aussi pour notre combat contre un ennemi vengeur - le cancer.

En résumé, le cancer est un ennemi redoutable qui change fréquemment de forme. Nous possédons maintenant de nouvelles armes dans notre arsenal sous la forme de mégadonnées et d'apprentissage automatique, cependant, pour y faire face avec compétence. Mais pour le démolir entièrement, nous avons besoin d'une arme plus puissante que celle que nous possédons actuellement. Le nom de cette arme est "The Master Algorithm".

Nous devons également faire quelques changements dans les stratégies et les méthodes avec lesquelles nous combattons cet ennemi. Ces changements créent une infrastructure de mégadonnées, obligeant les hôpitaux à partager les dossiers anonymisés des patients, maintenant la sécurité de la base de données et permettant un accès gratuit à la base de données pour le traitement des patients et la recherche pour guérir le cancer.

Obtenez une certification en science des données des meilleures universités du monde. Apprenez les programmes Executive PG, les programmes de certificat avancés ou les programmes de maîtrise pour accélérer votre carrière.

Emballer

Si vous souhaitez en savoir plus sur le Big Data, consultez notre programme PG Diploma in Software Development Specialization in Big Data qui est conçu pour les professionnels en activité et fournit plus de 7 études de cas et projets, couvre 14 langages et outils de programmation, pratique pratique ateliers, plus de 400 heures d'apprentissage rigoureux et d'aide au placement dans les meilleures entreprises.

Apprenez des diplômes en génie logiciel en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Planifiez votre carrière en science des données dès maintenant.

Postuler pour le programme de certificat professionnel en science des données de l'IIM-Kozhikode