Cómo Big Data y Machine Learning se están uniendo contra el cáncer

Publicado: 2018-01-09

El cáncer no es una sola enfermedad. Son muchas enfermedades. Entendamos la causa del cáncer con un ejemplo simple. Si toma una fotocopia de un documento, debido a algunos problemas, aparecen otros puntos o manchas en él aunque no estén presentes en la copia original. De la misma manera, en los procesos de replicación de genes, los errores se producen de forma inadvertida. La mayoría de las veces, los genes con errores no podrán sostenerse y finalmente perecerán.

En algunos casos raros, el gen mutado con errores sobrevivirá y se replicará sin control. La replicación incontrolable de genes mutados es la causa principal del cáncer. Esta mutación puede ocurrir en cualquiera de los veinte mil genes de nuestro cuerpo. La variación en cualquiera de los genes o en una combinación de ellos hace que el cáncer sea una enfermedad grave que conquistar. Para erradicar el cáncer, necesitamos métodos para destruir las células rebeldes sin dañar las células funcionales del cuerpo; lo que hace que sea doblemente difícil de derrotar.

Tabla de contenido

El cáncer y su complejidad
- Secuenciación de genes y explosión de datos
- Agrupamiento en el siglo XIX: el avance del cólera
Big data y Machine learning: herramientas para luchar contra el cáncer
- Diagnóstico con Big Data y Machine Learning
- Tratamiento con Big Data y Machine Learning
- Descubrimiento de fármacos con Big Data y Machine Learning
- Desafíos en el uso de Big Data y Machine Learning para combatir el cáncer
  - digitalización
  - Datos bloqueados en almacenes empresariales
- Mejora en la eficiencia de los Algoritmos de Machine Learning
Terminando

El cáncer y su complejidad

El cáncer es una enfermedad con una distribución de cola larga. La distribución de cola larga significa que hay varias razones para que ocurra esta condición y no existe una solución única para erradicarla. Hay enfermedades que afectan a un gran porcentaje de la población pero que tienen una única causa de aparición. Por ejemplo, consideremos el cólera. Comer alimentos o beber agua contaminados por la bacteria Vibrio Cholerae es la causa del cólera. El cólera solo puede ocurrir debido a Vibrio Cholerae, y no hay otra razón. Una vez que descubrimos la única causa de una enfermedad, es relativamente fácil conquistarla.

Big Data y Machine Learning Unidos contra el Cáncer UpGrad Blog
¿Qué pasa si una condición ocurre debido a múltiples razones? Una mutación puede ocurrir en cualquiera de los veinte mil genes de nuestro cuerpo. No solo eso, sino que también debemos considerar sus combinaciones. Es posible que el cáncer no solo ocurra debido a una mutación aleatoria en un gen, sino también a una combinación de mutaciones genéticas. El número de causas del cáncer se vuelve exponencial y no existe un mecanismo único para curarlo. Por ejemplo, una mutación de cualquiera de estos genes ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET y RIT1 puede causar cáncer de pulmón. Hay muchas formas de que se presente el cáncer y es por eso que es una enfermedad con una distribución de cola larga.

En nuestro arsenal para librar esta guerra contra el cáncer y conquistarlo, los macrodatos y el aprendizaje automático son herramientas críticas. ¿Cómo pueden ayudar los grandes datos en la lucha contra esta guerra? ¿Qué tiene que ver el aprendizaje automático con el cáncer? ¿Cómo van a ayudar a combatir una enfermedad con muchas causas, una condición con una distribución de cola larga? En primer lugar, ¿cómo y dónde se genera este big data? Busquemos respuestas a estas preguntas.

Secuenciación de genes y explosión de datos

La secuenciación de genes es un área que está produciendo enormes cantidades de datos. ¿Exactamente cuántos datos? Según el Washington Post , los datos humanos generados a través de la secuenciación de genes (aproximadamente 2,5 lakh de secuencias) ocupan aproximadamente una cuarta parte del tamaño de la producción anual de datos de YouTube. Si todos estos datos se combinaran con toda la información adicional que viene con la secuenciación de genomas y se grabaran en DVD de 4 GB, sería una pila de aproximadamente media milla de alto.

Los métodos para la secuenciación de genes han mejorado a lo largo de los años, y el costo de los mismos se ha desplomado exponencialmente. En el año 2008, el costo de la secuenciación de genes fue de 10 millones de dólares. A día de hoy, son sólo 1000 dólares. En el futuro, se espera que se reduzca aún más. Se estima que mil millones de personas tendrán sus genes secuenciados para 2025. Entonces, dentro de la próxima década, los datos genómicos generados serán entre 2 y 40 exabytes en un año. Un exabyte es diez seguido de 17 ceros.

Antes de llegar a cómo los datos ayudarán a curar el cáncer, tomemos un ejemplo concreto y veamos cómo los datos pueden ayudar a vencer una enfermedad. Los datos y su análisis ayudaron a descubrir la causa de una enfermedad infecciosa y combatirla, ¡no ahora sino en el mismo siglo XIX! ¡Sí, en el siglo XIX! El nombre de esa enfermedad es Cólera.

Agrupamiento en el siglo XIX: el avance del cólera

John Snow era anestesiólogo y el cólera estalló en septiembre de 1854 cerca de la casa de Snow. Para conocer el motivo del cólera, Snow decidió anotar las dimensiones espaciales de los enfermos en el mapa de la ciudad. Marcó la ubicación de la dirección de la casa de los pacientes en el mapa de la ciudad de Londres. Con este ejercicio, John Snow entendió que las personas que padecían cólera se agrupaban alrededor de unos pozos de agua específicos. Creía firmemente que una bomba contaminada era la responsable de la epidemia y contra la voluntad de las autoridades locales reemplazó la bomba. Este reemplazo redujo drásticamente la propagación del cólera.

Posteriormente, Snow publicó un mapa del brote para respaldar su teoría, que muestra las ubicaciones de los 13 pozos públicos en el área y las 578 muertes por cólera asignadas por domicilio. Este mapa finalmente llevó a la comprensión de que el cólera era una enfermedad infecciosa y se propagó rápidamente a través del agua. El experimento de John Snow es el primer ejemplo de la aplicación del algoritmo de agrupación para conocer la causa de la enfermedad y ayudar a erradicarla. En el siglo XIX, John Snow podía aplicar un algoritmo de agrupamiento en un mapa de la ciudad de Londres con un lápiz. Con el cáncer como enfermedad objetivo, este nivel de análisis no es posible con la misma facilidad que el Análisis de John Snow. Necesitamos herramientas y tecnologías sofisticadas para extraer estos datos. Ahí es donde aprovechamos las capacidades de las tecnologías modernas como Machine Learning y Big Data.

Big data y Machine learning: herramientas para luchar contra el cáncer

Grandes cantidades de datos junto con algoritmos de aprendizaje automático nos ayudarán en nuestra lucha contra el cáncer de muchas maneras. Nos puede ayudar con el diagnóstico, el tratamiento y el pronóstico. Principalmente, ayudará a personalizar la terapia de acuerdo con el paciente, lo que no es posible de otra manera. También ayudará a lidiar con la cola larga de la distribución.

Big Data y Machine Learning Unidos contra el Cáncer UpGrad Blog
Dadas las enormes cantidades de registros médicos electrónicos (EMR), datos generados y registrados por varios hospitales; es posible utilizar datos 'etiquetados' en el diagnóstico del cáncer. Se utilizan técnicas como la programación del lenguaje natural (PNL) para dar sentido a las recetas médicas y se implementan redes neuronales de aprendizaje profundo para analizar tomografías computarizadas y resonancias magnéticas. Los diferentes tipos de algoritmos de aprendizaje automático buscan en las bases de datos de EMR y encuentran patrones ocultos. Estos patrones ocultos ayudarán en el diagnóstico de cánceres.

Una estudiante universitaria pudo diseñar una Red Neuronal Artificial desde la comodidad de su hogar y desarrolló un modelo que puede diagnosticar el cáncer de mama con un alto grado de precisión.

Diagnóstico con Big Data y Machine Learning

Brittanny Wenger tenía 16 años cuando a su prima mayor le diagnosticaron cáncer de mama. Esto la inspiró a mejorar el proceso mejorando los diagnósticos. La aspiración con aguja fina (AAF) fue un método de biopsia menos invasivo y el método de diagnóstico más rápido. Los médicos se mostraron reacios a utilizar FNA porque los resultados no son fiables. Brittanny pensó en usar sus habilidades de programación para hacer algo al respecto. Decidió mejorar la fiabilidad de la FNA, lo que permitiría a las mujeres elegir métodos de diagnóstico menos invasivos y cómodos.

Brittanny encontró datos de dominio público de la Universidad de Wisconsin que incluían la aspiración con aguja fina. Ella codificó una red neuronal artificial (ANN) que está inspirada en el diseño de la arquitectura del cerebro humano. Usó tecnologías en la nube para procesar los datos y entrenar a la ANN para encontrar las similitudes. Finalmente, después de muchos intentos y errores, su red pudo detectar el cáncer de mama a partir de los datos de una prueba FNA con una sensibilidad del 99,1 % a la malignidad. Este método también es aplicable para diagnosticar otros tipos de cáncer.

La precisión del diagnóstico depende de la cantidad y calidad de los datos disponibles. Cuantos más datos estén disponibles, más podrán los algoritmos consultar la base de datos, encontrar similitudes y generar modelos valiosos.

Tratamiento con Big Data y Machine Learning

Los grandes datos y el aprendizaje automático serán útiles no solo para el diagnóstico sino también para el tratamiento. John y Kathy estuvieron casados durante tres décadas. A la edad de 49 años, a Kathy le diagnosticaron cáncer de mama en etapa III. John, CIO de un hospital de Boston, ayudó a planificar su tratamiento con la ayuda de herramientas de big data que él diseñó y creó.

En 2008, cinco hospitales afiliados a Harvard compartieron sus bases de datos y crearon una poderosa herramienta de búsqueda conocida como 'Red de información de investigación de salud compartida' (SHRINE). En el momento del diagnóstico de Kathy, sus médicos podían revisar una base de datos de 6,1 millones de registros para encontrar información útil. Los médicos consultaron a 'SHRINE' con preguntas como "mujeres asiáticas de 50 años, diagnosticadas con cáncer de mama en etapa III y sus tratamientos". Armados con esta información, los médicos pudieron tratarla con medicamentos de quimioterapia al atacar las células tumorales sensibles al estrógeno evitando la cirugía.

Cuando Kathy completó su régimen de quimioterapia, los radiólogos ya no pudieron encontrar células tumorales. Este es un ejemplo de cómo las herramientas de big data pueden ayudar a personalizar el plan de tratamiento de acuerdo con los requisitos de cada uno.

Como el cáncer es una distribución de cola larga, la filosofía de "talla única" no funcionará. Para personalizar los tratamientos según el historial del paciente, su secuencia genética, los resultados de las pruebas de diagnóstico, una mutación encontrada en sus genes o una combinación de sus genes y el entorno, las herramientas de big data y aprendizaje automático son indispensables.

Descubrimiento de fármacos con Big Data y Machine Learning

Big data y el aprendizaje automático no solo ayudarán en el diagnóstico y el tratamiento, sino que también revolucionarán el descubrimiento de fármacos. Los investigadores pueden usar datos abiertos y recursos computacionales para descubrir nuevos usos para los medicamentos que ya están aprobados por agencias como la FDA para otros fines. Por ejemplo, los científicos de la Universidad de California en San Francisco descubrieron mediante cálculos numéricos que un fármaco llamado 'pamoato de pirvinio' que se usa para tratar los oxiuros podría reducir el carcinoma hepatocelular, un tipo de cáncer de hígado, en ratones. Esta enfermedad que está asociada con el hígado es el segundo mayor contribuyente a las muertes por cáncer en el mundo.

Big Data y Machine Learning Unidos contra el Cáncer UpGrad Blog
Los grandes datos no solo se utilizan para descubrir nuevos usos para medicamentos antiguos, sino que también se pueden utilizar para detectar nuevos medicamentos. Al analizar datos relacionados con diferentes medicamentos, productos químicos y sus propiedades, síntomas de diversas enfermedades, la composición química de los medicamentos utilizados para esas afecciones y los efectos secundarios de estos medicamentos recopilados de diferentes medios; se pueden idear nuevos fármacos para varios tipos de cáncer. Esto reducirá significativamente el tiempo necesario para crear nuevos medicamentos sin desperdiciar millones de dólares en el proceso.

Sin duda, el uso de big data y el aprendizaje automático mejorará el proceso de diagnóstico, tratamiento y descubrimiento de fármacos en el tratamiento del cáncer, pero no está exento de desafíos. Hay muchos obstáculos y problemas en el camino por delante. Si estos bloqueos no se eliminan y estos desafíos no se enfrentan, entonces nuestro enemigo tomará la delantera y nos derrotará en la batalla futura.

Desafíos en el uso de Big Data y Machine Learning para combatir el cáncer

digitalización

A excepción de algunos hospitales grandes y técnicamente avanzados, la mayoría de ellos aún no se han digitalizado. Todavía siguen los métodos antiguos de capturar y registrar datos en grandes cantidades de archivos. Debido a la falta de experiencia técnica, asequibilidad, economías de escala y varias otras razones, la digitalización no se ha llevado a cabo. La provisión de software EMR de código abierto, la enseñanza de lo útiles que podrían ser estos registros digitales para tratar a los pacientes y lo rentable que es para los hospitales son algunos pasos en la dirección correcta.

Datos bloqueados en almacenes empresariales

A día de hoy, solo unos pocos hospitales pueden capturar digitalmente los registros de los pacientes. Este aparato también está encerrado en los almacenes de la empresa y es inaccesible para el mundo en general.

Los hospitales son reacios a compartir sus bases de datos con otros hospitales. Incluso si están dispuestos, están plagados de diferentes esquemas y arquitecturas de bases de datos. Se requiere un pensamiento crítico en este frente sobre cómo los hospitales pueden compartir sus bases de datos entre ellos para su beneficio mutuo sin sospechar unos de otros. Es necesario llegar a un consenso sobre el esquema en el que también se deben compartir estos datos, en beneficio de todos los hospitales. Estos datos de pacientes deben democratizarse y utilizarse para mejorar el futuro de la humanidad.

Big Data y Machine Learning Unidos contra el Cáncer UpGrad Blog
No se debe permitir que los datos de los pacientes se empleen para el crecimiento de una sola organización. Se debe tener sumo cuidado para anonimizar a la persona a quien pertenecen los datos. Si se filtra la preferencia de lápiz labial de una persona, entonces no hay mucho daño. Si se filtra el historial médico de una persona, tendrá un impacto significativo en su vida y sus perspectivas.

El gobierno debería tomar medidas positivas en esta dirección y debería ayudar a crear una gran infraestructura de datos para almacenar los registros médicos de los pacientes de todos los hospitales. Debería obligar a todos los hospitales a compartir su base de datos dentro de esta infraestructura compartida. El acceso a esta base de datos debe ser gratuito para el tratamiento de pacientes y la investigación.

Mejora en la eficiencia de los Algoritmos de Machine Learning

El aprendizaje automático no es una píldora mágica para el diagnóstico y el tratamiento del cáncer. Es una herramienta que, si se usa bien, puede ayudar en nuestro viaje para conquistar el cáncer. El aprendizaje automático aún se encuentra en una etapa incipiente y tiene sus desventajas. Por ejemplo, los datos en los que se entrenan estos algoritmos deben estar muy cerca de los datos en los que se utilizan para producir resultados. Si hay una gran diferencia entre ellos, entonces el algoritmo no podrá proporcionar resultados significativos que puedan emplearse.

Hay muchos algoritmos de aprendizaje automático que existen con sus propios supuestos, ventajas y desventajas peculiares. Si podemos encontrar una manera de combinar todos estos algoritmos diferentes para lograr los resultados que necesitamos, es decir, curar el cáncer, no hace falta decir que habríamos encontrado un resultado enormemente beneficioso. El famoso científico de aprendizaje automático Pedro Domingos lo llama “El algoritmo maestro”, quien también escribió un libro de divulgación científica del mismo nombre.
Según Pedro, existen cinco escuelas de pensamiento diferentes en el aprendizaje automático. Los simbolistas, conexionistas, bayesianos, evolucionistas y analogizadores. Es difícil entrar en todos estos diferentes tipos de sistemas de aprendizaje automático en este artículo. Cubriré los cinco tipos de sistemas de aprendizaje automático en uno de mis futuros blogs. Por ahora, debemos entender que todos estos métodos diferentes tienen sus propias ventajas y desventajas. Si podemos combinarlos, podemos obtener información de gran impacto a partir de nuestros datos. Esto será inmensamente útil no solo para todo tipo de predicciones y pronósticos, sino también para nuestra lucha contra un enemigo vengativo: el cáncer.

En resumen, el cáncer es un enemigo formidable que cambia de forma con frecuencia. Sin embargo, poseemos nuevas armas en nuestro arsenal ahora en forma de big data y aprendizaje automático para enfrentarlo de manera competente. Pero para demolerlo por completo necesitamos un arma más poderosa que la que poseemos actualmente. El nombre de esa arma es 'El Algoritmo Maestro'.

También necesitamos hacer algunos cambios en las estrategias y métodos con los que luchamos contra este enemigo. Estos cambios están creando una gran infraestructura de datos, obligando a los hospitales a compartir registros de pacientes anónimos, manteniendo la seguridad de la base de datos y permitiendo el libre acceso a la base de datos para el tratamiento de pacientes y la investigación para curar el cáncer.

Obtenga la certificación de ciencia de datos de las mejores universidades del mundo. Aprenda los programas Executive PG, los programas de certificación avanzada o los programas de maestría para acelerar su carrera.

Terminando

Si está interesado en saber más sobre Big Data, consulte nuestro programa PG Diploma in Software Development Specialization in Big Data, que está diseñado para profesionales que trabajan y proporciona más de 7 estudios de casos y proyectos, cubre 14 lenguajes y herramientas de programación, prácticas talleres, más de 400 horas de aprendizaje riguroso y asistencia para la colocación laboral con las mejores empresas.

Aprenda títulos de ingeniería de software en línea de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Planifique su carrera en ciencia de datos ahora.

Solicite el programa de certificado profesional en ciencia de datos de IIM-Kozhikode