Como Big Data e Machine Learning estão se unindo contra o câncer
Publicados: 2018-01-09O câncer não é uma doença. São muitas doenças. Vamos entender a causa do câncer por um exemplo simples. Se você tirar uma fotocópia de um documento, devido a alguns problemas, outros pontos ou manchas aparecem nele mesmo que não estejam presentes na cópia original. Da mesma forma, nos processos de replicação de genes, os erros ocorrem inadvertidamente. Na maioria das vezes, os genes com erros não serão capazes de se sustentar e acabarão por perecer.
Em alguns casos raros, o gene mutado com erros sobreviverá e será replicado incontrolavelmente. A replicação incontrolável de genes mutantes é a principal causa do câncer. Essa mutação pode acontecer em qualquer um dos vinte mil genes do nosso corpo. A variação em qualquer um ou uma combinação de genes torna o câncer uma doença grave a ser conquistada. Para erradicar o câncer, precisamos de métodos para destruir as células invasoras sem prejudicar as células funcionais do corpo; o que torna duplamente difícil de derrotar.
Índice
Câncer e sua complexidade
O câncer é uma doença com distribuição de cauda longa. A distribuição de cauda longa significa que existem várias razões para essa condição ocorrer e não há uma solução única para erradicá-la. Existem doenças que afetam uma grande porcentagem da população, mas têm uma única causa de ocorrência. Por exemplo, consideremos a Cólera. Comer alimentos ou beber água contaminados pela bactéria Vibrio Cholerae é a causa da cólera. A cólera pode ocorrer apenas por causa do Vibrio Cholerae, e não há outro motivo. Uma vez que descobrimos a única causa de uma doença, é relativamente fácil conquistá-la.

E se uma condição ocorrer devido a vários motivos? Uma mutação pode ocorrer em qualquer um dos vinte mil genes do nosso corpo. Não apenas isso, mas também precisamos considerar suas combinações. O câncer pode não acontecer apenas por causa de uma mutação aleatória em um gene, mas também por causa de uma combinação de mutações genéticas. O número de causas para o câncer torna-se exponencial e não existe um mecanismo único para curá-lo. Por exemplo, uma mutação de qualquer um desses genes ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET e RIT1 pode causar câncer de pulmão. Existem muitas formas de o câncer ocorrer e por isso é uma doença com distribuição de cauda longa.
Em nosso arsenal para travar esta guerra contra o câncer e vencê-la, big data e aprendizado de máquina são ferramentas críticas. Como o big data pode ajudar na luta contra essa guerra? O que o aprendizado de máquina tem a ver com o câncer? Como eles vão ajudar no combate a uma doença com muitas causas, uma condição com distribuição de cauda longa? Em primeiro lugar, como e onde esse big data é gerado? Vamos encontrar respostas para essas perguntas.
Sequenciamento de genes e explosão de dados
O sequenciamento de genes é uma área que está produzindo enormes quantidades de dados. Exatamente quantos dados? De acordo com o Washington Post , os dados humanos gerados por meio do sequenciamento de genes (aproximadamente 2,5 lakh de sequências) ocupam cerca de um quarto do tamanho da produção anual de dados do YouTube. Se todos esses dados fossem combinados com todas as informações extras que acompanham o sequenciamento de genomas e gravados em DVDs de 4 GB, seria uma pilha de cerca de 800 metros de altura.

Os métodos de sequenciamento de genes melhoraram ao longo dos anos, e o custo do mesmo despencou exponencialmente. No ano de 2008, o custo do sequenciamento de genes foi de 10 milhões de dólares. A partir de hoje, é apenas um 1000 dólares. No futuro, espera-se que reduza ainda mais. Estima-se que um bilhão de pessoas terão seus genes sequenciados até 2025. Assim, na próxima década, os dados genômicos gerados estarão entre 2 e 40 exabytes em um ano. Um exabyte é dez seguido por 17 zeros.
Antes de falar sobre como os dados ajudarão na cura do câncer, vamos dar um exemplo concreto e ver como os dados podem ajudar na conquista de uma doença. Os dados e sua análise ajudaram a descobrir a causa de uma doença infecciosa e combatê-la, não agora, mas no próprio século XIX! Sim, no século XIX! O nome dessa doença é Cólera.
Agrupamento no século XIX – o avanço da cólera
John Snow era um anestesista e a cólera eclodiu em setembro de 1854 perto da casa de Snow. Para saber o motivo da cólera, Snow decidiu anotar as dimensões espaciais dos pacientes no mapa da cidade. Ele marcou a localização do endereço residencial dos pacientes no mapa da cidade de Londres. Com este exercício, John Snow entendeu que as pessoas que sofriam de cólera estavam agrupadas em torno de alguns poços de água específicos. Ele acreditava firmemente que uma bomba contaminada era responsável pela epidemia e, contra a vontade das autoridades locais, substituiu a bomba. Esta substituição reduziu drasticamente a propagação da cólera.
Snow posteriormente publicou um mapa do surto para apoiar sua teoria, mostrando a localização dos 13 poços públicos na área e as 578 mortes de cólera mapeadas por endereço residencial. Esse mapa acabou levando ao entendimento de que a cólera era uma doença infecciosa e se espalhava rapidamente por meio da água. O experimento de John Snow é o primeiro exemplo de aplicação do algoritmo de agrupamento para conhecer a causa da doença e ajudar a erradicá-la. No século XIX, John Snow poderia aplicar o algoritmo de agrupamento em um mapa da cidade de Londres com um lápis. Com o câncer como doença-alvo, esse nível de análise não é possível com a mesma facilidade que a Análise de John Snow. Precisamos de ferramentas e tecnologias sofisticadas para minerar esses dados. É aí que aproveitamos os recursos de tecnologias modernas, como Machine Learning e Big Data.
Big data e aprendizado de máquina – ferramentas para combater o câncer
Grandes quantidades de dados, juntamente com algoritmos de aprendizado de máquina, nos ajudarão em nossa luta contra o câncer de várias maneiras. Pode nos ajudar no diagnóstico, tratamento e prognóstico. Principalmente, ajudará a personalizar a terapia de acordo com o paciente, o que não é possível de outra forma. Também ajudará a lidar com a cauda longa da distribuição.

Dada a enorme quantidade de Prontuários Médicos Eletrônicos (EMR), dados gerados e registrados por diversos hospitais; é possível usar dados 'rotulados' no diagnóstico de câncer. Técnicas como programação de linguagem natural (NLP) são utilizadas para dar sentido às prescrições médicas e redes neurais de aprendizado profundo são implantadas para analisar tomografias computadorizadas e ressonâncias magnéticas. Os diferentes tipos de algoritmos de aprendizado de máquina pesquisam os bancos de dados EMR e encontram padrões ocultos. Esses padrões ocultos ajudarão no diagnóstico de câncer.
Uma estudante universitária conseguiu projetar uma Rede Neural Artificial no conforto de sua casa e desenvolveu um modelo que pode diagnosticar câncer de mama com alto grau de precisão.
Diagnóstico com Big Data e Machine Learning
Brittanny Wenger tinha 16 anos quando sua prima mais velha foi diagnosticada com câncer de mama. Isso a inspirou a melhorar o processo, melhorando os diagnósticos. A Aspiração por Agulha Fina (PAAF) foi um método menos invasivo de biópsia e o método mais rápido de diagnóstico. Os médicos estavam relutantes em usar FNA porque os resultados não são confiáveis. Brittanny pensou em usar suas habilidades de programação para fazer algo a respeito. Ela decidiu melhorar a confiabilidade da PAAF, o que permitiria às mulheres escolher métodos diagnósticos menos invasivos e confortáveis.
Brittanny encontrou dados de domínio público da Universidade de Wisconsin que incluíam Aspiração por agulha fina. Ela codificou uma Rede Neural Artificial (ANN) que é inspirada no design da arquitetura do cérebro humano. Ela usou tecnologias de nuvem para processar os dados e treinar a ANN para encontrar as semelhanças. Depois de muitas tentativas e erros, finalmente, sua rede foi capaz de detectar câncer de mama a partir de dados de um teste FNA com 99,1% de sensibilidade à malignidade. Este método também é aplicável para diagnosticar outros cânceres.
A precisão do diagnóstico depende da quantidade e qualidade dos dados disponíveis. Quanto mais dados estiverem disponíveis, mais os algoritmos poderão consultar o banco de dados, encontrar semelhanças e apresentar modelos valiosos.

Tratamento com Big Data e Machine Learning
Big data e aprendizado de máquina serão úteis não apenas para o diagnóstico, mas também para o tratamento. John e Kathy foram casados por três décadas. Aos 49 anos, Kathy foi diagnosticada com câncer de mama em estágio III. John, CIO de um hospital de Boston, ajudou a planejar seu tratamento com a ajuda de ferramentas de big data que ele projetou e criou.
Em 2008, cinco hospitais afiliados a Harvard compartilharam seus bancos de dados e criaram uma poderosa ferramenta de busca conhecida como 'Shared Health Research Information Network' (SHRINE). Na época do diagnóstico de Kathy, seus médicos podiam vasculhar um banco de dados de 6,1 milhões de registros para encontrar informações perspicazes. Os médicos questionaram 'SHRINE' com perguntas como "Mulheres asiáticas de 50 anos, diagnosticadas com câncer de mama em estágio III e seus tratamentos". Armados com essa informação, os médicos conseguiram tratá-la com medicamentos quimioterápicos, visando as células tumorais sensíveis ao estrogênio, evitando a cirurgia.
Quando Kathy completou seu regime de quimioterapia, os radiologistas não conseguiram mais encontrar células tumorais. Este é um exemplo de como as ferramentas de big data podem ajudar na customização do plano de tratamento de acordo com a necessidade de cada um.
Como o câncer é uma distribuição de cauda longa, uma filosofia de 'tamanho único' não funcionará. Para personalizar tratamentos de acordo com o histórico do paciente, sua sequência genética, resultados de testes diagnósticos, uma mutação encontrada em seus genes ou uma combinação de seus genes e ambiente, ferramentas de big data e aprendizado de máquina são indispensáveis.
Descoberta de drogas com Big Data e aprendizado de máquina
Big data e aprendizado de máquina não apenas ajudarão no diagnóstico e tratamento, mas também revolucionarão a descoberta de medicamentos. Os pesquisadores podem usar dados abertos e recursos computacionais para descobrir novos usos para os medicamentos já aprovados por agências como a FDA para outros fins. Por exemplo, cientistas da Universidade da Califórnia em San Francisco descobriram, por meio de cálculos numéricos, que uma droga chamada 'pamoato de pirvínio', usada para tratar oxiúros, poderia diminuir o carcinoma hepatocelular, um tipo de câncer de fígado, em camundongos. Esta doença que está associada ao fígado é o segundo maior contribuinte para mortes por câncer no mundo.

O big data não é apenas usado para descobrir novos usos para drogas antigas, mas também pode ser usado para detectar novas drogas. Ao processar dados relacionados a diferentes drogas, substâncias químicas e suas propriedades, sintomas de várias doenças, a composição química das drogas usadas para essas condições e os efeitos colaterais desses medicamentos coletados de diferentes meios; novos medicamentos podem ser desenvolvidos para vários tipos de câncer. Isso reduzirá significativamente o tempo necessário para criar novos medicamentos sem desperdiçar milhões de dólares no processo.
O uso de big data e aprendizado de máquina sem dúvida melhorará o processo de diagnóstico, tratamento e descoberta de medicamentos no tratamento do câncer, mas não é isento de desafios. Há muitos obstáculos e problemas no caminho à frente. Se esses bloqueios não forem removidos e esses desafios não forem enfrentados, nosso inimigo terá vantagem e nos derrotará na batalha futura.
Desafios no uso de Big Data e Machine Learning para combater o câncer
Digitalização
Com exceção de alguns hospitais grandes e tecnicamente avançados, a maioria deles ainda precisa ser digitalizada. Eles ainda estão seguindo os antigos métodos de captura e gravação de dados em enormes pilhas de arquivos. Devido à falta de conhecimento técnico, acessibilidade, economias de escala e vários outros motivos, a digitalização não ocorreu. O fornecimento de software EMR de código aberto, ensinando como esses registros digitais podem ser úteis no tratamento dos pacientes e quão lucrativo é para os hospitais são alguns passos na direção certa.
Dados bloqueados em armazéns corporativos
Atualmente, apenas alguns hospitais podem capturar digitalmente os registros dos pacientes. Este aparato também está trancado em armazéns corporativos e inacessível ao mundo em geral.
Os hospitais relutam em compartilhar seus bancos de dados com outros hospitais. Mesmo que estejam dispostos, eles são atormentados pelos diferentes esquemas e arquiteturas de banco de dados. O pensamento crítico é necessário nessa frente sobre como os hospitais podem compartilhar seus bancos de dados entre si para benefício mútuo sem suspeitar uns dos outros. É preciso chegar a um consenso sobre o esquema em que esses dados devem ser compartilhados também, para benefício de todos os hospitais. Esses dados de pacientes devem ser democratizados e utilizados para a melhoria do futuro da humanidade.

Não se deve permitir que dados de pacientes sejam empregados para o crescimento de uma única organização. Deve-se tomar o máximo cuidado para anonimizar o indivíduo a quem os dados pertencem. Se a preferência de batom de uma pessoa vazar, não haverá muito dano. Se o histórico médico de uma pessoa vazar, isso terá um impacto significativo em sua vida e perspectivas.
O governo deve tomar medidas positivas nessa direção e deve ajudar a criar uma infraestrutura de big data para armazenar registros médicos de pacientes de todos os hospitais. Deve tornar obrigatório que todos os hospitais compartilhem seu banco de dados dentro dessa infraestrutura compartilhada. O acesso a esse banco de dados deve ser gratuito para tratamento e pesquisa de pacientes.
Melhoria na eficiência dos algoritmos de aprendizado de máquina
O aprendizado de máquina não é uma pílula mágica para diagnóstico e tratamentos de câncer. É uma ferramenta que, se bem usada, pode ajudar na nossa jornada para vencer o câncer. O aprendizado de máquina ainda está em estágio inicial e tem suas desvantagens. Por exemplo, os dados nos quais esses algoritmos são treinados precisam estar muito próximos dos dados nos quais eles são utilizados para produzir resultados. Se houver uma grande diferença entre eles, o algoritmo não será capaz de fornecer resultados significativos que possam ser empregados.
Existem muitos algoritmos de aprendizado de máquina que existem com suas próprias suposições, vantagens e desvantagens peculiares. Se pudéssemos encontrar uma maneira de combinar todos esses algoritmos diferentes para alcançar os resultados exigidos por nós, ou seja, curar o câncer, escusado será dizer que teríamos encontrado um resultado extremamente benéfico. O famoso cientista de aprendizado de máquina Pedro Domingos o chama de “O Algoritmo Mestre”, que também escreveu um livro de ciência popular com o mesmo nome.
De acordo com Pedro, existem cinco diferentes escolas de pensamento em aprendizado de máquina. Os simbolistas, conexionistas, bayesianos, evolucionistas e analogizadores. É difícil entrar em todos esses diferentes tipos de sistemas de aprendizado de máquina neste artigo. Abordarei todos os cinco tipos de sistemas de aprendizado de máquina em um dos meus futuros blogs. Por enquanto, precisamos entender que todos esses métodos diferentes têm vantagens e desvantagens próprias. Se pudermos combiná-los, podemos obter insights altamente impactantes de nossos dados. Isso será imensamente útil não apenas para todos os tipos de previsões e previsões, mas também para nossa luta contra um inimigo vingativo – o câncer.

Para resumir, o câncer é um inimigo formidável que muda de forma com frequência. Temos novas armas em nosso arsenal agora na forma de big data e aprendizado de máquina, no entanto, para enfrentá-lo com competência. Mas, para demoli-lo inteiramente, precisamos de uma arma mais poderosa do que a que possuímos atualmente. O nome dessa arma é 'O Algoritmo Mestre'.
Também precisamos fazer algumas mudanças nas estratégias e métodos com os quais estamos lutando contra esse inimigo. Essas mudanças estão criando uma infraestrutura de big data, tornando obrigatório que os hospitais compartilhem registros anônimos de pacientes, mantendo a segurança do banco de dados e permitindo o acesso gratuito ao banco de dados para tratamento de pacientes e pesquisas para a cura do câncer.
Obtenha a certificação em ciência de dados das melhores universidades do mundo. Aprenda Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
Empacotando
Se você estiver interessado em saber mais sobre Big Data, confira nosso programa PG Diploma in Software Development Specialization in Big Data, projetado para profissionais que trabalham e fornece mais de 7 estudos de caso e projetos, abrange 14 linguagens e ferramentas de programação, práticas práticas workshops, mais de 400 horas de aprendizado rigoroso e assistência para colocação de emprego com as principais empresas.
Aprenda os graus de Engenharia de Software online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

