Da análise de grandes volumes de dados ao uso da inteligência artificial, o campo tem se mostrado profícuo na pesquisa oncológica para identificar biomarcadores e personalizar terapias, avançando no tratamento e diagnóstico do câncer.
C
onsiderada uma intersecção entre biologia, ciência da computação, matemática e estatística, a bioinformática é um campo que usa dados biológicos para desenvolver modelos e métodos de análise para compreender sistemas orgânicos complexos. Suas aplicações cotidianas são várias: melhoramento genético de culturas na agricultura, monitoramento de espécies ameaçadas, rastreamento de surtos de doenças, desenvolvimento de novos medicamentos, entre outros. Além disso, tem despontado como área essencial na pesquisa oncológica, sobretudo na identificação de biomarcadores para a detecção do câncer e concepção de terapias personalizadas.
Lorhenn Maia, bioinformata do Centro de Pesquisa em Imuno-oncologia sob orientação do Dr. Kenneth Gollob (diretor CRIO), tem desempenhado esse trabalho: tratar, analisar e interpretar os dados gerados a partir de pesquisas conduzidas em bancada. “Meu papel é analisar os dados da equipe e construir pipelines – técnica usada em arquitetura de processos informáticos para a execução de múltiplas análises de forma organizada, onde se pode ter uma visão de todos os processos empregados. Além disso, interpreto os dados gerados em bancada e apresento os resultados de forma inteligível aos pesquisadores, por meio de gráficos”, explica a cientista de dados em entrevista ao podcast Imuno Agentes, em que compartilha detalhes sobre sua carreira e trabalho no dia a dia.
Como a bioinformática se utiliza de recursos computacionais modernos, é tentador pensar que sua origem está na efervescência da atual era tecnológica. Mas seu surgimento data mais de 50 anos, em um momento em que os primeiros computadores de mesa ainda eram uma possibilidade remota. O DNA também ainda não havia sido sequenciado, o que veio a ocorrer somente em 1977 por Fred Sanger, com o que ficou conhecido como “Método Sanger“, usado até os dias de hoje como base das tecnologias de sequenciamento de DNA.
Área antiga, mas em constante modernização
Os alicerces da bioinformática remontam aos anos 1960, com métodos computacionais aplicados à análise de sequências de proteínas e, posteriormente, ao DNA. A descoberta da estrutura de dupla hélice do DNA por Rosalind Franklin, James Watson e Francis Crick na década de 1950 lançou as bases para a compreensão das informações genéticas. O termo “bioinformática” foi cunhado por Paulien Hogeweg e Ben Hesper em 1970, definindo-o como “o estudo de processos informáticos em sistemas bióticos”. Além disso, os avanços na ciência da computação, especialmente nas áreas de inteligência artificial (IA), aprendizagem de máquina e mineração de dados, proporcionaram as condições necessárias para o aprimoramento de análises de dados biológicos.
Nas décadas de 1990 e 2000, avanços na tecnologia de sequenciamento deram origem ao Big Data, facilitando a coleta de vastas quantidades de dados biológicos. O sequenciamento do genoma humano pelo Projeto Genoma (1989-2003), que consistiu em 3,1 bilhões de pares de bases, também contribuiu para a geração de grandes volumes de informações. Isso exigiu expertise adicional em ciência da computação para o tratamento, análise e visualização desses dados, impactando a preditividade e reprodutibilidade dos resultados.
No Brasil, o campo presenciou forte crescimento em 2000, com o sequenciamento completo do patógeno cítrico Xylella fastidiosa, cuja pesquisa foi destaque na revista científica Nature daquele ano. Além disso, o país possui ampla comunidade de bioinformatas, com diversas instituições oferecendo oportunidades de aprendizagem e pesquisa na área. A Rede Nacional de Bioninformática (RNBio) fomenta o desenvolvimento de projetos de pesquisas e a formação em estudos temáticos envolvendo biologia computacional. O Programa Genomas Brasil visa o desenvolvimento da saúde de precisão com vistas para implementação no Sistema Único de Saúde (SUS). Já a Associação Brasileira de Bioinformática e Biologia Computacional (AB3C) reúne pesquisadores e instituições para impulsionar o avanço da área no país por meio do ensino e pesquisa.
Não obstante, bioinformatas têm ganhado cada vez mais relevância no cenário científico, justamente pela importância de análises robustas. Como exemplo, muitos profissionais do ramo tiveram papel fundamental na pandemia de covid-19, como na compreensão da estrutura genômica do vírus, identificação de alvos para tratamentos e desenvolvimento de vacinas. Além disso, a bioinformática foi usada para desenvolver modelos da doença que ajudaram a prever formas de proliferação do vírus e eficácia de tratamentos.
Na oncologia, técnicas bioinformáticas podem ajudar médicos a prever desfechos de tratamentos, evitando transtornos a pacientes e altos custos, como é o caso da imunoterapia. “Utilizo a bioinformática para analisar dados genéticos complexos (por exemplo, em um único dataset temos quase 20 mil variáveis gênicas), e extrair padrões que possam prever a resposta do paciente. Esses biomarcadores, uma vez identificados, podem ser ferramentas essenciais para os médicos decidirem se a imunoterapia é adequada para um determinado paciente, otimizando o uso dessa terapia e evitando custos desnecessários e efeitos adversos”, complementa Maia.
Diante de gigantescas quantidades de dados
O trabalho do(a) bioinformata constitui-se com base em grande ferramentário tecnológico que permite a geração de análises de grandes quantidades de dados, como a partir de sequências de DNA, proteínas ou outras informações genéticas. No caso do trabalho de Maia no CRIO, os dados genéticos quantitativos lhe são entregues por meio de uma matriz de contagem com as variáveis e seus respectivos valores de expressão por amostra (Excel). “Recebo dados biológicos em duas etapas: primeiro, sequenciadores transformam fragmentos de RNA em números, formando uma matriz. Depois, uso essa matriz para encontrar padrões e entender processos biológicos”, exemplifica.
As linguagens de programação mais comumente utilizadas são R e Python, sendo a primeira a escolha padrão para análises estatísticas genéricas e geração de gráficos, devido às suas bibliotecas prontas e facilidade de uso, especialmente para quem não é programador(a). Além disso, Maia destaca o ambiente de desenvolvimento integrado (IDE) RStudio, projetado para análise de dados e estatísticas que conta com ferramentas para plotagem, histórico e depuração.
Já os repositórios The Comprehensive R Archive Network (CRAN) e Bioconductor fornecem pacotes de software de código aberto adaptados a diferentes necessidades de análises, como nas de expressão diferencial de perfis de RNA-seq, análise de enriquecimento de conjunto de genes e genômica de célula única (single-cell).
Python, além de ser utilizado para aprendizagem de máquina e visualização de dados, também tem sido empregado quando são necessários algoritmos de IA nas análises, como monitoramento da expressão gênica, determinação do comprimento do fragmento de DNA e a descoberta de medicamentos usando aprendizado de máquina e análise de dados. Dentre as bibliotecas que podem apoiar tais análises estão NumPy, Pandas, Matplotlib e Scikit-learn.
Maia afirma que, diferentemente da abordagem tradicional de análise, a IA utiliza métodos matemáticos para a seleção de características, muitas vezes revelando significâncias biológicas não intuitivas. “A vantagem da IA reside na capacidade de oferecer insights inovadores, colocando os pesquisadores à frente do tempo e destacando a importância da validação desses métodos. Apesar de utilizá-la principalmente de forma supervisionada (grau de autonomia cedida à máquina na atribuição de rótulos), a IA proporciona percepções valiosas que podem passar despercebidas na pesquisa de bancada convencional”, complementa a cientista.
O papel na pesquisa imuno-oncológica
Mas engana-se quem pensa que a atuação do(a) bioinformata se resume à análise final de dados. Em seu trabalho em imuno-oncologia no CRIO, Maia oferece suporte aos projetos de cada um dos pesquisadores, os quais possuem demandas específicas para descobrir e validar alvos imunoreguladores para diferentes tipos de câncer. “Cada um desses pesquisadores tem necessidades específicas de análise, baseado no tipo de dado e pergunta. Atendo demandas individuais e construo pipelines para cada caso, para no final poder integrar todos os dados e compará-los”, explica a pesquisadora.
“A bioinformática, mais do que um acessório, é essencial para identificar biomarcadores, caracterizar condições estudadas e fornecer informações genéticas que auxiliam os médicos na decisão sobre a aplicação de terapias em estudo
Assim, sua missão final é compilar e integrar todos esses dados para atender ao objetivo do CRIO: entender as variáveis genéticas que diferenciam os respondedores e não-respondedores a tratamentos imunoterápicos. Para isso, Maia busca identificar biomarcadores por meio de análises preditivas, contribuindo para antecipar diagnósticos e prognósticos, determinando a probabilidade de resposta do paciente.
Nesse caso, o uso de algoritmos de IA – como a rede neural artificial Perceptron Multicamadas (MLP, do inglês multilayer perceptron), árvore de decisão, regressão logística e máquina de vetores de suporte (SVM) – são recursos que podem apoiar a identificação desses possíveis novos alvos imunoreguladores. Tais algoritmos são fundamentais na busca por padrões nos dados biológicos, permitindo a identificação de variáveis relevantes para a separação de grupos e que podem não ter sido previamente reconhecidas por pesquisadores.
_____
Que saber mais?
🎧 Ouça a entrevista completa no Imuno Agentes Podcast:
💡 Dicas
- Interessados(as) que desejam buscar formação em Bioinformática, o portal Profissão Biotec fornece uma lista de instituições que oferecem cursos na área.
🌐 Converse com os pesquisadores
- Lorhenn Maia (pós-doutoranda)
- E-mail: lorhenn.maia@einstein.br
- Lattes: http://lattes.cnpq.br/9732641833909556
- LinkedIn: https://www.linkedin.com/in/lorhenn-maia-3a2a6b68/
- Kenneth Gollob (orientador e diretor CRIO)
- E-mail: kenneth.gollob@einstein.br
- Lattes: http://lattes.cnpq.br/4314074851986989