22 de outubro de 2020

Avanços da Inteligência Artificial na comunicação de pacientes que não falam


Quando a fala é interrompida como consequência de um Acidente Vascular Cerebral (AVC), esclerose lateral amiotrófica (ELA) ou outras desordens neurológicas, a perda da capacidade de comunicação pode ser devastadora. Para os doentes com ELA avançada, por exemplo, a comunicação torna-se cada vez mais difícil à medida que a doença progride. Em muitos casos, a ELA leva ao síndrome de encarceramento, no qual um paciente fica completamente paralisado, mas permanece cognitivamente intacto. O físico do Reino Unido Stephen Hawking foi um exemplo famoso. Usou um dispositivo gerador de fala ativado por um músculo na bochecha.
Outros dispositivos usados nestas situações são os dispositivos de rastreio dos olhos e, mais recentemente, as interfaces cérebro-computador (BCI - Brain-Computer Interface) baseadas em sinais de eletroencefalograma (EEG). Estes visam ajudar as pessoas com paralisia ‘lendo’ as suas intenções diretamente do cérebro e usando essa informação para movimentar membros robóticos em pacientes paralisados.
As BCIs permitem aos pacientes comunicar com palavras, soletradas letra a letra, conseguindo-se obter entre oito e dez palavras por minuto. No entanto, ainda está longe do discurso falado natural que tem em média 150 palavras por minuto.
Magnetoencefalografia (MEG) é uma técnica não invasiva que deteta a atividade magnética produzida por sinais elétricos que ocorrem naturalmente no cérebro. Investigadores da Universidade do Texas em Austin usaram wavelets e deep learning (aprendizagem profunda) para descodificar sinais MEG e detetar frases inteiras à medida que o paciente imagina a frase. Este processo científico é demorado e sinuoso. É necessário tentar uma determinada abordagem usando uma variedade de algoritmos de aprendizagem automática e de deep learning, visualizar os resultados, e depois refazer os passos dados ou tentar algo novo caso a primeira abordagem não funcione.
O objetivo do projeto é classificar os sinais cerebrais correspondentes a frases imaginadas ou faladas. A equipa quis usar neuroimagem MEG modular para capturar os sinais cerebrais. Esta técnica tem uma maior resolução espacial do que o EEG e uma maior resolução temporal do que a ressonância magnética funcional. Para melhorar a qualidade do sinal MEG, era necessário remover o ruído, preservando ao mesmo tempo as características globais do sinal. Para tal é necessário aplicar vários métodos matemáticos num passo chamado pré-processamento e eliminar centenas de sinais em mais de 1000 testes, usando wavelets uma técnica matemática usada na física para decompor ondas eletromagnéticas. Os wavelets permitem retirar o ruído do sinal recebido do MEG já que decompõem os sinais em múltiplas frequências neuronais específicas, como as ondas cerebrais de alta gama, gama, alfa, beta, teta e delta.
No passo seguinte, os investigadores extraíram as ondas cerebrais mais promissoras e calcularam uma variedade de estatísticas, incluindo médias, medianas, desvio padrão e quantis. Em termos de algoritmos de aprendizagem foram utilizados algoritmos de máquinas de suporte vetorial (SVM - Support Vector Machine) e um classificador de redes neuronais artificiais (ANN - Artificial Neural Network), obtendo bons resultados para cinco frases. Foram ainda testados três algoritmos diferentes de redes neuronais deep learning - AlexNet, ResNet e Inception-ResNet - para treinar os sinais MEG. Todas resultaram em alta precisão para vários indivíduos. Para acelerar o treino usaram técnicas de computação em paralelo com sete processadores.
Estes resultados foram já publicados e, a mesma equipa, está agora a trabalhar nos próximos passos da sua investigação: alargar o número de frases classificadas de cinco para várias centenas e converter os sinais MEG diretamente para fala sintetizada. 
Numa outra investigação os neurocientistas conceberam um dispositivo que também pode transformar sinais cerebrais em fala. É uma tecnologia     que ainda não é suficientemente precisa para ser usada fora do laboratório, embora possa sintetizar frases inteiras. Os seus criadores descreveram o seu dispositivo de síntese da fala num estudo publicado na Revista Nature, baseando-se em observações anteriores de que a atividade nas áreas cerebrais relacionadas com a fala corresponde mais aos movimentos dos articuladores vocais do que aos sinais acústicos produzidos durante a fala.
A investigação incidiu sobre cinco voluntários que estavam a ser submetidos a um procedimento de monitorização intracraniana, no qual são usados elétrodos para monitorizar a atividade cerebral como parte de um tratamento para a epilepsia. Os autores usaram uma técnica chamada eletrocorticografia de alta densidade para acompanhar a atividade das áreas do cérebro que controlam os movimentos da fala.
Primeiro, a equipa registou a atividade cerebral enquanto os participantes liam centenas de frases em voz alta. Depois, os investigadores combinaram estas gravações com um modelo de como os movimentos da língua, lábios, mandíbula e laringe criavam o som.
Exemplo de um participante a ler uma frase seguida da voz sintetizada para a mesma frase https://media.nature.com/original/magazine-assets/d41586-019-01328-x/d41586-019-01328-x_16672814.wav
Aprender como os sinais cerebrais se relacionam com os movimentos do trato vocal foi um desafio, porque é difícil medir esses movimentos diretamente quando se trabalha num ambiente hospitalar com pessoas que têm epilepsia. Em vez disso, os autores usaram informação de um modelo que tinham desenvolvido anteriormente. Este modelo não é específico do sujeito, pelo contrário, foi construído com uma grande biblioteca de dados recolhidos de participantes de investigações anteriores. Ao incluir um modelo para estimar os movimentos do trato vocal de voz gravada, os autores seriam capazes de mapear a atividade cerebral em movimentos do trato vocal sem medir diretamente esses movimentos.
Finalmente o processo termina por traduzir os movimentos do trato vocal em fala sintética. Ambas as transformações utilizaram redes neuronais recorrentes — um tipo de rede neuronal artificial que é particularmente eficaz no processamento e transformação de dados que têm uma estrutura temporal complexa, fazendo parte da ‘caixa de ferramentas’ do deep learning. Obtiveram assim um dispositivo que consegue, a partir dos sinais cerebrais, estimar os possíveis movimentos do trato vocal, e transformar estes movimentos em voz sintética. Em testes, das 101 frases sintetizadas foram consideradas percetíveis por diversos indivíduos uma média de 70% das palavras.
Numa outra experiência, os investigadores pediram a um participante que lesse as frases em voz alta e, em seguida, pediram para repetir as mesmas frases movendo a boca sem produzir som. As frases sintetizadas neste teste eram de menor qualidade do que as criadas a partir do discurso audível, mas os resultados ainda assim são encorajadores.
Ambos os estudos realçam a importância do pré-processamento nos resultados obtidos. O processo de obter sinais com menos ruído e mais focados no pretendido é essencial para o sucesso destes projetos.
O uso dos wavelets ou a abordagem em duas fases resultou numa distorção acústica marcadamente menos acentuada do que a que ocorreu noutros trabalhos anteriores. Se estivessem disponíveis conjuntos de dados maciços que abrangessem uma grande variedade de condições de fala, a utilização de técnicas de pré-processamento seria menos relevante e a síntese direta provavelmente poderia ter bons resultados.
No entanto, dadas as limitações dos dados que existentes na prática, o pré-processamento limita os possíveis parâmetros do modelo de rede neuronal que têm de ser avaliados, permitindo melhores desempenhos. 
De facto, estudos como estes dois são passos muito importantes, mas ainda há um longo caminho a percorrer até que a fala sintetizada a partir de sinais cerebrais seja facilmente inteligível e uma solução válida em situações muito difíceis.

Baseado nos seguintes textos:
Giorgia Guglielmi (2019) “Brain signals translated into speech using artificial intelligence”. Nature. doi: https://doi.org/10.1038/d41586-019-01328-x
Chethan Pandarinath “Brain implants that let you speak your mind” (2019) Nature 568, 466-467. doi: https://doi.org/10.1038/d41586-019-01181-y.

 

Print

Categorias: Opinião

Tags:

Theme picker

Revista Pub açorianissima