Posfácio do livro “Pandemia da Desinformação”

O texto a seguir foi publicado no posfácio do livro “Pandemia da Desinformação” (link).

Fake News e Inteligência Artificial são dois tópicos importantes que tomaram conta não apenas do imaginário mas também das manchetes e das rodas de conversa. A disseminação de conteúdos falsos pode causar danos à sociedade e, muitas vezes, o objetivo dessa disseminação é a obtenção de algum ganho, seja financeiro ou ainda alguma vantagem política. Daí emerge a questão: como abordar a veloz disseminação de informações falsas? Dentre as tecnologias atuais, a Inteligência Artificial apresenta-se como a mais viável para realizar a tarefa de separar com rapidez conteúdos fraudulentos de conteúdos verdadeiros.

O grupo de pesquisa CoDes (Combate à Desinformação e ao Discurso de Ódio), reúne vários estudantes de graduação, de mestrado e de doutorado interessados em sua temática. É um fórum para discussão, promoção de avanços científicos e, principalmente, para a formação de pesquisadores habilitados a lidar com esta desafiadora área de pesquisa, sem perder de vista aspectos fundamentais para nossa vida em sociedade, como ética e um olhar humano para os desafios atuais. 

Foi desse cenário de discussão fomentado pelo grupo de pesquisa que nasceu a iniciativa deste livro que aborda várias nuances relacionadas à desinformação. Entre elas, discute-se o papel do conceito de verdade e suas distorções em peças desinformativas. Em outro momento, os autores elaboram como teorias  conspiratórias são construídas e disseminadas para embaçar a nossa percepção da realidade e, ainda, destacam danos que a pseudociência pode causar ao enfraquecer o desenvolvimento científico e tecnológico.

Ao desvendar o mecanismo de propagação de notícias falsas, pode-se melhor entender como construir barreiras que nos ajudem a lidar melhor com essa enxurrada de conteúdos enganosos. Esse tópico é assunto de outro capítulo que se conecta com uma discussão sobre os impactos das notícias fraudulentas em uma miríade de setores fundamentais para a nossa vida em sociedade, em particular, na política, na economia e na saúde.

Em outra vertente, debate-se o poder dual da Inteligência Artificial. Por um lado, ela é capaz de gerar notícias fraudulentas em uma escala nunca verificada. E, por outro lado, ela é utilizada como uma alternativa automatizada para detectar notícias falsas. Ainda neste contexto, explica-se como estas ferramentas que usam Inteligência Artificial funcionam, ou seja, como elas conseguem extrair informações de textos com o propósito de predizer se uma nova sentença é uma notícia falsa ou não.

Sistemas automatizados nos brindam com a possibilidade de realizar várias ações em um curto espaço de tempo, tarefa não factível para humanos, mas tais sistemas também apresentam alguns desafios científicos a serem desbravados. Dentre eles, destaca-se a capacidade de explicar as decisões sugeridas por tais sistemas automáticos. Essa é uma importante área de pesquisa, pois tais explicações servem não apenas para argumentar e discutir em sociedade, mas também para melhorar o próprio desempenho de uma nova versão do sistema.

Estamos sempre vivendo novos tempos. Porém, a velocidade das mudanças que observamos nos últimos anos com a internet e com as redes sociais têm transformado nossa vida em sociedade de maneira inédita. O compartilhamento de conteúdos faz parte do nosso cotidiano e foi exacerbado pela simplicidade de divulgação e de propagação das plataformas de redes sociais. Destaco que um ponto crucial não diz respeito ao que fazemos nas redes sociais, mas sim o que deixamos de fazer por gastarmos tanto do nosso precioso tempo em telas. 

Somos seres sociais e estamos cientes de que nossos sentimentos afetam nosso comportamento. Como destacou o neurologista e escritor, António Damásio: “Não somos máquinas de pensar que sentem, mas máquinas de sentir que pensam”. Com essa perspectiva em mente, devemos focar nossos esforços na direção propícia a fortalecer nossos laços com as pessoas, seja no universo físico ou virtual. Logo, é indispensável que estejamos diligentes para não permitirmos que a desinformação mine nossos laços de confiança.

Detecção de discurso de ódio & Inteligência Artificial

Parte do texto a seguir foi publicado no Jornal do Commercio (JC) em 10/06/2024 (link)

A primeira rede social a atingir um patamar de um milhão de usuários foi a MySpace, em 2004. Muitas outras redes sociais surgiram de lá para cá e, atualmente, Facebook, YouTube e WhatsApp possuem mais de 2 bilhões de usuários cada uma. Em menos de duas décadas, testemunhamos um rápido crescimento e, dada nossa presença maciça nessas redes, não é à toa que a forma como as usamos esteja moldando diversos aspectos do nosso comportamento. 

As mudanças abrangem não apenas as formas como nos comunicamos e trabalhamos, mas também a forma como aprendemos e nos divertimos, além de diversas outras áreas da interação entre humanos, entre máquinas e entre ambos. Estamos conectados, online e aprendendo a lidar com tal novidade.

Avançamos e nos apropriamos de diversas vantagens dessa nova realidade. Mas, vale destacar que a fácil disseminação e a crença de anonimato fazem das mídias sociais um ambiente bastante utilizado para a propagação dos mais diversos assuntos. Entre eles, destaca-se o discurso de ódio que pode ser definido como ataque ou ameaça a outras pessoas motivados por raça, gênero, nacionalidade, orientação sexual, entre outros.

As redes sociais rejeitam o discurso de ódio em seus contratos e indicam que contas/usuários que promovam esse tipo de discurso podem sofrer sanções. Entretanto, o volume de postagens nessas redes é imenso. Só o X (antigo Twitter) veicula, em média, seis mil postagens por segundo, ou seja, 500 milhões de postagens todo dia. Estes são dados de apenas uma rede social.  Logo, a ideia de se ter intervenção humana, com a finalidade de verificar possíveis infrações, torna-se inviável.

Além da dificuldade associada ao volume, a tarefa de indicar se um discurso é de ódio ou não requer pessoas especializadas, pois um discurso muitas vezes pode ser confundido com sarcasmo, humor, ou linguagem ofensiva que, em muitos casos, pode ser protegida por lei. Dadas essas especificidades, realizar a moderação das postagens em redes sociais usando humanos é um trabalho desafiador, além de lento e não escalável. Logo, é necessário automatizar o processo e repassar a tarefa para programas de computador que são facilmente replicáveis e respondem rapidamente.

A tarefa de detectar discurso de ódio pode ser descrita de maneira simples: dado um conteúdo, deseja-se que o sistema responda sim, se o conteúdo contiver discurso de ódio, e não, caso contrário. Mas, a computação tradicional, determinística e que trabalha segundo regras estáticas, não se apresenta como uma ferramenta adequada para a tarefa em questão.

Daí emerge a aprendizagem de máquina, que é um ramo da Inteligência Artificial capaz de aprender a partir de dados. Ou seja, ao invés de ser explicitamente programada com regras extraídas de especialista humanos, as máquinas de aprendizagem capturam informações diretamente dos dados (postagens contendo ou não discurso de ódio) de maneira autônoma e automática, sendo assim, capazes de lidar com a incerteza inerente ao processo, além de poderem ser ajustadas para se adaptar às mudanças. 

As redes sociais já se valem de máquinas que aprendem para detectar e tentar impedir a disseminação de discurso de ódio. Porém, ainda há bastante espaço para ajustes e melhorias, pois a detecção automática de discurso de ódio é uma tarefa desafiadora e mal-definida; ainda não há consenso sobre como discurso de ódio deve ser definido. Logo, o que é discurso de ódio para uns pode não ser para outros e, tais definições conflitantes criam um ambiente desafiador para a avaliação de tais sistemas. Dentre os muitos os desafios para o avanço desta tecnologia, é possível destacar os seguintes:

Rotulagem: as máquinas de aprendizagem precisam de dados para discernir quais discursos são de ódio e quais não são. Essa triagem e construção de um corpus que será apresentado à máquina é uma tarefa inicialmente delegada aos humanos. Ao rotular um discurso em ódio ou não-ódio, humanos levam consigo seus preconceitos para o corpus que alimentará a máquina de aprendizagem que, por sua vez, será ineficaz no tratamento dessas incorretudes.  Assim, é desejável minimizar o viés desse processo de rotulagem e, para tal fim, comitês diversos, formados por pessoas especializados, devem ser compostos.

A natureza da linguagem: a linguagem é uma entidade viva e, por conseguinte, mutante. Logo, os algoritmos de aprendizagem de máquina precisam de adaptar a tais mudanças e, para tanto, requerem intervenção humana para indicar quais novas formas de expressão devem ser classificadas como discurso de ódio. 

Portabilidade: uma máquina de aprendizagem desenvolvida para uma dada língua, não se aplica diretamente a outras línguas. Mas do que isso, uma máquina, que foi ajustada para uma região de um país grande como o nosso, precisa levar em consideração regionalismos para realizar uma melhor predição e, tais detalhes, podem prejudicar a predição para outras regiões, mesmo sendo a mesma língua em todo o país.

Interpretabilidade: o processo que leva uma máquina de aprendizagem a tomar uma decisão ao invés de outra, muitas vezes, é indecifrável para humanos. Logo, tornar tais máquinas interpretáveis, pode proporcionar maior credibilidade e confiança ao processo; além de gerar questionamentos que podem ser utilizados para melhorar a precisão dessas mesmas máquinas.

Neste cenário, é promissor vislumbrar estratégias capazes de sinergicamente integrar algoritmos e pessoas, capturando o melhor de cada um.

Detecção de Fake News

A imensa quantidade de informação e de notícias veiculadas nas redes sociais traz desafios enormes. Um deles é o combate às fake news.

Não existe um consenso na comunidade científica sobre a definição de fake news. De maneira mais abrangente, adota-se que fake news é notícia falsa. Por outro lado, pode-se restringir e definir fake news como uma notícia que foi intencionalmente produzida para ser falsa e que pode ser verificada como tal. Essa definição mais restrita exclui, por exemplo, sátira e sarcasmo que não têm como objetivo enganar o leitor.

Estima-se que, em 2022, foram enviados 500 milhões de tweets por dia; e está é, dentre muitas, apenas uma rede social. Logo, a inspeção manual de texto veiculados na Internet é inviável não apenas pela quantidade, mas também, pela necessidade de especialistas humanos com pouco viés para realizar a curadoria de tais textos.

Logo, é preciso automatizar o processo! A inteligência artificial é a tecnologia mais viável atualmente para realizar a tarefa de separar rapidamente notícias falsas de verdadeiras.

Faramarz Farhangian, Rafael M.O. Cruz, George D.C. Cavalcanti. Fake news detection: Taxonomy and comparative studyInformation Fusion, 2024.

Neste artigo, analisamos as principais tecnologias para a área de detecção de fake news. Todas as tecnologias avaliadas pertencem à área de aprendizagem de máquina (um campo da inteligência artificial) que é capaz de extrair informação de massas de dados sem a intervenção humana no processo de aprendizagem. Foram comparados 15 métodos de representação de texto (entre eles, métodos atuais como transformers para large language models) e 20 modelos de aprendizagem de máquina (5 clássicos, 3 ensemble learning e 12 deep learning).

Além da taxonomia atualizada da área, apresentamos um estudo comparativo usando várias abordagens do estado-da-arte. Após a análise dos resultados, dentre as conclusões, observou-se que a combinação de diferentes abordagens leva a uma melhora da predição final do sistema de detecção de fake news. Constatou-se também que a técnica ideal de representação dos textos depende do banco de dados sob análise; mas, vale destacar que os modelos baseados em transformers exibem, consistentemente, um desempenho superior.

Por fim, tendo como base as análises realizadas no artigo, são propostas várias perspectivas de pesquisas futuras para o amadurecimento da área, tais como: emprego de várias representações (multi-view learning) e de sistemas de combinação dinâmica de classificadores.

O código-fonte de todas as análises estão publicamente acessíveis no GitHub: https://github.com/FFarhangian/Fake-news-detection-Comparative-Study.