PLN – Máquinas que aprendem (MAp)

Posfácio do livro “Pandemia da Desinformação”

O texto a seguir foi publicado no posfácio do livro “Pandemia da Desinformação” (link).

Fake News e Inteligência Artificial são dois tópicos importantes que tomaram conta não apenas do imaginário mas também das manchetes e das rodas de conversa. A disseminação de conteúdos falsos pode causar danos à sociedade e, muitas vezes, o objetivo dessa disseminação é a obtenção de algum ganho, seja financeiro ou ainda alguma vantagem política. Daí emerge a questão: como abordar a veloz disseminação de informações falsas? Dentre as tecnologias atuais, a Inteligência Artificial apresenta-se como a mais viável para realizar a tarefa de separar com rapidez conteúdos fraudulentos de conteúdos verdadeiros.

O grupo de pesquisa CoDes (Combate à Desinformação e ao Discurso de Ódio), reúne vários estudantes de graduação, de mestrado e de doutorado interessados em sua temática. É um fórum para discussão, promoção de avanços científicos e, principalmente, para a formação de pesquisadores habilitados a lidar com esta desafiadora área de pesquisa, sem perder de vista aspectos fundamentais para nossa vida em sociedade, como ética e um olhar humano para os desafios atuais.

Foi desse cenário de discussão fomentado pelo grupo de pesquisa que nasceu a iniciativa deste livro que aborda várias nuances relacionadas à desinformação. Entre elas, discute-se o papel do conceito de verdade e suas distorções em peças desinformativas. Em outro momento, os autores elaboram como teorias conspiratórias são construídas e disseminadas para embaçar a nossa percepção da realidade e, ainda, destacam danos que a pseudociência pode causar ao enfraquecer o desenvolvimento científico e tecnológico.

Ao desvendar o mecanismo de propagação de notícias falsas, pode-se melhor entender como construir barreiras que nos ajudem a lidar melhor com essa enxurrada de conteúdos enganosos. Esse tópico é assunto de outro capítulo que se conecta com uma discussão sobre os impactos das notícias fraudulentas em uma miríade de setores fundamentais para a nossa vida em sociedade, em particular, na política, na economia e na saúde.

Em outra vertente, debate-se o poder dual da Inteligência Artificial. Por um lado, ela é capaz de gerar notícias fraudulentas em uma escala nunca verificada. E, por outro lado, ela é utilizada como uma alternativa automatizada para detectar notícias falsas. Ainda neste contexto, explica-se como estas ferramentas que usam Inteligência Artificial funcionam, ou seja, como elas conseguem extrair informações de textos com o propósito de predizer se uma nova sentença é uma notícia falsa ou não.

Sistemas automatizados nos brindam com a possibilidade de realizar várias ações em um curto espaço de tempo, tarefa não factível para humanos, mas tais sistemas também apresentam alguns desafios científicos a serem desbravados. Dentre eles, destaca-se a capacidade de explicar as decisões sugeridas por tais sistemas automáticos. Essa é uma importante área de pesquisa, pois tais explicações servem não apenas para argumentar e discutir em sociedade, mas também para melhorar o próprio desempenho de uma nova versão do sistema.

Estamos sempre vivendo novos tempos. Porém, a velocidade das mudanças que observamos nos últimos anos com a internet e com as redes sociais têm transformado nossa vida em sociedade de maneira inédita. O compartilhamento de conteúdos faz parte do nosso cotidiano e foi exacerbado pela simplicidade de divulgação e de propagação das plataformas de redes sociais. Destaco que um ponto crucial não diz respeito ao que fazemos nas redes sociais, mas sim o que deixamos de fazer por gastarmos tanto do nosso precioso tempo em telas.

Somos seres sociais e estamos cientes de que nossos sentimentos afetam nosso comportamento. Como destacou o neurologista e escritor, António Damásio: “Não somos máquinas de pensar que sentem, mas máquinas de sentir que pensam”. Com essa perspectiva em mente, devemos focar nossos esforços na direção propícia a fortalecer nossos laços com as pessoas, seja no universo físico ou virtual. Logo, é indispensável que estejamos diligentes para não permitirmos que a desinformação mine nossos laços de confiança.

Inteligência Artificial: muito além dos robôs de conversação

A matéria a seguir foi publicada no Jornal do Commercio (JC) em 11/08/2025 (link).

O desbravar de caminhos para alcançar inteligência além do ser humano remonta a um passado distante dos tempos modernos. Na mitologia grega, Talos, um autômato gigante de bronze, foi concebido por um deus para proteger a ilha de Creta. Talos é provavelmente a primeira máquina inteligente documentada.

Da Grécia antiga para os dias atuais, a Inteligência Artificial (IA) deixou de ser um assunto apenas relacionado à ficção científica para permear nosso cotidiano. Ao fazer uma busca no Google, somos auxiliados por algoritmos que usam IA. Recomendações de filmes, de livros ou de músicas, nas mais diferentes plataformas, são trabalhos realizados por IA. O acesso ao celular ou aos caixas eletrônicos de bancos usando a impressão digital, a face ou a palma da mão, também é uma tarefa desempenhada por IA. A lista é longa e inclui jogos, redes sociais, sistemas de saúde e financeiro, propaganda, transporte, compras online, só para dar alguns exemplos. Ou seja, artefatos que usam IA já permeiam nosso cotidiano faz algum tempo e, em muitos casos, não estamos cientes de que existe uma IA por trás do processo.

A percepção do público sobre IA vem mudando ao longo do tempo. Embora seja unânime seu poder transformador na sociedade, alguns enxergam um imenso potencial positivo, já outros veem o copo meio vazio. Interagir com um computador super-avançado, como o HAL 9000, do filme “2001: uma Odisseia no Espaço”, despertava o imaginário popular e, esta realidade, começou a se materializar com o advento de assistentes virtuais como Siri, Cortana e Alexa.

Porém, a visão geral do que é IA começou a se modificar de maneira mais evidente ao final de 2022, com o lançamento do ChatGPT. Agora dispomos de robôs de conversação capazes de realizar diferentes tarefas que, no passado, eram atribuídas apenas a humanos, tais como: resolução de problemas, resumo de documentos, escrita de programas de computador e de cartas, análise de dados e criação de imagens e de vídeos. Tudo isso como se estivéssemos conversando, batendo um papo, com um amigo. Logo, esta forma simples de nos comunicarmos com esses robôs gera uma maior visibilidade da existência de IA, além de aproximar essa realidade da sociedade de forma mais ampla. Esta novidade provoca diferentes sensações e é motivo de debate não apenas entre especialistas, mas por boa parte da sociedade.

Depois do ChatGPT, ferramentas similares surgiram: Gemini e Deep Seek, entre outras. Esta diversificação de ferramentas amplia as possibilidades de uso e, por consequência, expande a percepção de suas capacidades. Tais ferramentas têm o propósito de processar linguagem natural, ou seja, dispõe de capacidade de “entender” um comando, seja de texto ou de voz, e de produzir uma resposta. Muitos setores da sociedade, empresas públicas ou privadas, já se beneficiam de tais ferramentas e a tendência é de maior e melhor adesão.

Mas, vale a ressalva de que IA não é apenas um robô de conversação ou um grande modelo de linguagem (LLM, do inglês). Vai muito além! É importante estarmos cientes disso, pois só assim podemos aprofundar a discussão sobre o impacto dessas tecnologias em nossas vidas; pois existem vários aspectos éticos e legais envolvidos. Munidos de tal discernimento, podemos avançar no uso e na construção de ferramentas e de processo educacionais que nos auxiliem a extrair o que de melhor essas novas tecnologias têm a nos oferecer.

DeepSeek traz novas perspectivas para a corrida pela liderança em inteligência artificial

Texto publicado no Jornal do Commercio (JC) em 17/02/2025 (link)

Chatbots, como o ChatGPT, Gemini, entre outros, revolucionaram a forma como lidamos com diversas tarefas relacionadas ao processamento de linguagem natural — tecnologia de inteligência artificial (IA)capaz de interpretar, manipular e compreender a linguagem humana, seja falada ou escrita.

O alicerce atual para essas ferramentas são grandes modelos de linguagens (large language models (LLM), em inglês). Até então, um dos desafios para a construção de LLMs residia no custo para treiná-las. Estima-se que o custo para o treinamento do GPT-4 da OpenAI tenha ultrapassado os 75 milhões de dólares. Logo, o desenvolvimento de tais ferramentas estava fora do alcance da maioria das empresas.

Esse status quo foi colocado à prova com o lançamento do aplicativo de chatbot DeepSeek R1, produto de uma empresa chinesa, especializada em inteligência artificial, fundada em 2023. A DeepSeek afirma que o custo de treinamento de sua ferramenta foi de, aproximadamente, 6 milhões de dólares (menos de 10% do custo do GPT-4). E mais, o DeepSeek obteve desempenho superior em algumas tarefas, tais como matemática e raciocínio, quando comparado ao GPT-4, por exemplo.

Este é mais um curioso caso no qual restrições podem exercer um poder transformador. O aplicativo R1 foi desenvolvido em um momento de sanções de exportação de chips de computadores dos Estados Unidos para China; chips amplamente usados para a produção de programas de inteligência artificial que precisam de muito processamento e que lidam com muitos dados. Logo, os engenheiros de software da DeepSeek propuseram inovações que culminaram em um modelo que necessita de um décimo do poder computacional de um LLM equivalente.

Daí emerge uma novidade: dispomos de um chatbot rápido, mais barato e que ainda apresenta desempenho comparável aos principais concorrentes. Se isso não bastasse, o R1 adota uma tecnologia de pesos aberta, na qual qualquer pessoa pode usar e modificar o programa de computador para atingir seus objetivos.

Vale salientar que a DeepSeek não surgiu por acaso. Emergiu de um plano com metas governamentais chinesas para atingir a liderança mundial em IA. Plano esse norteado por investimentos em formação de especialistas em inteligência artificial, infraestrutura, desenvolvimento industrial e pesquisa científica avançada.

A DeepSeek também se destaca pela descrição detalhada de seus métodos em artigos científicos e pela estratégia de ciência aberta. Mas, ferramentas dessa natureza, seja ChatGPT ou DeepSeek, extraem informações de dados e não são imunes a um potencial viés — seja de gênero, de etnia, de orientação sexual ou outro. Além do mais, tais modelos são tão bons quanto os dados que foram usados para construí-los. Outra preocupação reside na privacidade dos dados. Lembrando que dados são a matéria-prima dessas ferramentas.

Certo é que a liderança das gigantes americanas foi chacoalhada e que muitos outros modelos vão surgir em breve, mais baratos e melhores. A jornada está só no início!

Previsão de sucesso em campanhas de crowdfunding usando aprendizagem de máquina

Crowdfunding, ou financiamento coletivo, é uma maneira de conseguir recursos para alavancar um projeto. Para tanto, um indivíduo ou uma startup apresenta sua ideia em plataformas online com o intuito de conseguir uma quantia específica de dinheiro para colocar seu projeto em curso. Tais projetos são financiados, em geral, por um grande grupo de pessoas que acreditam no projeto e que pode se beneficiar, por exemplo, com cotas do empreendimento.

Algumas campanhas de crowdfunding são exitosas; enquanto outras não conseguem angariar a quantidade de recurso suficientes para iniciar o projeto e, assim, naufragam. Separar, o quanto antes, campanhas de sucesso das que irão fracassar implica em redução de custos e de frustrações de parte a parte.

No artigo a seguir, investigamos diversas abordagens de aprendizagem de máquina para a predição de sucesso em campanhas de crowdfunding.

George D.C. Cavalcanti, Wesley Mendes-Da-Silva, Israel J. dos Santos Felipe, Leonardo A. Santos. Recent advances in applications of machine learning in reward crowdfunding success forecasting. Neural Computing & Applications, 2024.

Foram avaliados 15 algoritmos de aprendizagem de máquina, entre eles, algoritmos tradicionais (MLP, SVM, …), algoritmos de combinação estática (RandomForest, AdaBoost, XGBoost, …) e algoritmos de combinação dinâmica de classificadores (Meta-DES, KNORAE, …), usando três métricas: acurácia, área sob curva ROC e F-score, e um total de 4.193 campanhas. Destaque para o Meta-DES que obteve o melhor resultado global. Este método usa meta-aprendizagem para selecionar dinamicamente os melhores classificadores por campanha de crowdfunding em avaliação. Em outras palavras, o Meta-DES usa classificadores diferentes para avaliar campanhas diferentes e esta escolha é realizada on-the-fly, ou seja, em produção.

Boa parte da discussão do artigo é voltada para explicar (eXplainable AI) os motivos que levaram a máquina de aprendizagem a indicar que uma determinada campanha seria de sucesso ou não. Para tanto, computamos os Shapley values visando enxergar o conteúdo da black-box das máquinas.

De maneira global, as variáveis mais importantes para a predição foram: o número de pledges, o valor total esperado na campanha, entre outras, conforme mostrado no gráfico acima.

Dentre as variáveis usadas para representar uma campanha, duas delas têm o objetivo de capturar o sentimento do mercado no dia do lançamento da campanha de crowdfunding, são elas: social media net sentiment (SMNS) e mainstream media net sentiment (MMNS). Esse sentimento foi extraído do Twitter e do jornal “O Estado de São Paulo” usando técnicas de processamento de linguagem natural. Embora tenhamos usado apenas duas fontes de informações online, vale destacar que essas variáveis foram relevantes para as decisões das máquinas.

Destaco que este trabalho foi realizado com 4.193 campanhas do mundo real. Um esforço multidisciplinar como este requer a adição de diferentes competências complementares. Agradeço aos co-autores: Wesley (Professor de Finanças/FGV-SP), Israel (Professor de Finanças/UFRN) e Leonardo (Senior Machine Learning Engineer/Nubank).

O código-fonte e mais detalhes sobre a análise experimental estão disponíveis no GitHub: https://github.com/las33/Crowdfunding.

Detecção de discurso de ódio & Inteligência Artificial

Parte do texto a seguir foi publicado no Jornal do Commercio (JC) em 10/06/2024 (link)

A primeira rede social a atingir um patamar de um milhão de usuários foi a MySpace, em 2004. Muitas outras redes sociais surgiram de lá para cá e, atualmente, Facebook, YouTube e WhatsApp possuem mais de 2 bilhões de usuários cada uma. Em menos de duas décadas, testemunhamos um rápido crescimento e, dada nossa presença maciça nessas redes, não é à toa que a forma como as usamos esteja moldando diversos aspectos do nosso comportamento.

As mudanças abrangem não apenas as formas como nos comunicamos e trabalhamos, mas também a forma como aprendemos e nos divertimos, além de diversas outras áreas da interação entre humanos, entre máquinas e entre ambos. Estamos conectados, online e aprendendo a lidar com tal novidade.

Avançamos e nos apropriamos de diversas vantagens dessa nova realidade. Mas, vale destacar que a fácil disseminação e a crença de anonimato fazem das mídias sociais um ambiente bastante utilizado para a propagação dos mais diversos assuntos. Entre eles, destaca-se o discurso de ódio que pode ser definido como ataque ou ameaça a outras pessoas motivados por raça, gênero, nacionalidade, orientação sexual, entre outros.

As redes sociais rejeitam o discurso de ódio em seus contratos e indicam que contas/usuários que promovam esse tipo de discurso podem sofrer sanções. Entretanto, o volume de postagens nessas redes é imenso. Só o X (antigo Twitter) veicula, em média, seis mil postagens por segundo, ou seja, 500 milhões de postagens todo dia. Estes são dados de apenas uma rede social. Logo, a ideia de se ter intervenção humana, com a finalidade de verificar possíveis infrações, torna-se inviável.

Além da dificuldade associada ao volume, a tarefa de indicar se um discurso é de ódio ou não requer pessoas especializadas, pois um discurso muitas vezes pode ser confundido com sarcasmo, humor, ou linguagem ofensiva que, em muitos casos, pode ser protegida por lei. Dadas essas especificidades, realizar a moderação das postagens em redes sociais usando humanos é um trabalho desafiador, além de lento e não escalável. Logo, é necessário automatizar o processo e repassar a tarefa para programas de computador que são facilmente replicáveis e respondem rapidamente.

A tarefa de detectar discurso de ódio pode ser descrita de maneira simples: dado um conteúdo, deseja-se que o sistema responda sim, se o conteúdo contiver discurso de ódio, e não, caso contrário. Mas, a computação tradicional, determinística e que trabalha segundo regras estáticas, não se apresenta como uma ferramenta adequada para a tarefa em questão.

Daí emerge a aprendizagem de máquina, que é um ramo da Inteligência Artificial capaz de aprender a partir de dados. Ou seja, ao invés de ser explicitamente programada com regras extraídas de especialista humanos, as máquinas de aprendizagem capturam informações diretamente dos dados (postagens contendo ou não discurso de ódio) de maneira autônoma e automática, sendo assim, capazes de lidar com a incerteza inerente ao processo, além de poderem ser ajustadas para se adaptar às mudanças.

As redes sociais já se valem de máquinas que aprendem para detectar e tentar impedir a disseminação de discurso de ódio. Porém, ainda há bastante espaço para ajustes e melhorias, pois a detecção automática de discurso de ódio é uma tarefa desafiadora e mal-definida; ainda não há consenso sobre como discurso de ódio deve ser definido. Logo, o que é discurso de ódio para uns pode não ser para outros e, tais definições conflitantes criam um ambiente desafiador para a avaliação de tais sistemas. Dentre os muitos os desafios para o avanço desta tecnologia, é possível destacar os seguintes:

Rotulagem: as máquinas de aprendizagem precisam de dados para discernir quais discursos são de ódio e quais não são. Essa triagem e construção de um corpus que será apresentado à máquina é uma tarefa inicialmente delegada aos humanos. Ao rotular um discurso em ódio ou não-ódio, humanos levam consigo seus preconceitos para o corpus que alimentará a máquina de aprendizagem que, por sua vez, será ineficaz no tratamento dessas incorretudes. Assim, é desejável minimizar o viés desse processo de rotulagem e, para tal fim, comitês diversos, formados por pessoas especializados, devem ser compostos.

A natureza da linguagem: a linguagem é uma entidade viva e, por conseguinte, mutante. Logo, os algoritmos de aprendizagem de máquina precisam de adaptar a tais mudanças e, para tanto, requerem intervenção humana para indicar quais novas formas de expressão devem ser classificadas como discurso de ódio.

Portabilidade: uma máquina de aprendizagem desenvolvida para uma dada língua, não se aplica diretamente a outras línguas. Mas do que isso, uma máquina, que foi ajustada para uma região de um país grande como o nosso, precisa levar em consideração regionalismos para realizar uma melhor predição e, tais detalhes, podem prejudicar a predição para outras regiões, mesmo sendo a mesma língua em todo o país.

Interpretabilidade: o processo que leva uma máquina de aprendizagem a tomar uma decisão ao invés de outra, muitas vezes, é indecifrável para humanos. Logo, tornar tais máquinas interpretáveis, pode proporcionar maior credibilidade e confiança ao processo; além de gerar questionamentos que podem ser utilizados para melhorar a precisão dessas mesmas máquinas.

Neste cenário, é promissor vislumbrar estratégias capazes de sinergicamente integrar algoritmos e pessoas, capturando o melhor de cada um.

Detecção de Fake News

A imensa quantidade de informação e de notícias veiculadas nas redes sociais traz desafios enormes. Um deles é o combate às fake news.

Não existe um consenso na comunidade científica sobre a definição de fake news. De maneira mais abrangente, adota-se que fake news é notícia falsa. Por outro lado, pode-se restringir e definir fake news como uma notícia que foi intencionalmente produzida para ser falsa e que pode ser verificada como tal. Essa definição mais restrita exclui, por exemplo, sátira e sarcasmo que não têm como objetivo enganar o leitor.

Estima-se que, em 2022, foram enviados 500 milhões de tweets por dia; e está é, dentre muitas, apenas uma rede social. Logo, a inspeção manual de texto veiculados na Internet é inviável não apenas pela quantidade, mas também, pela necessidade de especialistas humanos com pouco viés para realizar a curadoria de tais textos.

Logo, é preciso automatizar o processo! A inteligência artificial é a tecnologia mais viável atualmente para realizar a tarefa de separar rapidamente notícias falsas de verdadeiras.

Faramarz Farhangian, Rafael M.O. Cruz, George D.C. Cavalcanti. Fake news detection: Taxonomy and comparative study. Information Fusion, 2024.

Neste artigo, analisamos as principais tecnologias para a área de detecção de fake news. Todas as tecnologias avaliadas pertencem à área de aprendizagem de máquina (um campo da inteligência artificial) que é capaz de extrair informação de massas de dados sem a intervenção humana no processo de aprendizagem. Foram comparados 15 métodos de representação de texto (entre eles, métodos atuais como transformers para large language models) e 20 modelos de aprendizagem de máquina (5 clássicos, 3 ensemble learning e 12 deep learning).

Além da taxonomia atualizada da área, apresentamos um estudo comparativo usando várias abordagens do estado-da-arte. Após a análise dos resultados, dentre as conclusões, observou-se que a combinação de diferentes abordagens leva a uma melhora da predição final do sistema de detecção de fake news. Constatou-se também que a técnica ideal de representação dos textos depende do banco de dados sob análise; mas, vale destacar que os modelos baseados em transformers exibem, consistentemente, um desempenho superior.

Por fim, tendo como base as análises realizadas no artigo, são propostas várias perspectivas de pesquisas futuras para o amadurecimento da área, tais como: emprego de várias representações (multi-view learning) e de sistemas de combinação dinâmica de classificadores.

O código-fonte de todas as análises estão publicamente acessíveis no GitHub: https://github.com/FFarhangian/Fake-news-detection-Comparative-Study.

Processamento de linguagem natural: representando palavras

Os avanços científicos e tecnológicos em processamento de linguagem natural têm o objetivo de intermediar a comunicação entre computadores e humanos usando seu principal meio de transmissão de informação, de conhecimento e de sentimento: a linguagem natural. A comunicação entre humanos é uma relação social bastante complexa que envolve o uso de diversos recursos, tais como: gestos e símbolos. Mas, dentre todos os meios, a palavra merece uma atenção especial, por sua abrangência e alcance.

A confluência entre palavras e sistemas de aprendizagem de máquina mostra um caminho para a produção de aplicações que agregam valor a diversas tarefas: tradução, detecção de fake news, deteção de hate speech, categorização de documentos, análise de sentimentos e de emoções, entre outras. Um pilar fundamental para o sucesso da automatização de tais aplicações reside na representação dessas palavras de uma forma que facilite a tarefa das máquinas de aprendizagem. Essa tal representação deve preservar o significado das palavras.

O WordNet é um dicionário de sinônimos de palavras em inglês. Além dos sinônimos, o WordNet armazena, para cada palavra, um conjunto de relações do tipo “é um”. Por exemplo: para a palavra morcego, as relações “é um” animal, “é um” mamífero, entre outras, podem ser recuperadas. Assim, o WordNet é uma alternativa para representar palavras, porém, possui algumas limitações. Uma delas refere-se a incompletude, ou seja, faltam sinônimos de várias palavras, especialmente, de palavras mais novas. Ao se analisar textos, algumas palavras aparecem regularmente próximas entre si, enquanto outras, raramente, aparecem juntas. Para exemplificar: as palavras “tubarão” e “baleia” ocorrem juntas com mais frequência do que as palavras “tubarão” e “deserto”. Logo, uma informação importante diz respeito à similaridade entre palavras, e isso, o WordNet também não oferece.

One-hot encoding

Até 2012, boa parte das aplicações representavam palavras usando uma codificação ortogonal. Para ilustrar, um corpus composto por seis palavras: tubarão, baleia, deserto, golfinho, mamífero e peixe, seria representado pelos vetores binários:

one-hot-enconding

Essa forma de representar, também conhecida como one-hot encoding, traz consigo algumas questões. Em geral, um corpus (conjunto de textos) possui mais do que seis palavras. Dado que o tamanho do vetor, que representa cada palavra, é igual ao número de palavras no corpus, esse vetor terá, facilmente, o tamanho de algumas centenas de milhares de posições. Logo, são vetores grandes e esparsos (cada vetor possui apenas um valor “1” e vários “0”s).

Outro fator negativo ao empregar o one-hot encoding está relacionado à similaridade entre as palavras. Nessa representação, a distância entre quaisquer duas palavras é a mesma, pois cada palavra é um vetor perpendicular a todos os outros, logo, o produto interno entre dois vetores é igual a zero. Desta forma, a distância entre as palavras “baleia” e “golfinho” e as palavras “baleia” e “deserto” é a mesma. Nenhuma relação entre as palavras é estabelecida, e isso fere o objetivo de adicionar semântica ao processo, pois sabemos que as palavras “baleia” e “golfinho” aparecem mais frequentemente juntas do que as palavras “baleia” e “deserto”.

Word vectors

Tendo em vista que a relação entre as palavras é importante, pois é uma forma de adicionar semântica ao processo, alternativas foram desenvolvidas para incluir essa informação de contexto no vetor que representada cada palavra. Desde 2013, uma forma de mapear palavras em vetores com valores reais, estabeleceu-se como o estado da arte da área: word vectors (word embedding).

Ao contrário do one-hot enconding, no qual um vetor perpendicular às demais palavras é atribuído a cada palavra, os word vectors são aprendidos usando uma rede neural artificial. Esse processo de aprendizagem dos vetores leva em consideração o fato de que palavras que ocorrem em contextos similares possuem semânticas, também, similares. Dito de outra forma, se a palavra “peixe” aparece próxima da palavra “tubarão” mais frequentemente do que a palavra “mamífero”, é esperado que as palavras “peixe” e “tubarão” sejam mais “parecidas”, semanticamente, do que as palavras “peixe” e “mamífero”. Assim, deseja-se construir vetores que representem as palavras de forma que a distância entre “peixe” e “tubarão” seja menor do que a distância entre “peixe” e “mamífero”.

A figura a seguir mostra exemplos de word vectors nos quais é possível observar que as distâncias entre as palavras não é a mesma e que algumas relações semânticas, semelhantes às descritas no parágrafo anterior, são preservadas. Nota: cada uma das palavras dessa figura era formada originalmente por um vetor de cem valores e, para fins de visualização, a dimensionalidade foi reduzido para duas usando a análise dos componentes principais. Logo, muita informação foi perdida nesse processo de redução para uma representação 2D.

pca-word2vec

Mas, como embutir tal semântica nos vetores que representam as palavras, sabendo que tais vetores são compostos por números reais? Para ilustrar a intuição dessa construção dos vetores, veja o exemplo a seguir que mostra a frase “Focas, orcas, golfinhos e baleias são mamíferos que vivem nos mares”. Nesse exemplo, o elemento “central” é dado pela palavra “baleia” e os elementos de “contexto” estão destacados em verde. Esse processo é chamado de janelamento e, para essa ilustração, foi usado uma janela de tamanho cinco. De maneira iterativa, essa janela percorre a frase, colocando outras palavras como o elemento “central”.

word2vec-frase2

Os valores que compõem o vetor da palavra “central” são atualizados de maneira que consigam predizer quais palavras formam o “contexto”. Na figura, w_t representa a palavra central “baleia” e P(w_t+2|w_t) é a probabilidade de predizer a palavra “mamífero” (w_t+2) dada a palavra “baleia” (w_t). Desta forma, ao apresentar várias e várias janelas à máquina de aprendizagem, o modelo consegue aprender o contexto de palavras estimando a probabilidade de uma palavra no “contexto” ser predita pela palavra “central”. E, ao fim, esse processo “magicamente” embute o significado das palavras nos valores dos vetores. Para mais detalhes sobre o funcionamento do modelo, veja o artigo que propõe o Word2vec. Esse é o modelo seminal que usa uma rede neural para representar as palavras seguindo a intuição descrita acima.