Normalização dos atributos & Desempenho dos classificadores

Pré-processar os dados, antes de treinar uma máquina de aprendizagem, é uma etapa vital para se conseguir extrair o melhor de cada máquina. São várias as formas de pré-processar os dados e esta tarefa depende da aplicação em investigação. Por exemplo: em processamento de linguagem natural, é comum realizar a tokenization que objetiva separar sentenças em unidades menores, tais como palavras.

O foco desta post é o pré-processamento dos atributos com o objetivo de colocá-los em uma mesma escala, ou dentro de um mesmo critério, com o intuito de minimizar a influência indevida de um atributo sobre o outro. Esta tarefa é realizada por técnicas de scaling, muitas vezes chamadas de normalização.

Min-max scaler é a mais utilizada e difundida técnicas de scaling. Nela, cada um dos atributos é ajustado para caber em um intervalo, geralmente, entre 0 e 1. Outras técnicas de scaling permeiam as aplicações e, entre elas, destaco: standard scaler, maximum absolute scaler, robust scaler e quantile transformer.

Diante desse contexto com várias técnicas de scaling e vários classificadores, alguns questionamentos emergem:

  • Vale a pena normalizar os dados?
  • A escolha da técnica de scaling influencia no desempenho dos modelos de aprendizagem?
  • Qual técnica escolher para um dado classificador?
  • Quais classificadores são mais sensíveis às escolhas das técnicas de scaling?

Estas e outras questões são abordadas no artigo de Amorim et al. que realiza uma ampla avaliação usando 82 bancos de dados públicos e cinco técnicas de scaling. Foi mostrado que escolher bem a técnica de scaling melhora a precisão de classificadores. Em particular, algoritmos baseados em árvores de decisão são pouco sensíveis à escolha da técnicas de scaling. Logo, em alguns casos, não normalizar pode ser a melhor opção.

O nível de desbalancamento do banco de dados é um fator que influencia a escolha da técnica de scaling. O standard scaler obteve melhor desempenho em bancos de dados com baixos níveis de desbalanceameto, enquanto o quantile transformer apresenta-se como a melhor escolha para os níveis médio e alto de desbalanceamento.

Os autores também ressaltam que a melhor técnica de scaling para um sistema de múltiplos classificadores coincide com a melhor técnica empregada por seu classificador-base. Assim, a definição da melhor técnica de scaling, para um sistema de múltiplos classificadores, pode ser realizada avaliando o comportamento das técnicas em um classificador-base, o que torna todo o processo mais rápido e barato.

Sabendo que o emprego de técnicas de scaling é bastante negligenciado nas mais diversas aplicações, Amorim et al. colocam luz nesta questão e mostram que devemos ficar alertas em relação a esse ponto sensível, pois a escolha da técnica influencia significativamente o desempenho de modelos de classificação.

Lucas B.V. de Amorim, George D.C. Cavalcanti, Rafael M.O. Cruz, The choice of scaling technique matters for classification performance, Applied Soft Computing, 2023.

Como irritar seu orientador?

Em post anterior, discuti as atribuições do orientador que representam apenas uma parte da engrenagem. A orientação é um trabalho em conjunto, uma parceria. Logo, é fundamental que os alunos saibam quais são suas atribuições e obrigações. Estar plenamente consciente, em relação às responsabilidades de cada parte, torna a jornada mais simples. Além do mais, fazer um doutorado é, por si só, uma aventura desafiadora.

Uma maneira de abordar a questão, sobre as responsabilidades do aluno, é listar o que se espera de um bom estudante. Entretanto, vou focalizar o problema por uma perspectiva diferente. Ao invés de elencar os desejáveis atributos de um aluno, vou indicar os comportamentos dos alunos que mais irritam os orientadores. Assim, caso um estudante deseje contrariar o orientador e fazê-lo perder a paciência, esse será seu guia.

Sumir

Simplesmente, desapareça. Não responda e-mail. Não se comunique nem por sinal de fumaça. Essa é a maneira mais simples de irritar seu orientador. Durante o período de orientação, o aluno e o orientador devem ter reuniões regulares e, provavelmente, várias reuniões curtas, diria até, informais. O estudante deve aproveitar esses momentos não apenas para se familiarizar no enredo da pesquisa, mas também para melhor entender o microcosmos da academia.

Entregar um relatório desleixado

Avaliar um relatório mal escrito, mal formatado e desorganizado é uma tarefa desagradável. Se o próprio autor do relatório não é zeloso com sua obra, por que os outros devem ser? O estudante deve cuidar de todos os detalhes: fonte, espaçamento, figuras, tabelas, equações, referências, uso correto da linguagem, escrita científica, entre outros. Vale destacar que o orientador não é um corretor ortográfico e nem um professor de português (ou de inglês). Ele é o especialista no assunto da pesquisa. Assim, não desperdice o tempo dele com atividades simples que você poderia facilmente realizar, como usar um corretor ortográfico. Dica: ao finalizar o relatório, guarde-o por um tempo e depois releia-o prestando atenção tanto à forma quanto ao conteúdo. Você, provavelmente, encontrará vários pontos de melhoria antes de enviá-lo ao seu orientador.

Não cumprir prazos

Prometeu, cumpra. Se não está certo de quanto tempo necessitará para escrever um relatório, para sintetizar os artigos do estado-da-arte ou para avaliar/implementar um técnica, simplesmente infome que precisa de uns dias para melhor estimar e planejar as atividades. Porém, depois que o cronograma estiver pronto, informe o seu orientador e cumpra-o. Imprevistos ocorrem com todos. Entretanto, não informar que irá se atrasar e não explicar o motivo, fere o acordo previamente firmado.

Pedir ajuda antes de tentar resolver o problema sozinho

“Professor, como faço para adicionar uma equação no Latex? Qual é a data da matrícula?” Esse tipo de pergunta, certamente, deixará o orientador irritado, pois, com um mínimo de pró-atividade, o aluno resolveria essas questões facilmente. Para a primeira questão, resolva conversando com outros estudantes ou buscando na Internet, google it! Já para a segunda questão, uma ida a secretaria, ou ao site do programa, seria suficiente. Novamente, não gaste o tempo do seu orientador com atividades pouco proveitosas para o âmago do seu doutorado.

Sair da reunião sem a menor noção do que foi discutido

Ao final de uma reunião com o orientador, o aluno sai com algumas tarefas definidas. Ao regressar à sala do orientador, quinze dias depois, o aluno informa ao orientador que não realizou o experimento acordado, pois não entendeu o que foi solicitado na reunião. Para sanar esse tipo de situação: pergunte! Peça ajuda. O orientador não lerá a sua mente. Dica para o orientador: peça para o aluno lhe explicar o que foi planejado para os próximos dias. Visto que, o aluno só conseguirá explanar o que entendeu. Dica ao aluno: ao final da reunião escreva uma e-mail/ata com o que foi discutido e acordado na reunião. Caso o aluno tenha esquecido algo, ou incompreendido algum ponto, o orientador estará ciente e poderá auxiliar.

Concordar com tudo o que o orientador diz

Concorda com tudo? Esse é o seu doutorado! No início é natural que você concorde com muito do que é dito pelo orientador; além do mais, ele é o pesquisador experiente. Mas, ao longo do percurso, o aluno deve amadurecer e começar a liderar algumas iniciativas relacionadas ao desenvolvimento da pesquisa.


As principais causas de conflitos entre alunos e orientadores são: i) os alunos reclamam da falta de feedback do supervisor e ii) os orientadores reportam falta de habilidade em pesquisa do aluno.

Diante do exposto, é dever de ambos manter uma relação respeitosa, amigável e construtiva. Mas, do ponto de vista do estudante, ele pode controlar melhor a relação se: i) cumprir os prazos, ii) preparar-se para as reuniões, iii) estar aberto a receber críticas, e iv) demonstrar conhecimento e amadurecimento na área da pesquisa.

Tipos de orientador

O orientador é o responsável por guiar e auxiliar o treinamento em pesquisa de alunos em diversos níveis, e.g., mestrado e doutorado. Essa é uma tarefa desafiadora que deve formar o aluno, facilitar seu entendimento sobre as bases da ciência e gerar conhecimento.

Entretanto, não existe uma fórmula mágica. Cada orientação é única. A relação entre o orientador e o aluno envolve diversos fatores de ambas as partes, tais como: background, desejos, expectativas e motivação. Em razão disso, a orientação é um processo personalizado, ou seja, um orientador se comporta de maneira diferente mesmo entre seus alunos.

São vários os estilos de orientação. Existe orientador que sempre está presente, e o que nunca aparece; tem o orientador experiente, e até, o marinheiro de primeira viagem; tem o orientador inseguro, e também, aquele que sempre tem uma opinião precisa sobre os próximos passos. A lista é vasta…

Tomando como base minha experiência, elenquei alguns tipos de orientador. Está é uma lista particular que não tem a pretensão de ser exaustiva. Mas, pode ajudar a identificar algumas características desejáveis ou não do seu (futuro) orientador, e também, pode servir para que você saiba que não está só.

Fantasma

Esse orientador nunca aparece, logo não faz ideia das questões de pesquisa que o aluno está desbravando. Esse tipo também é conhecido como orientador tartaruga, pois põe os ovos na praia (ou seja, aceita os alunos sob sua tutela) e desaparece. Para alunos autônomos, esse tipo de orientador pode funcionar até o momento em que uma crise se avizinha (e tais momentos desafiadores sempre chegam). Mas, para os alunos que precisam de suporte com certa frequência, é, sem dúvida, um pesadelo, uma angústia.

Superstar

É uma estrela de grande magnitude. Encontros são raros. Uma vantagem é que esse tipo de orientador pode abrir portas no futuro e, também, facilitar a obtenção de recursos para o desenvolvimento da pesquisa. Por outro lado, não é incomum que os alunos sejam compelidos a realizar tarefas de ensino e tarefas administrativas para o orientador, em detrimento de sua pesquisa.

Sufocador

Esse orientador deseja saber, em detalhes, todos os passos dos alunos, dentro e fora do ambiente de pesquisa. É controlador e busca a vida dos alunos nas redes sociais. Vai todos os dias, de manhã e de tarde, verificar se o aluno está no laboratório. Cada reunião, em particular ou em grupo, é um processo inquisitório e exaustivo. Quando chega ao ponto de desprestigiar tudo o que o aluno apresenta, é um tormento.

Clone

Esse tipo de orientador deseja que o aluno seja sua réplica em relação à visão de mundo. Os alunos devem trabalhar para solidificar o que o orientador construiu e, assim, aumentar sua reputação. Um aluno muito “criativo” pode ser “podado”. Nesses casos, é comum verificar que a relação patrão-empregado permanece por muito tempo após a defesa.

Generalista

Esse orientador está disposto a “orientar” alunos em qualquer área do conhecimento; é o sabe-tudo. Qualquer tópico de pesquisa existente ou não nessa galáxia, ou em outra, é assunto do seu interesse. Além do mais, ele se acha o maior especialista no assunto, ou melhor, em qualquer assunto. Rapidamente, o aluno percebe que está órfão no tema escolhido.

Amigão

Esse orientador é, normalmente, presente, mas nunca dá uma crítica contundente. Sempre bonzinho, incapaz de desafiar o aluno, mesmo nas situações em que o aluno não cumpre as obrigações. Muitas vezes se mostra indiferente ao progresso na pesquisa, mas reforça o relacionamento pessoal.


Os orientadores são amálgamas das diferentes personas listadas acima, e de algumas não listadas. Independente do caso, o orientador deve enxergar que o aluno está em processo de treinamento para, em breve, se tornar um colega de profissão. Esse é um relacionamento profissional e, como tal, cada um deve ter seu papel claramente delimitado e seu trabalho respeitado.

Definição do tema de pesquisa

A escolha do tema é uma etapa desafiadora e deve ser realizada antes do início da pesquisa. A diversidade de possíveis temas é imensa. Porém, independente da escolha, é importante verificar algumas questões que podem indicar se um caminho promissor será trilhado. Seguem algumas perguntas (figura a seguir) que devem ser levadas em consideração para ajudar nessa escolha:

Afinco e dedicação passam a ser palavras de ordem quando se trabalha em algo que se tem interesse, algo que supõe-se promissor. Essa motivação extra, que advém do prazer associado ao desenvolvimento de algo que lhe é importante, contribuí, uma enormidade, para se atingir o objetivo. Escolha um tema do seu interesse ou se interesse por um tema que lhe foi sugerido.

Caso você ainda não tenha conhecimento amplo sobre o tema, você deve estar disposto a amadurecer rápido. Esse amadurecimento será guiado pelo orientador. Ele lhe indicará referências (artigos, livros, teses, entre outras) que, por sua vez, devem ser de fácil acesso.

Outra questão diz respeito aos dados para realizar a pesquisa. Se os dados estiverem disponíveis, um trabalho a menos. Mas, se você tiver que coletar os dados, tenha o cuidado de analisar a viabilidade e, também, o tempo necessário para essa tarefa. Falando em tempo, averigue se o cronograma cabe no tempo que você dispõe para desenvolver a pesquisa.

Ligue o sinal de alerta se você respondeu não para alguma questão acima, pois o trabalho já é árduo quando essas variáveis estão sob controle. Para os que responderam sim, sucesso na pesquisa.

Quando usar aprendizagem de máquina?

Você já deve ter ouvido a frase: “a inteligência artificial está em todo lugar”. É verdade que usamos no nosso cotidiano vários dispositivos e aplicações que se valem de algoritmos inteligentes e nem percebemos. Algoritmos que filtram imagem impróprias, que recomendam possíveis amigos e que escolhem suas melhores fotos estão embutidos nas redes sociais.  Quando um email é colocado na caixa de Spam, uma máquina de aprendizagem (ramo de destaque da inteligência artificial) fez essa classificação. Os resultados das suas buscas na Internet são filtradas e selecionadas usando, adivinha o quê, algoritmos de aprendizagem de máquina. Recomendação de produtos, detecção de fraudes em compras, carros autônomos; a lista é vasta!

am

O sucesso da aprendizagem de máquina nas mais diversas áreas desperta nosso interesse em imaginar quais serão as próximas aplicações que permearão nossas vidas. Um exercício interessante é entender o que essas aplicações de sucesso têm em comum. Mas, talvez esse seja um exercício mais mercadológico do que propriamente um exercício técnico. Por outro lado, do ponto de vista técnico, vale a pena investigar a essência por trás do uso de aprendizagem de máquina. Para abordar esse assunto, devemos analisar três fatores:

Dados — a aprendizagem de máquina é essencialmente um processo de aprendizado a partir de dados. Logo, sem dados, outras alternativas, diferentes da aprendizagem de máquina, devem ser buscadas. Para um processo de aprendizado supervisionado, os dados devem ser rotulados. Exemplificando: num sistema de detecção de spam, os dados devem ser formados por emails e cada email deve ter um rótulo indicando se ele é spam ou não. Assim, de posse dos emails e de seus rótulos, uma máquina de aprendizagem pode encontrar uma função que ao receber um email como entrada, consegue inferir se é spam ou não.

Função — o processo de treinamento de uma máquina de aprendizagem tem o objetivo de encontrar uma função que faz um mapeamento de um conjunto de variáveis de entrada em uma das possíveis saídas. No caso de um sistema de detecção de spam, se a função que faz esse mapeamento já for conhecida, é desnecessário gastar tempo obtendo os dados e treinando uma máquina para se obter o que já se tem. Mas, se essa função for desconhecida e você não conseguir criar um modelo do problema — como é o caso de verificar se um email é spam —, métodos de aprendizagem de máquina podem te ajudar.

Padrão — os dados que serão usados para o treinamento de uma máquina de aprendizagem devem apresentar um comportamento coerente em relação aos objetos do mundo real que eles representam. Imagine um email que hoje é rotulado como spam e amanhã, esse mesmo email, é rotulado como não-spam. Essa inconsistência impossibilita que uma máquina de aprendizagem construa uma representação plausível do que é um spam, pois não é possível encontrar um comportamento padrão que possa ser usado para fins de aprendizagem.

Avaliando esses três fatores, podemos verificar que mesmo se os dados não tiverem um comportamento coerente (padrão) e se a função de mapeamento for conhecida, podemos usar técnicas de aprendizagem de máquina. Nada nos impede. Mas, não conseguiremos usar aprendizagem de máquina se não tivermos dados. Esse é um pré-requisito essencial.

Para os que pretendem construir soluções baseadas em aprendizagem de máquina para a indústria, sugiro atentar para outros fatores, tais como:

  • Os responsáveis devem ter um bom entendimento do que aprendizagem de máquina significa e o que pode ser alcançado com seu uso. Por mais que iniciativas de automação end-to-end do processo de aprendizagem, e.g. Auto-ML, tenham crescido bastante nos últimos anos, o emprego acurado de técnicas de aprendizagem requer a intervenção de especialistas;
  • Dados de qualidade devem estar disponíveis.  Para tanto, devem ser observados o tamanho e a diversidade da amostra, bem como sua aderência ao problema real. A máquina será tão boa quanto os dados usados para treiná-la. Caso a máquina seja treinada com uma amostra que não reflete o mundo real, a aplicação provavelmente não funcionará a contento. Digamos que um sistema tenha sido treinado apenas com imagens coletadas durante o verão e com forte luz solar. Esse sistema, muito provavelmente, terá o seu funcionamento comprometido para imagens adquiridas à noite, durante um inverso chuvoso;
  • Existência de um processo claro de avaliação do diferencial ao empregar aprendizagem. Essa avaliação possui várias camadas que pode ter início no módulo mais interno do sistema — métrica usada para avaliar a máquina de aprendizagem —, a uma apreciação global que quantificará uma possível redução de custos ou de riscos do negócio.

Por fim, gostaria de destacar que a falta de entendimento do que pode ser alcançado usando aprendizagem de máquina dá origem ao mito de que basta termos uma grande massa de dados e, milagrosamente, técnicas de aprendizagem serão capazes de resolver qualquer problema apenas “olhando” esses dados. Essa massa de dados, muitas vezes, precisa ser trabalhada a várias mãos por diferente especialistas (bancos de dados, ciência dos dados, estatísticos, experts no problema em questão, entre outros) para que tenhamos sucesso no uso de métodos que aprendem.

Competências de um doutor

Um doutorado inicia-se com a escrita de um projeto contendo pelo menos uma questão original. Essa questão é avaliada e o projeto se transforma em uma tese que é defendida em um evento público. De maneira simplista, esses são os passos para a obtenção de um título de doutor.

Além de ser aprovado na defesa de tese, o doutorando almeja produzir um documento relevante e de alta qualidade. Esses também são os anseios dos programas de pós-graduação e dos orientadores, pois esses documentos respaldados pelo método científico podem gerar papers. Mas, do ponto de vista de formação para o mercado, seja academia ou indústria, quais competências esse recém-doutor deve ter?

competencia-dic

Vários fatores são basilares para a geração de doutores de alta qualidade. Entre eles, é possível destacar:

Orientação: o orientador deve ser especialista na área do projeto de pesquisa e deve ter tempo para trabalhar com o aluno;

Instituição: o ambiente de pesquisa no qual o aluno está inserido deve propiciar condições para que a pesquisa seja desenvolvida tanto em relação a equipamentos/infra-estrutura quanto em relação ao convívio com outros pesquisadores; e,

Financiamento: o aluno deve ter acesso a recursos financeiros para dedicar-se ao doutorado.

Entretanto, esses três fatores são necessários mas não garantem o sucesso. Daí surge a pergunta: como verificar se um doutorando reune as competências para se tornar doutor? Ao perguntar quais competências o doutorando precisar ter para obter o título de doutor, a resposta mais comum é provavelmente a seguinte: você deve ser um especialista em sua área de pesquisa e, além disso, deve ser capaz de desenvolver pesquisa de alto nível sem a ajuda do seu orientador e, também, deve ser capaz de ajudar na formação de uma nova geração de pesquisadores.

Diante da resposta dada no parágrafo anterior, não é possível delinear de maneira clara e precisa quais são as exigências/competências requeridas para se tornar um doutor. Essa imprecisão gera desconforto e insegurança no doutorando e não ajuda o programa de pós-graduação a aferir a qualidade de seus formandos. Com o intuito de iniciar uma discussão e minimizar esse desconforto, descrevo a seguir algumas competências que são vitais para a formação de um doutor.

Conhecimento

O doutorando deve conhecer muito bem a área de pesquisa do seu doutorado e deve ter conhecimento profundo em uma das linhas de pesquisa dessa área. Por exemplo: um pesquisador que trabalha na linha de pesquisa de “sistemas de múltiplos classificadores” deve ter um bom conhecimento em aprendizagem de máquina.

Pensamento crítico

A busca pela questão de pesquisa, que será o foco do doutorado, passa pela análise crítica de trabalhos previamente publicados. Ao lermos trabalhos da literatura, devemos não apenas absorver o conhecimento neles acumulados, mas também, devemos ponderar sobre possíveis caminhos não percorridos. Importante destacar que essa análise deve ser balizada por hipóteses plausíveis que diminuam o amplo espectro de possibilidades caso adotássemos uma busca cega baseada em tentativa e erro. Dica: fique alerta se você não encontra possíveis alternativas ou pontos de melhorias nos trabalhos que lê.

competencia

Habilidade para realizar experimentos

Delinear o protocolo para realizar um experimento correto, no qual a pergunta de pesquisa será respondida a contento, é uma competência requerida e que deve ser aprendida ao longo do doutorado. Durante o planejamento dos experimentos, questione (lista não exaustiva) se o tamanho da amostra é adequado, se nenhum erro foi cometido, se os métodos selecionados são apropriados e se o aparato estatístico está aderente aos dados que você possui. Ao realizar experimentos, deve-se estar atento ao viés de confirmação. Este viés ocorre quando o pesquisador está tão imerso em sua pesquisa que não consegue enxergar alguns pontos cruciais que podem afetar a plausibilidade de suas conclusões. 

Habilidade para trabalhar em grupo e liderança

Para se trabalhar bem em equipe, é necessário ganhar a confiança do grupo, ser respeitoso, firme e empático. Assim, seja como aluno de doutorado, como orientador, após finalizar seu doutorado e ingressar na vida acadêmica, ou como empregado em uma indústria, certamente você trabalhará em uma equipe. Em todos esses ambientes, o mais importante é trabalhar como uma equipe e não apenas trabalhar em uma equipe. Para que uma equipe funcione bem é preciso um líder. No caso específico de uma equipe formada por um orientador e seus alunos, o orientador é o líder e, ele deve gerenciar os liderados sabendo que cada um possui uma pesquisa particular e que cada orientação é diferente.

Comunicação

A última etapa do método científico é “reportar os resultados/conclusões”. Assim, habilidades de escrita e de exposição oral do trabalho são mandatórias para melhor divulgar a pesquisa. Na vida acadêmica, as pesquisas são compartilhadas com a comunidade científica através de artigos em revistas e em congressos. Além disso, as agências de fomento, que concedem financiamento para a pesquisa, avaliam pedidos de projetos de pesquisas. Logo, artigos e projetos de pesquisa mal-escritos serão recusados.

Resiliência e determinação 

Pesquisa é um processo de se aventurar pelo desconhecido. Ao investigar um problema original e importante, inerentemente, o doutorando desbravará terras inexploradas. Nessa aventura, é necessário ser resiliente e determinado para não desistir antes do término. Adianto que tais características de sobrevivência serão bastante úteis na vida futura do doutor.

As competências listadas não estão em ordem de importância. Mas, juntas, elas compõem um corpo de atributos que fortalece os alicerces para a formação de um bom profissional que poderá atuar tanto na academia quanto na indústria. Vale destacar que, num passado recente, formava-se doutor para a academia. Dessa forma, o foco da formação estava em prover ao futuro doutor capacidades para realizar pesquisa. Pouca atenção era dada para outras competências, tais como trabalho em grupo e comunicação, hoje indispensáveis.

Pesquisa em ciência da computação às avessas

Motivado por indicação de um revisor, li e sugiro a leitura de dois artigos interessantes que abordam a necessidade, ou não, de experimentação em ciência da computação, são eles:  Experiments as Research Validation: Have We Gone Too Far? e Theory Without Experiments: Have We Gone Too Far?.

A ciência da computação é vasta e formada de várias subáreas, entre elas: teoria da computação, banco de dados, redes, engenharia de software, inteligência computacional e arquitetura. Como tal, encontrar uma metodologia universal para validar toda e qualquer pesquisa realizada na grande área parece-me utopia. <para quem leu os artigos listados no primeiro parágrafo> Entendo que o uso de experimentos não só ajudam, como não atrapalham; o problema é outro, pelo menos nas cercanias.

Decerto é que o foco da pesquisa, independente da subárea, deve estar na novidade e não apenas na precisão. Esse é um ponto importante pois é fácil encontrar artigos, ditos científicos que quando muito são tecnológicos, e até pesquisadores que justificam suas pesquisas pelo fato de terem encontrado uma boa precisão usando alguma medida. Vale salientar que a quantidade de medidas existentes é enorme e, derivado desse fato, encontrar pelo menos uma medida que justifique o modelo proposto pode ser questão de paciência. Veja esse artigo que lista mais de 30 medidas comumente usadas na área de mineração de dados.

Pesquisas dessa natureza muitas vezes se assemelham a colchas de retalhos compostas pela justaposição de diversas abordagens e que parecem ter surgido por obra do acaso ou por tentativa e erro. Nesses casos, justificar a motivação de tais pesquisas torna-se um pandemônio. Pois, as motivações de fato nunca foram pensadas, e agora que boas taxas de acerto foram obtidas é necessário pensar às avessas. Aí, o objetivo da pesquisa passa a ser encontrar uma justificativa que suporte a medida. <e quando tal justificativa não é encontrada? Resposta curta: comece novamente. Resposta longa: discutiremos isso em outro momento>.

Obter resultados muito bons não é ruim. Muito pelo contrário, em especial para a indústria que busca soluções para o mercado sempre ávido por diferenciais que desbanquem a concorrência. Por outro lado, para o crescimento do “conhecimento científico” precisamos de algo mais. Precisamos de premissas que suportem nossas ideias, pois assim, podemos colocar mais um degrau na escada que ajudará outros pesquisadores a galgar na direção da expansão do conhecimento científico.