Recomendação de configurações para tarefas de regressão

O desbalanceamento dos dados pode enviesar a máquina para os padrões que ocorrem com maior frequência. Embora seja conhecido que balancear os dados antes de apresentá-lo à máquina de aprendizagem seja vantajoso para fins de generalização, tal procedimento é pouco discutido para tarefas de regressão.

Também é importante destacar que não existe um procedimento capaz de encontrar o melhor algoritmo de balanceamento para todos os problemas (referência); e, mais, avaliar todos os algoritmos existentes requer muito esforço computacional. Além disso, a integração ideal entre algoritmos de balanceamento e de aprendizagem de máquina depende dos dados sob análise.

Logo, o artigo

Juscimara Avelino, George D.C. Cavalcanti, Rafael M.O. Cruz. Imbalanced regression pipeline recommendationMachine Learning, 114, 146 (2025).

apresenta uma abordagem automática para a escolha da técnica de balanceamento e do algoritmo de aprendizagem mais apropriados por problema. A abordagem chama-se Meta-IR e isenta o usuário de avaliar cada possível par de técnica de balanceamento e de algoritmo de apresentarem por banco de dados. Vale salientar que a abordagem proposta é extensível para outra configurações do pipeline, tais como pré-processamento, detecção de outiliers e parâmetros da máquina de aprendizagem.

Para tanto, a proposta se vale de meta-aprendizagem e de aprendizagem multi-rótulo para extrair informações de várias tarefas com a finalidade de construir uma representação capaz de recomendar os melhores algoritmos por banco de dados.

A figura a seguir explicita vantagens da abordagem proposta em relação aos sistemas tradicionais de AutoML (Automated Machine Learning).

Vê-se que os sistemas tradicionais realizam grande parte do processamento quando recebem o banco de dados (figura (b)); assim, o processamento em tempo de produção (online) é muito alto. Por outro lado, a proposta realiza a maior parte do processamento offline (e o realiza apenas uma vez), agilizando a resposta em tempo de produção.

Os resultados experimentais mostram a vantagem do sistema proposto (Meta-IR) quando comparado a sistemas de AutoML, tais como: Auto-sklearn, H2O, TPOT, FLAML, LightAutoML e Nive AutoML.

O código-fonte e demais informações estão públicos em https://github.com/JusciAvelino/Meta-IR.

Deixe um comentário