Paradigma de aprendizagem de máquina – Máquinas que aprendem (MAp)

Após o treinamento de uma máquina de aprendizagem, obtém-se um modelo M que é usado para classificar novas instâncias, ou seja, instâncias nunca vistas durante o processo de treinamento. Esse modelo funciona da seguinte maneira: recebe como entrada uma instância de teste (x_q) e fornece como saída uma predição da classe (ω_q) dessa instância, i.e., M(x_q) → ω_q.

Conforme descrito acima, observam-se duas fases: uma de treinamento, na qual o modelo M é gerado, e uma de teste, na qual o modelo é usado para classificar novas instâncias (x_q). Mas, existem outras alternativas, por exemplo: no artigo Online local pool generation for dynamic classifier selection, os modelos só são treinados quando a instância de teste é apresentada ao sistema. Assim, os modelos são treinados on-the-fly, especificamente para classificar cada instância de teste e, depois da classificação, os modelos são descartados. Vale destacar que quando o sistema é colocado em execução, ele não possui nenhum classificador armazenado. Esse tipo de abordagem tem a vantagem ser facilmente adaptável à inclusão de novos dados de treinamento, mesmo quando o sistema está implantado no cliente.

Com o intento de unir esses dois mundos, propusemos um novo classificador que parte do processo de treinamento é feito offline e parte é feito online, chamado Perturbation-based Classifier (PerC). A parte offline é igual ao procedimento corriqueiro, descrito acima, no qual o conjunto de dados de treinamento é usado para gerar o modelo. Já o procedimento online, utiliza a instância de teste (x_q), em tempo de execução, para auxiliar no processo de tomada de decisão da máquina de aprendizagem.

Para explicar o funcionamento da parte online, suponha um problema com duas classes (ω₁ e ω₂) e admita que a instância de teste x_q pertence à classe ω₁. Assim, é esperado que a inserção da instância x_qna classe ω₁ causará uma “perturbação” (daí o nome do classificador) menor do que sua inserção na classe ω₂, pois x_q pertence à classe ω₁. Essa é a hipótese.

perc

Para ilustrar o conceito de perturbação, a figura acima mostra uma tarefa simples composta de duas classes (ω₁: azul e ω₂: vermelha), na qual deseja-se classificar a instância de teste x_q (representada pelo triângulo verde). Para cada uma das classes, é possível calcular seu centroide (centro de massa), representado por um quadrado preenchido da cor da classe.

O algortimo PerC adiciona x_qao conjunto de treinamento das classes, admitindo, momentaneamente, que tal instância pertence a cada uma das possíveis classes do problema. Assim, suponha que x_qpertence à classe azul. Logo, o número de instâncias nessa classe será acrescido de um e, feito isso, recalcule seu centro de massa. Faça o mesmo para a classe vermelha: suponha que x_qé uma instância vermelha e recalcule o centro de massa dessa classe. Os novos centros de massa são representados por quadrados vazados da cor de cada classe.

Depois do recálculo dos centros de massa, podemos verificar qual centro de massa sofreu maior variação em seu posicionamento original no espaço de características. O centro de massa da classe azul sofreu uma menor variação quando comparado ao centro de massa da classe vermelha. Logo, o PerC classificará x_qcomo sendo da classe azul (ω₁). Vale enfatizar que ao inserir x_qna classe azul, o comportamento dessa classe mudou pouco, dando a entender que a instância adicionada já fazia parte da distribuição dessa classe. Observando a figura, notam-se que os quadrados preenchidos são calculados offline, enquanto os quadrados vazados só foram calculados online, usando a instância de teste (x_q).

Para tarefas com mais de duas classes, ou seja, multi-classe, o PerC funciona da mesma forma. Ele adiciona, temporariamente, a instância de teste x_q, em cada uma das classes, e avalia a perturbação causada. A classe que for minimamente perturbada é atribuída como sendo a classe da instância x_q. Para fins de ilustração, nesse exemplo foi usada a média da classe como fator fundamental para a análise da perturbação. Mas, outros fatores podem ser levados em conta, tal como a matriz de covariância das classes.

PerC não pode ser categorizado como um sistema de online learning, pois a instância de consulta x_qnão é permanentemente adicionada ao conjunto de treinamento. No PerC, após a classificação, a instância x_qé descartada. De maneira geral, PerC não pode ser enquadrado em nenhum paradigma de aprendizagem existente. É um novo paradigma.

O código-fonte do PerC pode ser acessado em https://github.com/rjos/perc.

Categoria: Paradigma de aprendizagem de máquina

Classificador baseado em perturbação