Home // 2012 // July

Ciência sem cientistas?

Corro o risco de parecer não ter grande respeito pelos cientistas quando falei da Danger Zone. Não é bem assim. Só falei sobre o que acontece quando a base que falta é Estatística. Agora vou falar o que acontece quando falta o cientista.

No Venn diagram, Drew Conway caracteriza Machine Learning como o que acontece quando falta domain expertise. Discordo. Bom Machine Learning requer expertise.

No primeiro exemplo de aplicação no curso de Andrew Ng, regressão linear, ele fala sobre a escolha de features nos casos mais ridiculamente simples. Por exemplo, ele fala sobre a escolha de área em substituição às medidas individuais (largura e profundidade) para caracterizar um terreno. Mesmo nesse exemplo de brinquedo domain expertise é importante.

 

Diferenças entre Machine Learning e Data Mining

Qual a diferença entre Machine Learning (ML) e Data Mining (DM)? À primeira vista parecem ser a mesma coisa: aplicar uma massa de dados a um algoritmo que tentará encontrar padrões neles.

Taxonomicamente falando, ML se desenvolveu como parte da Inteligência Artificial, enquanto DM veio do estudo de Bancos de Dados. Mas esta é uma diferença mais histórica, que não se refere à substância das disciplinas.

Geraldo Zimbrão (UFRJ) postula que a diferença é a quantidade de dados: DM lida com massas de dados que seriam impraticáveis para ML. Certamente esta é parte da resposta, mas é importante entender mais visceralmente a diferença.

Um site especializado em DM diz que a obtenção dos dados faz parte integral do processo de DM, enquanto ML presume que os dados estão prontamente disponíveis. O site dá o exemplo de um programa jogador de xadrez, que não precisa de uma grande base de dados para jogar: só precisa ter exemplos que o permitam calibrar seus parâmetros.

 Zimbrão, que segue a mesma linha que Jiawei Han (UIUC), também ensina que o primeiro passo do DM é visualizar os dados. Em contraste, Yaser Abu-Mostafa (CalTech) diz que isso é um pecado capital no ML (“data snooping”). Na verdade, para Andrew Ng (Stanford) visualizar os dados faz parte de ML também, mas dá para intuir a diferença: em DM sujamos a unha de tanto remexer os dados, enquanto em ML mantemos uma certa distância.