Home // Page 2

Como não dormir em aulas em vídeo

O que você quer aprender, na Internet tem vídeos ensinando. Matemática, biologia, leis babilônicas, como fazer pizza de chocolate, tem tudo lá. Gosto de aproveitar essa cornucópia de recursos — frequentemente gratuitos — para estudar continuamente.

O difícil é prestar atenção. Natualmente, nas aulas em vídeo os expositores falam no mesmo ritmo em que falariam numa aula ao vivo… devagar… aí começo a pensar noutras coisas… divagar… “divagar” lembra “devagar”… que outras palavras se parecem e como se associam?

Qual era o assunto mesmo?

Quando dou por mim, estive pensando noutras coisas a maior parte do tempo e perdi o que o palestrante estava falando. Droga, tenho de começar de novo. Agora vou prestar atenção… até que divago novamente.

Acabo de encontrar aqui uma solução para este problema. O objetivo de Scott era assistir às aulas mais rápido, então ele as baixa em MP4 e as assiste com o software VLC no dobro da velocidade normal. Só que isso tem o feliz efeito colateral de tornar as aulas menos sonolentas, com menos estímulos e oportunidades para divagar.

A experiência tem sido ótima. Além de ganhar tempo assistindo às aulas em menos tempo, só preciso assistir uma vez, já que presto atenção o tempo todo.

Claro que alguns conceitos são difíceis de digerir mesmo e exigem mais tempo. Para isto existe o botão de pause do tocar de vídeo, uai.

Diferença entre Ciência e Engenharia

Em The Art of Doing Science and Engineering, Richard Hamming faz uma interessante distinção entre Ciência e Engenharia:

Em Ciência, se você sabe o que está fazendo, então você não deveria estar fazendo. Em Engenharia, se você não sabe o que está fazendo, então você não deveria estar fazendo.

É algo para ter em mente. Tenho duas vidas paralelas: como pesquisador e como provedor de soluções. Da mesma maneira que um pesquisador que só faz o que sabe é irrelevante, um profissional contratado para prover uma solução para uma empresa é desonesto se tenta fazer o que não sabe.

Profissionais de TI frequentemente cometem o pecado de prejudicar o cliente ou empregador, aproveitando seus projetos para experimentar. Fico triste em constatar que eu mesmo já cometi esse pecado mais de uma vez.

Big Data: The Moving Parts

Gráfico interessante publicado pela ZDNet:

Melhorando Vidas em 2013, Ano Internacional da Estatística

Vídeo criado pela SAS para comemorar o Ano Internacional da Estatística:

Todos querem ser Hari Seldon

Hari SeldonUm dos maiores clássicos da ficção científica é a Fundação de Isaac Asimov, onde o matemático Hari Seldon inventa a Psico-história, ciência que permite prever o futuro através da Estatística (se você ainda não leu o primeiro livro da série, o que está esperando?).

Vira e mexe alguém tenta bancar o Hari Seldon. Primeiro veio Bruce Bueno de Mesquita, que usa modelos não especificados da Teoria dos Jogos para prever o futuro. O tempo mostrou, contudo, que as previsões que ele fez no seu livro para demonstrar o método não se realizaram.

Agora tem gente querendo prever o passado através da “Cliodinâmica”, que consiste em buscar padrões nos registros sobre eventos históricos. Só que achar padrões numa grande massa de dados não é vantagem nenhuma: é quase inevitável, como o elefante de von Neumann já dizia.

O que esses candidatos a Hari Seldon não entendem é o efeito dos Cisnes Negros: inevitavelmente eventos que o modelo não pode prever vão bagunçar a futurologia (ou a passadologia, no caso da Cliodinâmica). O engraçado é que Asimov entendia isso muito bem: nos seus livros as previsões de Hari Seldon são descarrilhadas pelo aparecimento do Mulo, um mutante.

Os Cisnes Negros são mais do que possíveis, eles são inevitáveis. Aristóteles explicou que é da natureza dos eventos improváveis ocorrerem de vez em quando.

Ciência sem cientistas?

Corro o risco de parecer não ter grande respeito pelos cientistas quando falei da Danger Zone. Não é bem assim. Só falei sobre o que acontece quando a base que falta é Estatística. Agora vou falar o que acontece quando falta o cientista.

No Venn diagram, Drew Conway caracteriza Machine Learning como o que acontece quando falta domain expertise. Discordo. Bom Machine Learning requer expertise.

No primeiro exemplo de aplicação no curso de Andrew Ng, regressão linear, ele fala sobre a escolha de features nos casos mais ridiculamente simples. Por exemplo, ele fala sobre a escolha de área em substituição às medidas individuais (largura e profundidade) para caracterizar um terreno. Mesmo nesse exemplo de brinquedo domain expertise é importante.

 

Diferenças entre Machine Learning e Data Mining

Qual a diferença entre Machine Learning (ML) e Data Mining (DM)? À primeira vista parecem ser a mesma coisa: aplicar uma massa de dados a um algoritmo que tentará encontrar padrões neles.

Taxonomicamente falando, ML se desenvolveu como parte da Inteligência Artificial, enquanto DM veio do estudo de Bancos de Dados. Mas esta é uma diferença mais histórica, que não se refere à substância das disciplinas.

Geraldo Zimbrão (UFRJ) postula que a diferença é a quantidade de dados: DM lida com massas de dados que seriam impraticáveis para ML. Certamente esta é parte da resposta, mas é importante entender mais visceralmente a diferença.

Um site especializado em DM diz que a obtenção dos dados faz parte integral do processo de DM, enquanto ML presume que os dados estão prontamente disponíveis. O site dá o exemplo de um programa jogador de xadrez, que não precisa de uma grande base de dados para jogar: só precisa ter exemplos que o permitam calibrar seus parâmetros.

 Zimbrão, que segue a mesma linha que Jiawei Han (UIUC), também ensina que o primeiro passo do DM é visualizar os dados. Em contraste, Yaser Abu-Mostafa (CalTech) diz que isso é um pecado capital no ML (“data snooping”). Na verdade, para Andrew Ng (Stanford) visualizar os dados faz parte de ML também, mas dá para intuir a diferença: em DM sujamos a unha de tanto remexer os dados, enquanto em ML mantemos uma certa distância.

 

The Credible Hulk

Perigo, Will Robinson!

Drew Conway nos lembra que há mais na análise de dados do que ter acesso a ferramentas bacaninhas.

Repare na Zona de Perigo quando pesquisadores sem conhecimentos sólidos de Estatística botam as mãos em ferramentas tecnológicas. Na verdade, é daí que surgem muitas das conclusões ruins dos cientistas. Já falei sobre isso antes mas, para entender como a coisa acontece na prática, nada supera esta tirinha.

Se você ainda duvida da seriedade do perigo, é porque ainda não descobriu que a maior parte dos resultados de pesquisas publicados são falsos.

Qualidade é mais importante do que quantidade

Adoro Big Data. Adoro mesmo.

Só que, quanto mais olho, mais vejo que estamos entrando num ciclo de hype assustador. Parece haver (muita) gente que acha que coletar um zigalhão de dados resolve todos os problemas inerentes à análise de dados. Ah, quem dera fosse assim…

É por isso que gosto da “blasfêmia” de Meta Brown: explica quando vale a pena emburacar em Big Data e quando amostragem resolve melhor. Afinal, quanto menor a massa de dados a limpar, melhor.

Do alto da experiência de anos como faxineiro de dados, posso afirmar categoricamente: quanto menos faxina você tiver de fazer, mais feliz será.