Home // Archive by category "Ciência"

Maconha gera confusão

Pelo menos dessa vez, a confusão não foi causada pelas propriedades da própria maconha, mas pela desinformação.

Um artigo publicado no Journal of the American Medical Association sobre a maconha comestível vendida legalmente nos Estados Unidos causou o maior furor na imprensa americana. Infelizmente, a maioria dos comentários falou bobagem por confundir termos fundamentais. Um artigo no site da American Statistical Association dá os detalhes.

A moral da história é: antes de discutir o que lê, certifique-se de que entendeu o que foi dito. Se mais gente (inclusive eu) seguisse esse conselho, muita asneira deixaria de ser dita.

Futebol é uma Caixinha de Surpresas

A Copa ainda nem tinha começado e já pipocavam modelos tentando prever o resultado. Foi fácil encontrar rapidamente quase uma dúzia de modelos online, inclusive de gente graúda como Nate Silver e Goldman Sachs. No que começou a Copa, imediatamente todos modelos fizeram água: nenhum previu, por exemplo, a eliminação imediata da Espanha, que tem impacto em cascata em praticamente todos resultados subsequentes.

Espanha-desclassificada

Isso me lembra que uns dois anos atrás escutei um mestrando da COPPE dizendo que estava pensando em criar um modelo para prever resultados de jogos de futebol. Na época ponderei que seria difícil dar um bom resultado, já que futebol tem muitas variáveis imprevisíveis. Se fosse fácil criar um modelo com bom resultado, a loteria esportiva acabaria rapidinho. Não ouvi mais falar do assunto até cerca de um ano mais tarde, quando o Professor Zimbrão, para quem o mestrando ia desenvolver o modelo, mencionou que o trabalho fora realizado. A conclusão, disse o Prof. Zimbrão, foi que futebol é uma caixinha de surpresas.

Surpreendente? Não.

Um jogo de futebol é um processo caótico (no sentido matemático), em que uma pequena perturbação altera completamente os resultados. Um lance de sorte, uma bola um tiquinho para o lado, uma lesão num jogador importante, uma noite mal dormida, uma distração do juiz, um pênalti imaginário, um jogador que fica ajeitando o meião em vez de prestar atenção ao jogo… qualquer coisinha e o resultado muda totalmente. Uma tentativa de prever resultados de futebol – ou de qualquer outro processo caótico – está condenada ao fracasso.

Quer dizer que devemos desistir e nem pensar no assunto? Novamente, não.

O Prof. Zimbrão mencionou que a variável com maior impacto no modelo era quem jogava em casa. Nenhuma das demais variáveis empregadas (número de vitórias e gols, idades dos jogadores etc.) tinha poder preditivo da mesma ordem de grandeza. Eis um exemplo clássico do uso da redução de dimensionalidade, que ajuda a entender um processo. Mais especificamente, permite responder à pergunta: que variáveis melhor explicam o resultado do processo? Não quer dizer que vamos conseguir prever o resultado do processo, apenas que o vamos entender melhor. O que, cá entre nós, é – ou deveria ser – um dos principais objetivos da ciência.

Perigos do Excel

André Carregal me enviou este artigo de Paul Krugman numa mensagem com o subject “Bug no Excel?”. Na verdade, um subject mais apropriado seria “bug em Excel”. Excel é uma linguagem de programação e o que o artigo descreve é um programa buguento desenvolvido em Excel.

Planilhas eletrônicas são mais perigosas do que a maioria das linguagens de programação. Além da referência citada no artigo, é interessante conhecer o European Spreadsheet Risks Interest Group para se ter uma ideia do tamanho do problema. Tenho um grande amigo que se especializa em ensinar empresas a usar planilhas de maneira menos perigosa.

Uma coisa que não foi mencionada no artigo é que, de fato, o Excel tem bugs nas funções estatísticas. Há relatos de que nas últimas versões de Excel os bugs andaram sendo consertados, mas não está claro se a versão que Reinhart e Rogoff usaram ainda os continha.

Tudo isso se encaixa no contexto de uma discussão mais ampla, a da reprodutibilidade dos estudos publicados. Hoje em dia é muito fácil publicar um paper com uma seção de Métodos vaga, dizendo basicamente que “apliquei análise de Bigschutz” e sem dar maiores detalhes, e sem divulgar o conjunto de dados utilizado. Isso facilita a publicação de muitos resultados errados ou até propositalmente falsos. Nos últimos anos tenho observado uma reação forte da comunidade científica em relação a esses critérios frouxos. Parece que a tendência é algum dia termos resultados mais confiáveis, mesmo porque a coisa está feia, como já mencionei.

Melhorando Vidas em 2013, Ano Internacional da Estatística

Vídeo criado pela SAS para comemorar o Ano Internacional da Estatística:

Ciência sem cientistas?

Corro o risco de parecer não ter grande respeito pelos cientistas quando falei da Danger Zone. Não é bem assim. Só falei sobre o que acontece quando a base que falta é Estatística. Agora vou falar o que acontece quando falta o cientista.

No Venn diagram, Drew Conway caracteriza Machine Learning como o que acontece quando falta domain expertise. Discordo. Bom Machine Learning requer expertise.

No primeiro exemplo de aplicação no curso de Andrew Ng, regressão linear, ele fala sobre a escolha de features nos casos mais ridiculamente simples. Por exemplo, ele fala sobre a escolha de área em substituição às medidas individuais (largura e profundidade) para caracterizar um terreno. Mesmo nesse exemplo de brinquedo domain expertise é importante.

 

Perigo, Will Robinson!

Drew Conway nos lembra que há mais na análise de dados do que ter acesso a ferramentas bacaninhas.

Repare na Zona de Perigo quando pesquisadores sem conhecimentos sólidos de Estatística botam as mãos em ferramentas tecnológicas. Na verdade, é daí que surgem muitas das conclusões ruins dos cientistas. Já falei sobre isso antes mas, para entender como a coisa acontece na prática, nada supera esta tirinha.

Se você ainda duvida da seriedade do perigo, é porque ainda não descobriu que a maior parte dos resultados de pesquisas publicados são falsos.