Home // Articles posted by caccioly

O Santo Graal é mágica e mágica não existe

 

Anomaly Detection for Monitoring

O primeiro parágrafo do livro Anomaly Detection for Monitoring, de Preetam Jinka e Baron Schwartz, editado pela O’Reilly com patrocínio da Ruxit, é um primor:

Wouldn’t it be amazing to have a system that warned you about new behaviors and data patterns in time to fix problems before they happened, or seize opportunities the moment they arise? Wouldn’t it be incredible if this system was completely foolproof, warning you about every important change, but never ringing the alarm bell when it shouldn’t? That system is the holy grail of anomaly detection. It doesn’t exist, and probably never will. However, we shouldn’t let imperfection make us lose sight of the fact that useful anomaly detection is possible, and benefits those who apply it appropriately.

Quantas vezes os clientes de um sistema de aprendizado de máquina não ficam decepcionados quando constatam que as predições não são 100% corretas? Se todo mundo sabe que experts humanos erram de vez em quando, por que esperar que um sistema automatizado nunca erre?

Quantas vezes não vi atitudes do tipo “se não acerta sempre não serve para nada”?

Futebol é uma Caixinha de Surpresas

A Copa ainda nem tinha começado e já pipocavam modelos tentando prever o resultado. Foi fácil encontrar rapidamente quase uma dúzia de modelos online, inclusive de gente graúda como Nate Silver e Goldman Sachs. No que começou a Copa, imediatamente todos modelos fizeram água: nenhum previu, por exemplo, a eliminação imediata da Espanha, que tem impacto em cascata em praticamente todos resultados subsequentes.

Espanha-desclassificada

Isso me lembra que uns dois anos atrás escutei um mestrando da COPPE dizendo que estava pensando em criar um modelo para prever resultados de jogos de futebol. Na época ponderei que seria difícil dar um bom resultado, já que futebol tem muitas variáveis imprevisíveis. Se fosse fácil criar um modelo com bom resultado, a loteria esportiva acabaria rapidinho. Não ouvi mais falar do assunto até cerca de um ano mais tarde, quando o Professor Zimbrão, para quem o mestrando ia desenvolver o modelo, mencionou que o trabalho fora realizado. A conclusão, disse o Prof. Zimbrão, foi que futebol é uma caixinha de surpresas.

Surpreendente? Não.

Um jogo de futebol é um processo caótico (no sentido matemático), em que uma pequena perturbação altera completamente os resultados. Um lance de sorte, uma bola um tiquinho para o lado, uma lesão num jogador importante, uma noite mal dormida, uma distração do juiz, um pênalti imaginário, um jogador que fica ajeitando o meião em vez de prestar atenção ao jogo… qualquer coisinha e o resultado muda totalmente. Uma tentativa de prever resultados de futebol – ou de qualquer outro processo caótico – está condenada ao fracasso.

Quer dizer que devemos desistir e nem pensar no assunto? Novamente, não.

O Prof. Zimbrão mencionou que a variável com maior impacto no modelo era quem jogava em casa. Nenhuma das demais variáveis empregadas (número de vitórias e gols, idades dos jogadores etc.) tinha poder preditivo da mesma ordem de grandeza. Eis um exemplo clássico do uso da redução de dimensionalidade, que ajuda a entender um processo. Mais especificamente, permite responder à pergunta: que variáveis melhor explicam o resultado do processo? Não quer dizer que vamos conseguir prever o resultado do processo, apenas que o vamos entender melhor. O que, cá entre nós, é – ou deveria ser – um dos principais objetivos da ciência.

Valor da Tomada de Decisões Baseada em Dados para o negócio

Saiu um novo livro, chamado “Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking”, que parece bem legal.

data-science-for-biz

Um parágrafo me chamou a atenção:

Os benefícios da tomada de decisões baseada em dados (TDBD) já foi demonstrada conclusivamente. O economista Erik Brynjolfsson e seus colegas do MIT e da Wharton School da Pennsylvania State University conduziram um estudo de como a TDBD afeta o desempenho das empresas (Brynjolfsson, Hitt, & Kim, 2011). Desenvolveram uma medida de TDBD que dá nota às empresas baseada em quão fortemente usam dados para tomar decisões na empresa. Mostraram que, estatisticamente, quão mais baseada em dados a empresa, mais produtiva — mesmo controlando a possível interferência uma ampla gama de fatores. Um desvio-padrão a mais na escala de TDBD é associado a um aumento de 4%-6% na produtividade. TDBD também se correlaciona com um maior retorno sobre os ativos, retorno sobre o patrimônio, utilização do ativo, e valor de mercado, e a relação parece ser de causação.

Claro que isso é pregar para os convertidos, pois quem não acredita em embasar suas decisões em dados vai ignorar solenemente esta informação… e o livro todo.

 

Embasar as decisões? Isso é para os frouxos!

A veneranda cadeia americana de lojas J.C.Penney está à beira do colapso graças à inacreditável arrogância do seu (agora ex) CEO, que achava que testes e pesquisas de mercado são para os frouxos. Veja a notícia no New York Times.

Em resposta aos que ponderavam que as suas ações iam contra os dados de mercado, Ronald Johnson respondia que “há dois tipos de pessoa: os que creem e os incrédulos; na Apple [onde Johnson trabalhou anteriormente], só há os que creem.”.

Ronald B. Johnson

“Sigam-me ou sejam tachados de incrédulos.”

Estudos de Viabilidade

Eis uma verdade verdadeira sobre os estudos de viabilidade. Uma pista sobre qual é: Sim.

Mr. Burns e Smithers

Este post é um reblog duma observação sobre um resumo de um livro. Será que esse nível de reciclagem de informação é o que chamam de computação verde?

Falando mais sério agora, isto é um dos problemas que fazem as pessoas terem desconfiança das decisões embasadas em fatos quantitativos. É uma pena, dado que a opção alternativa é pior.

Decisão por Intuição: Não

A tirinha do Dilbert de anteontem explica o que significa “tomar decisões baseadas na intuição”:

Dilbert 2013-04-24

Exagero, claro, como todo humor. Na verdade nunca temos todas as informações que gostaríamos para tomar decisões, especialmente as importantes. Mas ignorar as informações que estão disponíveis é burrice.

Perigos do Excel

André Carregal me enviou este artigo de Paul Krugman numa mensagem com o subject “Bug no Excel?”. Na verdade, um subject mais apropriado seria “bug em Excel”. Excel é uma linguagem de programação e o que o artigo descreve é um programa buguento desenvolvido em Excel.

Planilhas eletrônicas são mais perigosas do que a maioria das linguagens de programação. Além da referência citada no artigo, é interessante conhecer o European Spreadsheet Risks Interest Group para se ter uma ideia do tamanho do problema. Tenho um grande amigo que se especializa em ensinar empresas a usar planilhas de maneira menos perigosa.

Uma coisa que não foi mencionada no artigo é que, de fato, o Excel tem bugs nas funções estatísticas. Há relatos de que nas últimas versões de Excel os bugs andaram sendo consertados, mas não está claro se a versão que Reinhart e Rogoff usaram ainda os continha.

Tudo isso se encaixa no contexto de uma discussão mais ampla, a da reprodutibilidade dos estudos publicados. Hoje em dia é muito fácil publicar um paper com uma seção de Métodos vaga, dizendo basicamente que “apliquei análise de Bigschutz” e sem dar maiores detalhes, e sem divulgar o conjunto de dados utilizado. Isso facilita a publicação de muitos resultados errados ou até propositalmente falsos. Nos últimos anos tenho observado uma reação forte da comunidade científica em relação a esses critérios frouxos. Parece que a tendência é algum dia termos resultados mais confiáveis, mesmo porque a coisa está feia, como já mencionei.

Como não dormir em aulas em vídeo

O que você quer aprender, na Internet tem vídeos ensinando. Matemática, biologia, leis babilônicas, como fazer pizza de chocolate, tem tudo lá. Gosto de aproveitar essa cornucópia de recursos — frequentemente gratuitos — para estudar continuamente.

O difícil é prestar atenção. Natualmente, nas aulas em vídeo os expositores falam no mesmo ritmo em que falariam numa aula ao vivo… devagar… aí começo a pensar noutras coisas… divagar… “divagar” lembra “devagar”… que outras palavras se parecem e como se associam?

Qual era o assunto mesmo?

Quando dou por mim, estive pensando noutras coisas a maior parte do tempo e perdi o que o palestrante estava falando. Droga, tenho de começar de novo. Agora vou prestar atenção… até que divago novamente.

Acabo de encontrar aqui uma solução para este problema. O objetivo de Scott era assistir às aulas mais rápido, então ele as baixa em MP4 e as assiste com o software VLC no dobro da velocidade normal. Só que isso tem o feliz efeito colateral de tornar as aulas menos sonolentas, com menos estímulos e oportunidades para divagar.

A experiência tem sido ótima. Além de ganhar tempo assistindo às aulas em menos tempo, só preciso assistir uma vez, já que presto atenção o tempo todo.

Claro que alguns conceitos são difíceis de digerir mesmo e exigem mais tempo. Para isto existe o botão de pause do tocar de vídeo, uai.

Diferença entre Ciência e Engenharia

Em The Art of Doing Science and Engineering, Richard Hamming faz uma interessante distinção entre Ciência e Engenharia:

Em Ciência, se você sabe o que está fazendo, então você não deveria estar fazendo. Em Engenharia, se você não sabe o que está fazendo, então você não deveria estar fazendo.

É algo para ter em mente. Tenho duas vidas paralelas: como pesquisador e como provedor de soluções. Da mesma maneira que um pesquisador que só faz o que sabe é irrelevante, um profissional contratado para prover uma solução para uma empresa é desonesto se tenta fazer o que não sabe.

Profissionais de TI frequentemente cometem o pecado de prejudicar o cliente ou empregador, aproveitando seus projetos para experimentar. Fico triste em constatar que eu mesmo já cometi esse pecado mais de uma vez.

Big Data: The Moving Parts

Gráfico interessante publicado pela ZDNet: