Total de visualizações de página

domingo, 13 de setembro de 2009

Pega na mentira

Artigo publicado em setembro de 2002

Zico está no Vasco, com Pelé. Minas importou do Rio, a maré. Esses versos, deliciosamente ingênuos, escritos pela dupla Roberto e Erasmo Carlos, em um dos muitos hits dos anos 90. parecem ganhar contornos de maior consistência nas teias da WEB, em 2002. Depois de muito torpedearem os internautas com explosivas pesquisas de informação a respeito de dados pessoais, os seus propositores chegaram a seguinte conclusão : os dados coletados de muito pouco servem, pois estão recheados de “fib”, mentirinhas inconseqüentes, como dizem os americanos., e dessa forma, invalidam quaisquer decisões apoiadas neles. Estima-se que 42% das respostas na internet, envolvendo idade e salário, por exemplo, são falsas. E esse próprio valor, pode ser, recursivamente, uma inverdade, pois a real percentagem de “fib” pode ser muito maior. Com o objetivo de colocar uma espécie de detector digital de “fib” na WEB, no melhor estilo “pega na mentira”, a IBM está se utilizando das técnicas de Data Mining, desenvolvidas nos seus laboratórios de Almadén, na Califórnia. A idéia passa pela aplicação iterativa de algoritmos elaborados, sobre uma amostra de dados, onde certas informações potencialmente falsas(como idade) são substituídas por números randômicos, definidos em certas faixas. Posteriormente, por análises graduais e subseqüentes, esses “ruídos” introduzidos poderão indicar a distribuição real das variáveis ausentes, com alto grau de precisão. Esses métodos, denominados de “perturbação randômica” tem como vantagem a possibilidade de se preservar informações indesejadas de serem fornecidas, satisfazendo uma demanda por maior privacidade. Essa abordagem de se retirar dados de uma amostra, colocar “ruídos” no seu lugar e depois partir para a reconstrução de sua curva realista de distribuição não é novidade e tem longa história na ciência estatística, onde estão fincadas as técnicas de Mining. As mesmas técnicas de Mining que com as ferramentas que as implementam, ainda carecem de maior visibilidade de mercado, quando comparadas com as de OLAP, suas irmãs na família de BI. O mercado de Mining, ainda com alto grau de fragmentação, se divide em ferramentas mais genéricas, independentes de aplicação, (IBM Intelligent Miner, SAS Enterprise Miner e Clementine da SPSS), normalmente as mais conhecidas. Depois aparecem as ferramentas específicas por algoritmos, concentradas em técnicas particulares, voltadas para problemas específicos(CART, Knowledge Seeker e Alice). Seguem as ferramentas voltadas para aplicações específicas, como CRM, relacionamento de mercado e previsão de churn (IBM Intelligent Miner, com segmento para CRM e SLP Infoware para churn prediction). Finalmente existem as ferramentas embutidas em pacotes de BI, como o Business Miner da BO-Business Objects, as árvores de mining do Analysis services da MS e o Miner da Oracle, entre outros. As ferramentas de mining, diferentemente das de Olap, requerem maior especialização no uso, critérios mais definidos na formulação do problema e até maiores investimentos, dependendo do volume de dados e da complexidade do projeto. Daí, a sua posição ainda tímida, que em tese poderia até deslanchar agora, com a demanda crescente por garimpagem de dados maquiados , grande moda do verão capitalista de 2002. Mas é pouco provável . Afinal os novos algoritmos da IBM estão ajustados para detecção de pequenas inverdades e não alcançaram o estágio sofisticado de percepção das grandes ficções contábeis de 2002...

Nenhum comentário:

Postar um comentário