Total de visualizações de página

segunda-feira, 11 de janeiro de 2016

O estado atual da Governança e Gestão de dados nos EUA-09


#14-Outra palestra keynote foi com o responsável pelo DW do IRS(Internal Revenue Service), ou o equivalente ao nosso Imposto de Renda. A palestra foi cercada de expectativa, de tal sorte que, no dia anterior, um dos organizadores sugeriu a presença de todos, aventando a possibilidade de, após a apresentação, os americanos correrem e fazerem a declaração retificadora...(rsrs da plateia). Entretanto, a palestra foi toda centrada em torno de tecnologias emergentes e suas influências na Governança e Qualidade de dados. Jeff Butler, o keynote speaker, demonstrou muito conhecimento sobre as camadas de tecnologias existentes e as previstas.  A palestra teve um excelente foco no desenvolvimento comparativo das variadas camadas de tecnologia, impulsionadas pelo efeito data-tsunami. A essência da palestra girou em torno da crescente oferta de camadas de tecnologias(nuvem, Bancos NOSQL, Hadoop/MapReduce, processamento massivo distribuído em máquinas commodities, processamento em memória, etc) comparadas com as novas fontes de  produção de dados(sensores,RFID, Logs, clickstream, satélites, voz e vídeo, documentos,etc). Além disso, apresentou uma visão sobre as limitações impostas pelo desenvolvimento tecnológico, citando que a lei de Moore(evolução exponencial da capacidade dos processadores) alcançará o seu limite em 2020, não havendo ainda uma forma plenamente desenvolvida de alternativas para circunscrever as restrições da miniaturização e da dissipação de calor, fatores físicos restritivos na indústria dos chips.  A se observar nos próximos 4 anos. O IRS(Internal Revenue Service), imposto de renda dos EUA, desenvolveu através de sua área de pesquisa, um grande DW para prover informações sobre os contribuintes americanos. É o maior repositório de informações do órgão e oferece um conjunto de dados, metadados e camadas de buscas analíticas para o uso interno e o de algumas instituições do governo.(Treasury-Departamento do tesouro, GAO-Government Accountability Office,etc), Tem 1500 usuários devidamente cadastrados com uma taxa diária de 10.000 consultas. O DW tem 2 PB(petabytes) de informação, extraídos de 40 diferentes fontes. Tem um total de 3000 tabelas e 176.000 colunas. Há um tratamento especial de metadados, com informações sobre 33 Data Bases, aproximadamente com 1000 tabelas, 64000 colunas e mais de 1.000.000 de atributos. O grande desafio apresentado pela analista do IRS é o eterno equilíbrio entre a disponibilidade(timeliness) e a precisão dos dados oferecidos. Para se oferecer os dados com maior precisão e acurácia, claramente precisa-se de maior tempo de tratamento, o que impacta a  rapidez da oferta ou a disponibilidade mais imediata. Outro desafio citado é a dimensão de “relevância” dos dados, que busca garantir a coerência entre eles  e seus metadados. Os metadados estão organizados em repositórios separados  e ganham , no sistema,  uma visão diferente das praticadas nos universos de bancos de dados físicos, normalmente atrelados ao dicionário do SGBD. O metadado , nesse contexto, se aproxima dos conceitos de glossário de negócios, auxiliando no pleno entendimento da informação e na geração de conhecimento para a organização e seus usuários.

Nenhum comentário:

Postar um comentário