#14-Outra palestra keynote foi com o responsável pelo DW do
IRS(Internal Revenue Service), ou o equivalente ao nosso Imposto de Renda. A
palestra foi cercada de expectativa, de tal sorte que, no dia anterior, um dos
organizadores sugeriu a presença de todos, aventando a possibilidade de, após a
apresentação, os americanos correrem e fazerem a declaração
retificadora...(rsrs da plateia). Entretanto, a palestra foi toda centrada em
torno de tecnologias emergentes e suas influências na Governança e Qualidade de
dados. Jeff Butler, o keynote speaker, demonstrou muito conhecimento sobre as
camadas de tecnologias existentes e as previstas. A palestra teve um excelente foco no
desenvolvimento comparativo das variadas camadas de tecnologia, impulsionadas
pelo efeito data-tsunami. A essência da palestra girou em torno da crescente
oferta de camadas de tecnologias(nuvem, Bancos NOSQL, Hadoop/MapReduce,
processamento massivo distribuído em máquinas commodities, processamento em
memória, etc) comparadas com as novas fontes de produção de dados(sensores,RFID, Logs,
clickstream, satélites, voz e vídeo, documentos,etc). Além disso, apresentou
uma visão sobre as limitações impostas pelo desenvolvimento tecnológico,
citando que a lei de Moore(evolução exponencial da capacidade dos
processadores) alcançará o seu limite em 2020, não havendo ainda uma forma
plenamente desenvolvida de alternativas para circunscrever as restrições da miniaturização
e da dissipação de calor, fatores físicos restritivos na indústria dos chips. A se observar nos próximos 4 anos. O
IRS(Internal Revenue Service), imposto de renda dos EUA, desenvolveu através de
sua área de pesquisa, um grande DW para prover informações sobre os
contribuintes americanos. É o maior repositório de informações do órgão e
oferece um conjunto de dados, metadados e camadas de buscas analíticas para o
uso interno e o de algumas instituições do governo.(Treasury-Departamento do
tesouro, GAO-Government Accountability Office,etc), Tem 1500 usuários
devidamente cadastrados com uma taxa diária de 10.000 consultas. O DW tem 2 PB(petabytes)
de informação, extraídos de 40 diferentes fontes. Tem um total de 3000 tabelas
e 176.000 colunas. Há um tratamento especial de metadados, com informações
sobre 33 Data Bases, aproximadamente com 1000 tabelas, 64000 colunas e mais de
1.000.000 de atributos. O grande desafio apresentado pela analista do IRS é o eterno
equilíbrio entre a disponibilidade(timeliness) e a precisão dos dados
oferecidos. Para se oferecer os dados com maior precisão e acurácia, claramente
precisa-se de maior tempo de tratamento, o que impacta a rapidez da oferta ou a disponibilidade mais
imediata. Outro desafio citado é a dimensão de “relevância” dos dados, que
busca garantir a coerência entre eles e
seus metadados. Os metadados estão organizados em repositórios separados e ganham , no sistema, uma visão diferente das praticadas nos
universos de bancos de dados físicos, normalmente atrelados ao dicionário do
SGBD. O metadado , nesse contexto, se aproxima dos conceitos de glossário de
negócios, auxiliando no pleno entendimento da informação e na geração de
conhecimento para a organização e seus usuários.
Nenhum comentário:
Postar um comentário