Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.
Baseado na participação dos eventos acima, comento, na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy...
#04-Governança
em Big Data. Esse assunto foi também um dos mais discutidos e ganha temperatura
nos EUA. No Brasil, onde o conceito de Governança de dados ainda está morno, a
especialização em Big Data deverá demorar um pouquinho mais. De forma geral, há
nos EUA, um questionamento sobre a
diferença entre governar “Big data” e governar “normal” data. Há correntes com
pensamentos divergentes, uns advogando a corrente da Governança mais
tradicional e outros clamando que há diferenças a observar. Os dois estão
certos, na minha visão. Segundo Sunil Soares, autoridade reconhecida no assunto
nos EUA, autor de 3 livros na área, no final do dia governança é governança.
Entretanto, o universo dos chamados Big data sugere alguns pontos de observação, que indicam certos
ajustes na tradicional forma de se governar big data quando comparado com os normais(normal data). As condicionantes
ditadas pelos 3 V´s tradicionais do conceito(Volume, Velocidade,
Variedade/Variabilidade) e mais a Veracidade(Qualidade) sugerem alguns pontos
que farão diferenças em alguns dos P´s da GD(Políticas, Processos, Padrões,etc). Claramente o volume de dados deverá suscitar
pontos de observação com relação ao armazenamento, arquivamento e retenção,
dependendo dos casos, motivando políticas e processos que poderão variar. A
velocidade também dependerá das aplicações em questão. Ou seja, caso isso não
seja uma preocupação prioritária no “normal Data”, certamente será no Big data.
A velocidade de dados produzidos por um
sistema como os de medidores inteligentes de energia elétrica, por exemplo,
será diferente da velocidade com que esses dados chegam aos sistemas
tradicionais de leitura manual de medidores. Nos “smart meters” as leituras são produzidas a cada 15 minutos,
por exemplo. Esse processamento quase em tempo real, característico de big
data, exigirá reflexões da GD e da DM(Lembre-se que GD+DM formam a camada
gerencial de dados das empresas). Isso também será motivo de preocupação nos
sistemas de dados “in-stream”, que chegam aos kbytes por minutos ou segundos, também
próprio do ambiente big data. Tudo
dependerá dos objetivos, mas é bem provável que plataformas diferentes serão
demandadas. Embora isso seja tecnicamente algo da esfera de DM(Data Management)
e não diretamente da GD(Data Governance), elas acabam se encontrando em
Políticas, Padrões, Processos,etc, na interseção das duas. Muito provavelmente
novos segmentos de tecnologias com plataformas diferentes como Hadoop-like,
No-SQLlike, Processamento in-memory, Appliances como Netezza e TeraData merecerão focos diferentes da GD+DM. A variedade, claro, implica repensar a GD,
pois interfere no 4º V, que é a
Veracidade(sinônimo de Qualidade) . Os dados não estruturados como fotos,
twitters, posts, sinais, etc não estão diretamente na linha tradicional da disciplina de Qualidade de dados.
Diferentemente de campos de tabelas no mundo relacional, os conteúdos não
estruturados não passam ainda pelos
algoritmos filtradores de
profiling e cleansing das ferramentas
de QD. Essas ferramentas ainda não leem os stores NOSQL, com suas estruturas
complexas. Além disso, a aplicação dos conceitos tradicionais de dimensões de
qualidade(consistência, acurácia, integridade,precisão,etc) não serão tão
linearmente aplicados nos campos não estruturados. Avaliar a consistência de um
post de FB, por exemplo, exigirá algoritmos especializados para se interpretar
ironia, duplo sentido, etc. Técnicas de machine learning/NPL-Natural Programming
language, por exemplo, estão sendo desenvolvidas em áreas como “sentiment analysis”, ainda em fase de
maturação, que caminham nessa direção. Assim, o conceito de qualidade de dados
e suas dimensões tradicionais deverão ser revistos à luz da Governança de Big
Data, quando falarmos de dados não estruturados. Há inclusive, conceitos
acadêmicos, quase filosóficos, que
apregoam que os Big Data não merecerão os mesmos cuidados de qualidade dos
“normal data”, pelo fato de que os erros se diluiriam na imensidão dos seus petabytes.
Sei lá... Dessa forma Políticas, Padrões, Processos, Plataformas,etc deverão
ser devidamente reavaliadas no cone dos conceitos de Governança de “Big” dados. No mais, os aspectos de artefatos de Big
Data, como arquivos críticos, seus campos, modelos analíticos, regras de
negócios, etc também deverão ser considerados. As principais disciplinas(muitas
derivadas do “normal data”) no contexto
de GD para Big Data passarão por : Inventário de dados, propriedade dos dados (ownership/membership),
gerência de metadados, gerência de qualidade de dados(aqui feitas as
considerações acima), segurança da informação, integração de dados
(não-estruturados) com dados mestres e
de referência e analytics e relatórios. O P de Plataforma(dos vários P´s da GD),
poderá passar por embarques em Hadoop,
Bancos NOSQL e Processamento in-streaming, Appliances, tratamento in-memory, com
abordagens estruturais lógicas e físicas diferentes das hoje praticadas. Os
aspectos sobre definição “schemaless” dos BD NO-SQL, suas estruturas complexas
como grafos, listas dentro de listas, etc trará reflexões na documentação dos
modelos de dados, parte do capítulo de arquitetura dos dados. As facilidades da
normalização, os modelos relacionais tradicionais , a criação de schemas de
bancos de dados antes da sua carga, tudo isso deverá ser reconsiderado à luz
dos novos “stores” de dados do ambiente Big data.
No
slideshare, publiquei recentemente dois trabalhos que falam sobre algumas dessas
particularidades. O primeiro “Big Data e a Governança de dados”, pode ser acessado em
O outro, “Big
Data e Governança de dados, via DMM-Data Management Maturity Model”, pode ser
acessado via
Continuaremos
com o tema, em breve, com novas discussões e publicações. Em 2016,
desenvolveremos na Fumsoft, um conjunto de cafés empresariais, com o lema “DataTalk”,
nos quais discutiremos com especialistas, todos os aspectos de dados, nesse
novo momento. Waiting 4 u.
Nenhum comentário:
Postar um comentário