Total de visualizações de página

segunda-feira, 9 de novembro de 2015

O estado atual da Governança e Gestão de dados nos EUA-03


Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e  no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.


Baseado na participação dos eventos acima, comento,  na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy...

#04-Governança em Big Data. Esse assunto foi também um dos mais discutidos e ganha temperatura nos EUA. No Brasil, onde o conceito de Governança de dados ainda está morno, a especialização em Big Data deverá demorar um pouquinho mais. De forma geral, há nos EUA,  um questionamento sobre a diferença entre governar “Big data” e governar “normal” data. Há correntes com pensamentos divergentes, uns advogando a corrente da Governança mais tradicional e outros clamando que há diferenças a observar. Os dois estão certos, na minha visão. Segundo Sunil Soares, autoridade reconhecida no assunto nos EUA, autor de 3 livros na área, no final do dia governança é governança. Entretanto, o universo dos chamados Big data sugere  alguns pontos de observação, que indicam certos ajustes na tradicional forma de se governar big data quando comparado  com os normais(normal data). As condicionantes ditadas pelos 3 V´s tradicionais do conceito(Volume, Velocidade, Variedade/Variabilidade) e mais a Veracidade(Qualidade) sugerem alguns pontos que farão diferenças em alguns dos P´s da GD(Políticas, Processos, Padrões,etc).  Claramente o volume de dados deverá suscitar pontos de observação com relação ao armazenamento, arquivamento e retenção, dependendo dos casos, motivando políticas e processos que poderão variar. A velocidade também dependerá das aplicações em questão. Ou seja, caso isso não seja uma preocupação prioritária no “normal Data”, certamente será no Big data. A velocidade de dados  produzidos por um sistema como os de medidores inteligentes de energia elétrica, por exemplo, será diferente da velocidade com que esses dados chegam aos sistemas tradicionais de leitura manual de medidores. Nos “smart meters”  as leituras são produzidas a cada 15 minutos, por exemplo. Esse processamento quase em tempo real, característico de big data, exigirá reflexões da GD e da DM(Lembre-se que GD+DM formam a camada gerencial de dados das empresas). Isso também será motivo de preocupação nos sistemas de dados “in-stream”, que chegam aos kbytes por minutos ou segundos, também próprio do ambiente  big data. Tudo dependerá dos objetivos, mas é bem provável que plataformas diferentes serão demandadas. Embora isso seja tecnicamente algo da esfera de DM(Data Management) e não diretamente da GD(Data Governance), elas acabam se encontrando em Políticas, Padrões, Processos,etc, na interseção das duas. Muito provavelmente novos segmentos de tecnologias com plataformas diferentes como Hadoop-like, No-SQLlike, Processamento in-memory, Appliances como Netezza e TeraData merecerão focos diferentes da GD+DM. A variedade, claro, implica repensar a GD, pois interfere no 4º  V, que é a Veracidade(sinônimo de Qualidade) . Os dados não estruturados como fotos, twitters, posts, sinais, etc não estão diretamente na linha tradicional  da disciplina de Qualidade de dados. Diferentemente de campos de tabelas no mundo relacional, os conteúdos não estruturados não passam ainda pelos  algoritmos  filtradores de profiling e cleansing   das ferramentas de QD. Essas ferramentas ainda não leem os stores NOSQL, com suas estruturas complexas. Além disso, a aplicação dos conceitos tradicionais de dimensões de qualidade(consistência, acurácia, integridade,precisão,etc) não serão tão linearmente aplicados nos campos não estruturados. Avaliar a consistência de um post de FB, por exemplo, exigirá algoritmos especializados para se interpretar ironia, duplo sentido, etc. Técnicas de  machine learning/NPL-Natural Programming language, por exemplo, estão sendo desenvolvidas em áreas como  “sentiment analysis”, ainda em fase de maturação, que caminham nessa direção. Assim, o conceito de qualidade de dados e suas dimensões tradicionais deverão ser revistos à luz da Governança de Big Data, quando falarmos de dados não estruturados. Há inclusive, conceitos acadêmicos, quase filosóficos,  que apregoam que os Big Data não merecerão os mesmos cuidados de qualidade dos “normal data”, pelo fato de que os erros se diluiriam na imensidão dos seus petabytes. Sei lá... Dessa forma Políticas, Padrões, Processos, Plataformas,etc deverão ser devidamente reavaliadas no cone dos conceitos de Governança de  “Big”  dados.  No mais, os aspectos de artefatos de Big Data, como arquivos críticos, seus campos, modelos analíticos, regras de negócios, etc também deverão ser considerados. As principais disciplinas(muitas derivadas do “normal data”)  no contexto de GD para Big Data passarão por : Inventário de dados, propriedade dos dados (ownership/membership), gerência de metadados, gerência de qualidade de dados(aqui feitas as considerações acima), segurança da informação, integração de dados (não-estruturados) com  dados mestres e de referência e analytics e relatórios. O P de Plataforma(dos vários P´s da GD), poderá passar por embarques em  Hadoop, Bancos NOSQL e Processamento in-streaming, Appliances, tratamento in-memory, com abordagens estruturais lógicas e físicas diferentes das hoje praticadas. Os aspectos sobre definição “schemaless” dos BD NO-SQL, suas estruturas complexas como grafos, listas dentro de listas, etc trará reflexões na documentação dos modelos de dados, parte do capítulo de arquitetura dos dados. As facilidades da normalização, os modelos relacionais tradicionais , a criação de schemas de bancos de dados antes da sua carga, tudo isso deverá ser reconsiderado à luz dos novos “stores” de dados do ambiente Big data.
No slideshare, publiquei recentemente dois trabalhos que falam sobre algumas dessas particularidades. O primeiro “Big Data e a Governança de dados”,  pode ser acessado em
O outro, “Big Data e Governança de dados, via DMM-Data Management Maturity Model”, pode ser acessado via

Continuaremos com o tema, em breve, com novas discussões e publicações. Em 2016, desenvolveremos na Fumsoft, um conjunto de cafés empresariais, com o lema “DataTalk”, nos quais discutiremos com especialistas, todos os aspectos de dados, nesse novo momento. Waiting 4 u.

Nenhum comentário:

Postar um comentário