Total de visualizações de página

segunda-feira, 23 de novembro de 2015

O estado atual da Governança e Gestão de dados nos EUA-05


Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e  no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.



Baseado na participação dos eventos acima, comento,  na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy..

#07-O tutorial “How to avoid the most common mistakes implementing Data Governance”, mostrou John Ladley (da IMCue) estreando no universo do IAIDQ, já que trabalha prioritariamente  com a DataVersity, parceira da Dama, no evento EDW, do qual  participei, em março, em Washington. Ladley é um  conhecido consultor e palestrante da área, com 2 livros publicados sobre o assunto(Data Governance e EIM-Enterprise Information Management, ambos pela MK-Morgan Kaufmann). Tem um histórico meio dinossáurico, como eu, e aplica uma visão sobre GD, com uma tintura um pouco sarcástica, sobre certos conceitos, como modelagem de dados e métodos não-invasivos de implementação de GD, proposto por Bob Seiner (da KIK Data Management Consulting), seu concorrente, por exemplo. Os erros comuns, citados na sua apresentação, são os mesmos, na essência, que já discuti aqui nesse espaço. Vai de falta de patrocinador ou de seu engajamento até a falta de alinhamento  do programa de GD com os objetivos de negócios. Nenhuma novidade até ai...

#08-O outro tutorial “Developing a dashboard for Data Governance” versou sobre Medidas e dashboards para GD e foi ministrado pela consultora Kelle O´Neal, da empresa First San Francisco Partners. O tutorial foi superior ao anteriormente citado, na medida em que mostrou uma série de sugestões para se definir medidas e KPI´s, com o objetivo de se acompanhar a implementação do programa de Governança de dados, numa empresa. As medidas e KPI´s são fatores fundamentais para serem mostrados aos patrocinadores, como forma de evidência dos ganhos prometidos na “venda” do programa/conceito de GD. Claramente deverão estar associadas a certas dimensões de negócios, como Pessoas, Processos, Tecnologia e Dados. Os conceitos no entorno de Medições são os mesmos que desenvolvemos nas implementações de processos MPS.BR, nível F(ou maior), só que com o foco no domínio dos dados e seus processos. Passa pela definição da medição estritamente associada a um objetivo de negócios , sua constituição(quais dados serão levantados e medidos), quais os limites definidos, faixas desejadas de alcance/aceitação, periodicidade definida para criação e disponibilização das métricas e de seus resultados, etc. Foi mais prático e objetivo...

segunda-feira, 16 de novembro de 2015

O estado atual da Governança e Gestão de dados nos EUA-04

Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e  no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.


Baseado na participação dos eventos acima, comento,  na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy..


#05-Modelos de maturidade em dados. Durante os eventos, procurei, em conversas de “coffee break”, auscultar os participantes sobre o aparecimento de modelos mais formais de avaliação de maturidade em dados. Sunil Soares, por exemplo, grande consultor da área de Governança de dados, não tinha ouvido falar do DMM-Data Management Maturity Model, lançado em 2014, pelo respeitado CMMI Institute. Achava que o tal modelo era da IBM, de onde ele, Sunil, originou-se. O vice presidente do IAIDQ, organizador do evento de Baltimore, também não conhecia o modelo. Aaron Zornes, chairman do evento e o principal do MDM-Institute, também desconhecia o DMM e mostrou pouquíssima intimidade com o framework da Dama-Data Management Association, que explicitamente tem um dos corpos de conhecimentos sobre MDM e dados de referências. Em conversas, via linkedin, com um amigo, o consultor chinês(Chen Liu) dono da empresa Data Governance Workshop, em Beijin-China, tive a percepção da ainda lenta adoção do DMM naquele pais. Chen, com quem fiz o curso de introdução ao DMM em Abril, no CMMI-Institute-em DC, me disse das dificuldades de definir uma empresa para o assessment obrigatório necessário para se tornar um avaliador oficial DMM.  Já o consultor indiano Jay Zaidi, com quem travei boas conversas, conhecia o modelo, já que trabalhou na “Fanni Mae”, grande organização que controla hipotecas nos EUA e que foi uma espécie de betateste do modelo DMM. Falou bem do DMM. Peter Aiken,palestrante do evento, ex presidente da Dama Internacional, de quem ganhei uma camiseta da Data Blueprint( sua empresa), garante que o modelo está indo bem e tem realizado webminars em conjunto com Melanie Mecca, líder do DMM. O IAIDQ-International Association for Information and Data Quality, organizadora do evento de Baltimore, relativizou, via seu vice-presidente, a  maior abrangência da Dama-Dama Management Association no cenário americano, se posicionando com uma visão de Qualidade acima dos conceitos de Governança e Gestão de dados do DMBOK. Na visão Dama, a Qualidade de dados é um dos corpos de conhecimentos ou capítulos, enquanto que para o IAIDQ o conceito de qualidade de dados é o grande núcleo, em torno do qual os outros gravitam . São pontos de vistas diferentes, desenvolvidos por organizações diferentes, com certa faixa de rivalidade, inclusive. A IAIDQ está associada com a ECCMA-Eletronic Commerce Code Management Association, organização que atua fortemente na definição de padrões de dados industriais. Tem o maior dicionário técnico aberto  baseado na ISO 22745, do mundo, e desenvolve projetos para entidades do governo americano e em outras partes do laneta(Arábia Saudita, por exemplo). Participa fortemente também da definição da ISO-8000, focada exclusivamente em qualidade e gestão de dados. A chegada desta Norma (ISO-8000), voltada para dados, mostra de forma inequívoca, que os dados não mais poderão ser considerados meros coadjuvantes do  ecossistema organizacional. Também percebi, nas conversas  de intervalo, um ponto que havia me escapado. Quando a primeira versão draft do DMM(Data Management Maturity Model), do CMMI Institute  foi lançado, eu tive acesso, fiz um estudo e até está publicado aqui no Blog. Naquela  versão havia o forte patrocínio do EDM-Enterprise Data Management Council, uma organização influente que congrega as ações de TI no ambiente bancário americano. Quando saiu o modelo para a revisão final, do qual eu, Antônio Braga e Mário Faria, fizemos parte como revisores (os 3 únicos brasileiros), essa organização já não estava mais presente. Agora, nos EUA, ouço que o EDM Council está lançando o seu próprio modelo de capacidade. É o DCAM-Data Capability Assessment Model, com a participação dos fortes  “data practitioners” do mundo financeiro. Tive acesso ao modelo e já estou estudando. No futuro falamos sobre ele.
Resumo: Os americanos, apesar de terem uma grande produção de conhecimentos na área de dados, por vezes me sugerem viverem em ilhas conceituais, sem pontes óbvias a conectá-las. No painel final do evento, em Baltimore, notava-se claramente as indagações da plateia sobre os novos caminhos de dados, a situação futura da qualidade e da governança, mas nada era dito sobre a possível convergência e aproximação de associações(como Dama, IAIDQ, CMMI-Institute, EDM, etc), que buscam alcançar os mesmos objetivos com propostas complementares. É a velha dificuldade de somar para crescer, quando o “verde do dólar a faturar” , fala mais alto do que  as possibilidades de união de esforços.. É America, como me disse John Ladley, mas  isso também acontece no Brasil, com interesses menores, por vezes, guiando definições que criam fraturas , onde deveria haver consolidação.

#06-E por falar nisso, tem a “ruptura” entre o ICCP e a DAMA. Por uma coincidência, neste período, recebi duas comunicações formais sobre o rompimento do ICCP(Institute for the Certification of Computing Professionals) com a Dama(Data Management Association). Uma de cada organização. O ICCP era a instituição designada e autorizada pela Dama-Data Management Association, para a realização das provas de certificação de profissionais de dados. Houve uma “quebra”  de confiança entre as duas instituições e elas se separaram. Os profissionais certificados(eu e mais alguns no Brasil), terão as suas certificações preservadas até o momento da recertificação, tendo garantido os seus direitos. Para tal, a Dama, que agora será responsável pelos seus processos de certificação CDMP, emitirá os novos certificados, sem a chancela do ICCP. Por seu lado, o ICCP, inaugurará sua própria linha de certificações (CDP), com algumas atualizações, inserindo assuntos inexistentes no modelo anterior(como a especialização em Data Science, por exemplo).

A manifestação oficial da Dama, acerca do rompimento está no link abaixo:

A manifestação oficial do ICCP está no conteúdo abaixo, enviado por email:


Dear ICCP members,

The ICCP Board of Directors at its August 2015 meeting approved the following:

A. Removal of DAMA International from its Board due to bad faith negotiations by its leadership. 
B. An update to the CDMPtm program that ICCP has been offering since 2004. 

The Data industry has changed rapidly in the past few years with greater specializations, so a renewal became necessary.

That program will now be more simply offered as Certified Data Professional (CDP). The following  Specializations are offered and a new certificate will be mailed to each holder that qualifies.

CDP - Business Analytics 
CDP - Data Governance
CDP - Data and Information Quality
CDP - Data Integration 
CDP - Data Management
CDP - Data Modeling (Data Development)
CDP - Data Science
CDP - Data Stewardship
CDP - Data Warehousing
CDP - Database Administration (Data Operations)
CDP - Information Management

Depending on which specialty examinations were taken by you, ICCP will be issuing you your new certificate.

ICCP is committed to serving the best interests of business, data and computer professionals.

If you have any questions please do not hesitate to contact the ICCP office.


Sincerely,
Ken Metcalfe,, I.S.P., ITCP, CCP 
President, ICCP



segunda-feira, 9 de novembro de 2015

O estado atual da Governança e Gestão de dados nos EUA-03


Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e  no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.


Baseado na participação dos eventos acima, comento,  na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy...

#04-Governança em Big Data. Esse assunto foi também um dos mais discutidos e ganha temperatura nos EUA. No Brasil, onde o conceito de Governança de dados ainda está morno, a especialização em Big Data deverá demorar um pouquinho mais. De forma geral, há nos EUA,  um questionamento sobre a diferença entre governar “Big data” e governar “normal” data. Há correntes com pensamentos divergentes, uns advogando a corrente da Governança mais tradicional e outros clamando que há diferenças a observar. Os dois estão certos, na minha visão. Segundo Sunil Soares, autoridade reconhecida no assunto nos EUA, autor de 3 livros na área, no final do dia governança é governança. Entretanto, o universo dos chamados Big data sugere  alguns pontos de observação, que indicam certos ajustes na tradicional forma de se governar big data quando comparado  com os normais(normal data). As condicionantes ditadas pelos 3 V´s tradicionais do conceito(Volume, Velocidade, Variedade/Variabilidade) e mais a Veracidade(Qualidade) sugerem alguns pontos que farão diferenças em alguns dos P´s da GD(Políticas, Processos, Padrões,etc).  Claramente o volume de dados deverá suscitar pontos de observação com relação ao armazenamento, arquivamento e retenção, dependendo dos casos, motivando políticas e processos que poderão variar. A velocidade também dependerá das aplicações em questão. Ou seja, caso isso não seja uma preocupação prioritária no “normal Data”, certamente será no Big data. A velocidade de dados  produzidos por um sistema como os de medidores inteligentes de energia elétrica, por exemplo, será diferente da velocidade com que esses dados chegam aos sistemas tradicionais de leitura manual de medidores. Nos “smart meters”  as leituras são produzidas a cada 15 minutos, por exemplo. Esse processamento quase em tempo real, característico de big data, exigirá reflexões da GD e da DM(Lembre-se que GD+DM formam a camada gerencial de dados das empresas). Isso também será motivo de preocupação nos sistemas de dados “in-stream”, que chegam aos kbytes por minutos ou segundos, também próprio do ambiente  big data. Tudo dependerá dos objetivos, mas é bem provável que plataformas diferentes serão demandadas. Embora isso seja tecnicamente algo da esfera de DM(Data Management) e não diretamente da GD(Data Governance), elas acabam se encontrando em Políticas, Padrões, Processos,etc, na interseção das duas. Muito provavelmente novos segmentos de tecnologias com plataformas diferentes como Hadoop-like, No-SQLlike, Processamento in-memory, Appliances como Netezza e TeraData merecerão focos diferentes da GD+DM. A variedade, claro, implica repensar a GD, pois interfere no 4º  V, que é a Veracidade(sinônimo de Qualidade) . Os dados não estruturados como fotos, twitters, posts, sinais, etc não estão diretamente na linha tradicional  da disciplina de Qualidade de dados. Diferentemente de campos de tabelas no mundo relacional, os conteúdos não estruturados não passam ainda pelos  algoritmos  filtradores de profiling e cleansing   das ferramentas de QD. Essas ferramentas ainda não leem os stores NOSQL, com suas estruturas complexas. Além disso, a aplicação dos conceitos tradicionais de dimensões de qualidade(consistência, acurácia, integridade,precisão,etc) não serão tão linearmente aplicados nos campos não estruturados. Avaliar a consistência de um post de FB, por exemplo, exigirá algoritmos especializados para se interpretar ironia, duplo sentido, etc. Técnicas de  machine learning/NPL-Natural Programming language, por exemplo, estão sendo desenvolvidas em áreas como  “sentiment analysis”, ainda em fase de maturação, que caminham nessa direção. Assim, o conceito de qualidade de dados e suas dimensões tradicionais deverão ser revistos à luz da Governança de Big Data, quando falarmos de dados não estruturados. Há inclusive, conceitos acadêmicos, quase filosóficos,  que apregoam que os Big Data não merecerão os mesmos cuidados de qualidade dos “normal data”, pelo fato de que os erros se diluiriam na imensidão dos seus petabytes. Sei lá... Dessa forma Políticas, Padrões, Processos, Plataformas,etc deverão ser devidamente reavaliadas no cone dos conceitos de Governança de  “Big”  dados.  No mais, os aspectos de artefatos de Big Data, como arquivos críticos, seus campos, modelos analíticos, regras de negócios, etc também deverão ser considerados. As principais disciplinas(muitas derivadas do “normal data”)  no contexto de GD para Big Data passarão por : Inventário de dados, propriedade dos dados (ownership/membership), gerência de metadados, gerência de qualidade de dados(aqui feitas as considerações acima), segurança da informação, integração de dados (não-estruturados) com  dados mestres e de referência e analytics e relatórios. O P de Plataforma(dos vários P´s da GD), poderá passar por embarques em  Hadoop, Bancos NOSQL e Processamento in-streaming, Appliances, tratamento in-memory, com abordagens estruturais lógicas e físicas diferentes das hoje praticadas. Os aspectos sobre definição “schemaless” dos BD NO-SQL, suas estruturas complexas como grafos, listas dentro de listas, etc trará reflexões na documentação dos modelos de dados, parte do capítulo de arquitetura dos dados. As facilidades da normalização, os modelos relacionais tradicionais , a criação de schemas de bancos de dados antes da sua carga, tudo isso deverá ser reconsiderado à luz dos novos “stores” de dados do ambiente Big data.
No slideshare, publiquei recentemente dois trabalhos que falam sobre algumas dessas particularidades. O primeiro “Big Data e a Governança de dados”,  pode ser acessado em
O outro, “Big Data e Governança de dados, via DMM-Data Management Maturity Model”, pode ser acessado via

Continuaremos com o tema, em breve, com novas discussões e publicações. Em 2016, desenvolveremos na Fumsoft, um conjunto de cafés empresariais, com o lema “DataTalk”, nos quais discutiremos com especialistas, todos os aspectos de dados, nesse novo momento. Waiting 4 u.

segunda-feira, 2 de novembro de 2015

O estado atual da Governança e Gestão de dados nos EUA-02

Eventos: MDM and Data Governance Summit, ocorrido entre 04-06 de Outubro de 2015, em Nova York e  no seminário da IAIDQ-International Association for Information and Data Quality, ocorrido em Baltimore, entre 12 e 14 de Outubro de 2015.

Baseado na participação dos eventos acima, comento,  na forma de pequenas notas(drops), o estágio percebido dos conceitos de Governança de Dados, gestão de dados, MDM,etc. Serão aproximadamente 9 posts semanais...Enjoy...


#02-Nova CID-10. O dia 30 de Setembro agora, foi uma espécie de mini-bug do milênio nos EUA, notadamente para a área de sistemas de saúde. No dia 01/10/15 passou a vigorar a CID-10, código internacional de doenças, versão 10. Isso significa que os códigos de doenças registrados/anotados em todos os atendimentos médicos do sistema de lá (leia-se ObamaCare), deverão apontar com correção o código (da doença/incidente/acidente) a que se refere aquele atendimento. Caso contrário, as seguradoras, que pagam as operadoras de saúde, poderão recusar o pagamento. E por que isso tudo? Simples. O código de doença é um dos exemplos clássicos de Dados de Referência, que juntamente com os Dados Mestres(pacientes, prestadores, hospitais, etc) e dados transacionais(consultas, internações, exames) formam o “core” do conceito de MDM(Master data Management), num ambiente de Health Care(Saúde). Desnecessário dizer que as empresas que estão com os dados melhor governados, foram as que melhor e mais rapidamente se prepararam para essa mudança. As outras deverão enfrentar cancelamentos de pagamentos por códigos inexistentes ou desatualizados. O CID-9 lançado em 1970,  continha 14.000 códigos para diagnósticos e quase 4.000 para procedimentos. O CID-10, lançado agora,  tem 68.000 para diagnóstico e 72.000 para procedimentos, aumentando em muito o espaço do conhecimento. Em tempo, o CID-10 é tão detalhado que agora num atendimento de fratura de fêmur, por exemplo, além da definição óbvia de em qual perna aconteceu, também o terço do osso, onde se deu a fratura, será caracterizado por um código diferente. E se você foi mordido por uma baleia, acredite,   o código é (W56.21XA). Também se você estiver envolvido num acidente com espaçonave de qualquer tipo, o código será (V95.40XA). E caso você seja atacado por um peru(turkey), o código será W61.42XD. Governe os seus dados....

#03-Glossário de negócios: Cresce gradativamente a discussão sobre a necessidade das empresas de terem um glossário de negócios. Nada a ver com os  antigos dicionários de dados encontrados em ferramentas como SGBD, Modeladores de dados,etc. Esses mecanismos antigos, encontrados nos SGBD, normalmente estão no plano físico, registrando os dados já na fase de “inquilinos”  de tabelas relacionais, ou quando muito, de alguns modelos em certo grau de abstração, como lógicos e conceituais (minoria). Aqui estamos tratando de registro das  informações, na forma de glossário, de tal sorte que permita uma profunda visão, entendimento e definição das áreas de negócios sobre aquele ativo específico. Por exemplo, a definição de Cliente, no contexto de uma multinacional certamente passa por várias visões que deverão ser consolidadas nesse ambiente de Glossário de negócios. O modelo DMM-Data Management Maturity Model trouxe na sua versão  de 2014-08, uma PA(Área de Processo) totalmente dedicada  a esse conceito(Business Glossary, dentro da Categoria Data Governance). A criação de um glossário de negócios tem ligações com a Gerência de Conhecimentos, na medida em que estabelece, de forma organizacional, uma definição central  daquele conceito, permitindo a sua difusão e uso de forma coerente e consistente por todas as áreas. Em algumas áreas de domínios, como Seguros, esses termos são melhor controlados. Em outras áreas, como Saúde, há uma chance de definições extremamente variadas, dependendo dos agentes participantes, como médicos, hospitais, auxiliares, etc. Veja post anterior sobre a CID-10.  Com a introdução dos complexos procedimentos do chamado ObamaCare(Ato que regulamenta os serviços de atendimento de saúde nos USA), esse ponto tem sido muito discutido. Uma abordagem para a definição de um glossário de negócios, passa por alguns pontos básicos: Primeiramente há que se conhecer os dados da empresa, ou daquele domínio em estudo, foco do projeto. Conhecer significa saber quem são os principais usuários(potenciais owners), entender a sua sensibilidade, criticidade e o significado daqueles dados. Identificar  os papéis que já estão envolvidos com o conceito, fazendo uma espécie de “stewardship” velada. Os modelos de dados(caso haja) são as primeiras fontes, juntamente com outros registros e documentos de sistemas existentes. O segundo ponto é observar as oportunidades que possam alavancar esse projeto de construção do Glossário. Apoio  da alta gestão e retorno previsto  são palavras chaves aqui. Lembre-se que os metadados são uma espécie de patinho feio da Gestão de dados.  Dessa forma, aspectos regulatórios de dados são sempre bons argumentos para se entendê-los com profundidade e criar vetores para a sua criação. Problemas organizacionais causados por “bad data” são também convidativos. Em terceiro, é fundamental ter boa comunicação acerca desse projeto. Aliás, todos os projetos, dentro de um programa de Gestão/Governança de dados, tem na comunicação,  aspectos fundamentais. Divulgue, publique, faça barulho. O Glossário de dados de negócios deve ser algo aberto, consumido e que traga retorno para a empresa. Em quarto lugar, comece o projeto, tenha um processo, mesmo que não um ferramental completo. No final do texto, falamos sobre ferramentas. E por último, faça medição do seu uso. O Glossário deverá se mostrar útil e consumido. Meça os acessos, por categoria, tipos de inconsistências, buscas, acertos, etc. A medição do seu uso, representa o acompanhamento vital da sua viabilidade. Ferramental. Bem, há várias ofertas de ferramentas sofisticadas no mercado. Normalmente são caras e algumas complexas. Não se impressione. A apresentação do Centro Médico Langone, da Universidade de Nova Yorque, neste último evento, de que participei, mostrou claramente o tamanho do desafio. Dados mestres e de referências, inconsistentes entre sistemas clínicos, organizacionais, de credenciamento e de pesquisa deram o tom do “porquê” do seu projeto. Os dados nesses domínios, segundo a apresentação, tem forte entropia, com cada sistema tendo a sua visão particular dos dados. A sugestão é começar devagar e com simplicidade. Planilhas(dependentes de volumes de termos, podem ser usadas), Ferramentas free para Repositório  ou ferramentas de “issue”, como RedMine, por exemplo, podem ser uma solução barata pra se começar. O fundamental é começar pelos dados “core” da empresa, aqueles mais sensíveis e susceptíveis a aspectos de “compliance e regulações”. Ferramentas mais caras e poderosas, como Colibra e ASG-Rochade, por exemplo deverão ficar para depois de uma percepção firmada, de que o assunto ganhou pauta e há perspectiva de ganho  palpável para o uso  dos dados pelas áreas de  negócios.  O mais importante é sentir a utilidade deste tipo de controle e convencer a alta gestão do seu retorno, sempre começando pela pergunta fundamental, um dos 5 W: Why?