Total de visualizações de página

quarta-feira, 18 de abril de 2012

Governança de Dados-Parte VI-Framework DGS- Data Governance Society



Visão de Steven Strout e de John Eisenhauer, extraída do livro The Elephant in the room:Data

O Data Governance Society , entidade localizada na cidade de Atlanta, na Geórgia, é uma organização colaborativa dedicada ao incentivo e ao aprofundamento dos conceitos e das causas da Governança de dados-GD. O DGS, como é conhecido, define no seu site que a GD é um processo de negócios semelhante aos processos tradicionais como finanças, marketing, vendas,etc, provendo como esses, consistência e repetibilidade. Semelhantemente às outras escolas, o DGS  oferece um framework para referência, que será discutido abaixo. O seu principal  colaborador é John Eisenhauer, autor de dois livros na área de GD: “Heads Up-The data tsunami survival guide” e “The elephant in the room”  e é diretor de Governança de dados da McKesson Technology Solution, uma divisão da McKesson Corporation, empresa especializada no ramo de produtos e serviços de saúde(healthcare)  e considerada uma das maiores do mundo e 15ª maior empresa dos EUA. Alguns dos principais integrantes do DGS denotam  uma certa familiaridade com os conceitos de SAP, de cujo ambiente parece ter nascido os preceitos de governança de dados difundidos por eles. O DGS tem algumas empresas patrocinadoras,  explicitamente lotadas na área de qualidade de dados, como a 3Sage, JDC Group, essa formada por profissionais com expertise SAP e Black Watch, empresa com premissas de sustentabilidade e defeito zero de dados. Assim, diferentemente do DGI de Gwen Thomas, que procura certa neutralidade com relação aos seus posicionamentos, o DGS tem patrocinadores interessados no campo da governança e qualidade de dados. O conceito apresentado pelos  mentores do site e consubstanciado no livro de Eisenhauer também centra na identificação dos famosos 5W e 2H, porém esses se mostram difusos no framework apresentado na figura 6.1 a seguir:
O framework do DGS é centrado em 4 dimensões: Pessoas,Processos,Tecnologias e Dados.
1)Pessoas:A proposição feita pelo DGS está muito coincidente com as anteriormente discutidas, ou seja uma organização em 3 níveis, onde no primeiro aparece o Conselho de GD, órgão de natureza consultiva e estratégica, com aspectos reguladores. Abaixo ficam as estruturas operacionais, onde , na visão do DGS, estão: a área de arquitetura de dados, normalmente dentro da TI, os gestores de dados(data stewards), lotados no DMO-Data Management Organization, semelhante ao DMO-Data management Office de outras proposições . Nessa aparecem também  os Data Custodians, que estariam no DMO e na área de negócios. A diferença entre data stewards e data custodians não é matemática e pode variar de acordo com as empresas proponentes e que implementam GD. Há variantes que adotam data stewards como  aqueles que ficam no espaço do business(área de negócios) e data custodians, como aqueles que ficam nos domínios da TI, em áreas como ABD, Segurança da informação, BI, etc. Outras empresas, em função de diversidade , digamos, ideológica sobre os vocábulos “steward” e “custodian”, preferem chama-los respectivamente de data steward de negócios e data steward de TI, abolindo o conceito de “custodians”, que para muitos soa como um tomador de conta sem muito “glamour de governança” . O que é importante, entretanto, é que ambos trarão grande contribuição à implementação da GD e a empresa com a sua cultura poderá definir os nomes das funções/papéis que melhor lhe aprouver. O que é fundamental são as visões diferentes que os profissionais definidos terão sobre os dados, ficando uns com os olhos de negócios e o outro com os olhos da tecnologia. Ambos terão certa responsabilidade sobre o “ ownership dos dados” , cada um no seu domínio de atuação. O conselho deve ser composto por executivos de nível sênior que tem a visão de  operação de negócios em alto nível e dos caminhos estratégicos da empresa.
2)Processos: Nessa camada conceitual o DGS mostra um conjunto de processo fundamentais que embasarão os aspectos de GD. Muitos desses processos também se encontram em outras proposições, não apresentando nenhum ineditismo. Os processos elencados são:Qualidade de dados, camada seminal da GD que trata desses aspectos como elemento de sobrevivência, considerando qualidade no seu espectro mais amplo . Processos de Controle de alteração e manutenção de dados  que sinalizam a necessidade de se controlar as mudanças nesse tipo de ativo, com definições organizacionais estabelecidas pela GD, caracterizadas pela camada abaixo representada por Políticas,Padrões e Regras de negócios. Um ponto importante que se destaca  nesse cenário é a definição de medidas e métricas, necessárias para o acompanhamento dos processos, baseado na máxima de que não se gerencia corretamente se não se medir adequadamente;
3)Tecnologia:  Nessa camada, o DGS sugere o arsenal de possíveis ferramentas de apoio à implementação da GD: Ferramentas de integração de dados, no sentido de se manter as fontes  de dados e informações integradas e com rigoroso controle de redundâncias;  sincronização, no sentido de se manter sincronismos em processos, de sorte que os dados, mesmo em fontes diversas, sejam mantidos em sincronização; harmonização, no sentido de  se buscar a análise convergente de dois (ou mais) elementos de dados que representem o mesmo fato ou objeto. Tecnicamente harmonização é  um processo de comparação da definição de dois ou mais componentes de dados com o objetivo de identificar partes comuns entre eles, de forma a garantir a sua combinação harmônica, quando vistos como um único elemento de informação. No fundo seria a garantia de , por exemplo, atributos diferentes de um mesmo cliente, obtido de fontes separadas, sejam integrados e harmonizados, oferecendo coerência quando visto como uma informação única de cliente. Se em um registro do cliente A é apontado que ele é casado e no outro indica que é solteiro, há uma desarmonia de dados.
O conceito de deduplicação que aparece no framework da DGS tem que ser analisado sob dois prismas diferentes:  A palavra deduplicação , quer representa a eliminação de duplicação , é discutida hoje em dois contextos ligeiramente diferentes: Um, no conceito aplicado em otimização de dados em processos de backup, visando a eliminação de elementos duplicados, de forma a reduzir os investimentos em “storage” e em  tempo de processamento.  O outro conceito, mais relacionado com os aspectos de qualidade de dados e GD fala sobre a óbvia necessidade de se manter baixos índices de redundância nos dados da empresa, eliminando a duplicação por processos de cleaning/cleasing dos dados.
O conceito de enriquecimento de dados, também presente do framework, é definido como um processo de busca de dados adicionais aos já existentes, visando uma melhor qualificação das informações sobre determinado objeto.  É uma espécie de suplementação de dados externos aos dados já existentes nos domínios da empresa. Por exemplo, o acréscimo de dados geográficos sobre clientes, ou dados de logradouros obtidos de fontes públicas, ao cadastro de cliente é uma forma de enriquecimento.
Isso tudo tem como premissa a aplicação de regras definidas e a monitoração da qualidade, conforme indica o framework;
4)Dados: O framework apresenta os conceitos fundamentais de tipificação de dados, ilustrando Dados Mestres, Dados de Referências, Metadados, Dados transacionais e Dados não estruturados. As definições de consenso sobre esses tipos estão abaixo:
·         Dados Mestres, ou seja  os objetos, pessoas, clientes, fornecedores, vendedores, colaboradores, representando os diversos papéis de relacionamentos  da pessoa física ou jurídica com a empresa. Alguns autores ainda classificam os dados mestres de acordo com a sua volatilidade. Por exemplo, dados mestres do tipo Contrato normalmente são mais estáticos depois de criados, enquanto que dados mestres de Clientes podem ser mais voláteis, quando esses elementos(clientes) evoluem no seu ciclo de vida;
·         Dados Transacionais, ou seja aqueles normalmente com uma ou mais referência temporal, como Ordens de pedido, Notas fiscais, Ordens de compra, lançamentos,etc e normalmente produzido pelo relacionamento de dados mestres e/ou de referências;
·         Dados de Referência, ou seja lista de valores padronizados (paises, estados, datas, códigos, etc), usados em codificações ou decodificações, com o objetivo de trazer maior clareza sobre a definição do dado. Alguns exemplos: dados de códigos postais(CEP) com associações com unidades geográficas, dados de códigos de padrões universais de produtos e serviços, como UNSPSC( convenção hierárquica, definida e adotada pelas Nações Unidas - de âmbito e aplicação mundial, usada para classificar todos os tipos de produtos e serviços). Os dados de referência estão próximos dos dados mestres, com um sabor mais de origem  externa(nem sempre)  e codificado. Ambos (Mestres e Referências) são fundamentais na geração dos dados transacionais
·         Metadados, ou seja os dados sobre os dados, que podem ser técnicos, como nome, comprimento, lay-out, array, etc ou de  negócios que são usados para aplicações no entendimento do negócio(títulos, nomes de telas, estatísticas, páginas web, etc), ou metadados de auditoria, com dados como tipo de informação para rastreamento, visando proteção, recuperação, quem, quando, como , o porquê, audit, log, etc;
·         Dados Temporários que são dados usados em certas circunstâncias técnicas, na memória de sistemas, por exemplo, como elemento de otimização de tempo, performance, constantes, etc. No framework do DGS aparece provavelmente como dado de configuração
·         Dados não estruturados, que são dados relacionados aos novos tipos de informação, como emails, dados de “posts de twitter”, Facebook,sons,imagens,etc.    
Síntese: Embora o foco seja nos 5 W e 2H, os autores tergiversam por caminhos genéricos da GD, misturando os conceitos e deixando rastros de pouca clareza sobre como realizar a GD de forma objetiva. O framework apresentado contém conceitos genéricos, mas claro, muito válidos. Alguns conceitos seminais aparecem mas sempre coincidentes com outras ideias e proposições. Por exemplo, a equipe que deve governar os dados de uma empresa deve ser separada e deve vir na forma de um vice-presidente de dados ou da criação do CDO(Chief Data Officer). Independentemente da forma com que seja constituída, a área de negócios deve ter um envolvimento na governança desses ativos críticos, que são os dados. Aliás, se fôssemos definir os mandamentos da GD, esse seria o primeiro, aparecendo com ênfase em todas as escolas de GD. Os traços desse envolvimento aparecem em certas circunstâncias vitais, como a migração de sistemas legados para novos ambientes(efeito SAP aqui manifestado) e no surgimento de dados defeituosos que acabam erodindo a imagem da unidade organizacional ou da empresa. Nesse contexto os autores sugerem  o que chamamos em BH de um “Pardini” de dados, ou seja uma medição efetiva de qualidade dos dados, via ferramentas criando baselines de referências para os a comparação de esforços ao longo do tempo. Também a adoção de outra abordagem(aparece na metodologia do MIT), focando em pesquisa qualitativa pode ser recomendada. Tente identificar, via pesquisa com a equipe de venda e de gerência, o número de oportunidades perdidas ou impactadas negativamente por dados defeituosos. Esses dois itens, traduzidos em diagnósticos preliminares da qualidade de dados, quer seja por mecanismos de “profiling”  ou de pesquisas qualitativas também aparecem como mandamentos da GD. Nunca tente vender GD sem saber o estado atual dos seus dados. Questão básica de entendimento de requisitos.  A necessidade de qualidade dos dados também pode estar atrelada a aspectos de legislação. O exemplo apresentado se refere exatamente ao ambiente de onde se originou o principal do DGS(Data Governance Society): a indústria de medicamentos. Nesse caso, a distribuição de medicamentos pelo pais deverá ser revestida de um cuidado extremo. É fundamental que a empresa saiba para onde os lotes de medicamentos foram enviados , no caso de problemas de interações medicamentosas atípicas. A possível necessidade de um recall desses produtos é definida pela legislação  da FDA e a governança de dados deve estar atenta a esses aspectos de alta criticidade de dados e de seus efeitos.  
Ao longo dos tempos, podemos observar a criação de certos axiomas na medida em que alguns conceitos ou proposições são criados. A seguir, um que já se tornou um clássico da GD e vem desde a época da Administração de dados: Os dados devem ser considerados como um ativo da organização
Nada mais verdadeiro, nada mais clichê!


  

Um comentário:

  1. O gerenciamento de dados é uma ferramenta muitas vezes ignorada pelas empresas, que perdem grandes oportunidades.

    ResponderExcluir