Visão de
Steven Strout e de John Eisenhauer, extraída do livro The Elephant in the room:Data
O Data
Governance Society , entidade localizada na cidade de Atlanta, na Geórgia, é
uma organização colaborativa dedicada ao incentivo e ao aprofundamento dos
conceitos e das causas da Governança de dados-GD. O DGS, como é conhecido,
define no seu site que a GD é um processo de negócios semelhante aos processos
tradicionais como finanças, marketing, vendas,etc, provendo como esses,
consistência e repetibilidade. Semelhantemente às outras escolas, o DGS oferece um framework para referência, que
será discutido abaixo. O seu principal colaborador é John Eisenhauer, autor de dois
livros na área de GD: “Heads Up-The data tsunami survival guide”
e “The
elephant in the room” e é
diretor de Governança de dados da McKesson Technology Solution, uma divisão da
McKesson Corporation, empresa especializada no ramo de produtos e serviços de
saúde(healthcare) e considerada uma das
maiores do mundo e 15ª maior empresa dos EUA. Alguns dos principais integrantes
do DGS denotam uma certa familiaridade
com os conceitos de SAP, de cujo ambiente parece ter nascido os preceitos de
governança de dados difundidos por eles. O DGS tem algumas empresas
patrocinadoras, explicitamente lotadas
na área de qualidade de dados, como a 3Sage, JDC Group, essa formada por
profissionais com expertise SAP e Black Watch, empresa com premissas de
sustentabilidade e defeito zero de dados. Assim, diferentemente do DGI de Gwen
Thomas, que procura certa neutralidade com relação aos seus posicionamentos, o
DGS tem patrocinadores interessados no campo da governança e qualidade de
dados. O conceito apresentado pelos mentores do site e consubstanciado no livro de
Eisenhauer também centra na identificação dos famosos 5W e 2H, porém esses se
mostram difusos no framework apresentado na figura 6.1 a seguir:
O
framework do DGS é centrado em 4 dimensões: Pessoas,Processos,Tecnologias e
Dados.
1)Pessoas:A proposição feita pelo DGS está
muito coincidente com as anteriormente discutidas, ou seja uma organização em 3
níveis, onde no primeiro aparece o Conselho de GD, órgão de natureza consultiva
e estratégica, com aspectos reguladores. Abaixo ficam as estruturas
operacionais, onde , na visão do DGS, estão: a área de arquitetura de dados,
normalmente dentro da TI, os gestores de dados(data stewards), lotados no
DMO-Data Management Organization, semelhante ao DMO-Data management Office de
outras proposições . Nessa aparecem também os Data Custodians, que estariam no DMO e na
área de negócios. A diferença entre data stewards e data custodians não é matemática
e pode variar de acordo com as empresas proponentes e que implementam GD. Há
variantes que adotam data stewards como aqueles que ficam no espaço do business(área
de negócios) e data custodians, como aqueles que ficam nos domínios da TI, em
áreas como ABD, Segurança da informação, BI, etc. Outras empresas, em função de
diversidade , digamos, ideológica sobre os vocábulos “steward” e “custodian”,
preferem chama-los respectivamente de data steward de negócios e data
steward de TI, abolindo o conceito de “custodians”, que para muitos soa
como um tomador de conta sem muito “glamour de governança” . O que é importante,
entretanto, é que ambos trarão grande contribuição à implementação da GD e a
empresa com a sua cultura poderá definir os nomes das funções/papéis que melhor
lhe aprouver. O que é fundamental são as visões diferentes que os profissionais
definidos terão sobre os dados, ficando uns com os olhos de negócios e o outro
com os olhos da tecnologia. Ambos terão certa responsabilidade sobre o “
ownership dos dados” , cada um no seu domínio de atuação. O conselho deve ser
composto por executivos de nível sênior que tem a visão de operação de negócios em alto nível e dos
caminhos estratégicos da empresa.
2)Processos:
Nessa camada conceitual o DGS mostra um conjunto de processo fundamentais que
embasarão os aspectos de GD. Muitos desses processos também se encontram em
outras proposições, não apresentando nenhum ineditismo. Os processos elencados
são:Qualidade de dados, camada seminal da GD que trata desses aspectos como
elemento de sobrevivência, considerando qualidade no seu espectro mais amplo .
Processos de Controle de alteração e manutenção de dados que sinalizam a necessidade de se controlar as
mudanças nesse tipo de ativo, com definições organizacionais estabelecidas pela
GD, caracterizadas pela camada abaixo representada por Políticas,Padrões e Regras de
negócios. Um ponto importante que se destaca nesse cenário é a definição de medidas e
métricas, necessárias para o acompanhamento dos processos, baseado na máxima de
que não se gerencia corretamente se não se medir adequadamente;
3)Tecnologia: Nessa camada, o DGS sugere o arsenal de
possíveis ferramentas de apoio à implementação da GD: Ferramentas de integração
de dados, no sentido de se manter as fontes de dados e informações integradas e com
rigoroso controle de redundâncias; sincronização,
no sentido de se manter sincronismos em processos, de sorte que os dados, mesmo
em fontes diversas, sejam mantidos em sincronização; harmonização, no sentido
de se buscar a análise convergente de
dois (ou mais) elementos de dados que representem o mesmo fato ou objeto.
Tecnicamente harmonização é um processo
de comparação da definição de dois ou mais componentes de dados com o objetivo
de identificar partes comuns entre eles, de forma a garantir a sua combinação
harmônica, quando vistos como um único elemento de informação. No fundo seria a
garantia de , por exemplo, atributos diferentes de um mesmo cliente, obtido de
fontes separadas, sejam integrados e harmonizados, oferecendo coerência quando
visto como uma informação única de cliente. Se em um registro do cliente A é
apontado que ele é casado e no outro indica que é solteiro, há uma desarmonia
de dados.
O conceito
de deduplicação que aparece no framework da DGS tem que ser analisado sob dois
prismas diferentes: A palavra
deduplicação , quer representa a eliminação de duplicação , é discutida hoje em
dois contextos ligeiramente diferentes: Um, no conceito aplicado em otimização
de dados em processos de backup, visando a eliminação de elementos duplicados,
de forma a reduzir os investimentos em “storage” e em tempo de processamento. O outro conceito, mais relacionado com os
aspectos de qualidade de dados e GD fala sobre a óbvia necessidade de se manter
baixos índices de redundância nos dados da empresa, eliminando a duplicação por
processos de cleaning/cleasing dos dados.
O conceito
de enriquecimento de dados, também presente do framework, é definido como um
processo de busca de dados adicionais aos já existentes, visando uma melhor
qualificação das informações sobre determinado objeto. É uma espécie de suplementação de dados
externos aos dados já existentes nos domínios da empresa. Por exemplo, o
acréscimo de dados geográficos sobre clientes, ou dados de logradouros obtidos
de fontes públicas, ao cadastro de cliente é uma forma de enriquecimento.
Isso tudo
tem como premissa a aplicação de regras definidas e a monitoração da qualidade,
conforme indica o framework;
4)Dados: O
framework apresenta os conceitos fundamentais de tipificação de dados,
ilustrando Dados Mestres, Dados de Referências, Metadados, Dados transacionais
e Dados não estruturados. As definições de consenso sobre esses tipos estão
abaixo:
·
Dados
Mestres, ou seja os objetos, pessoas,
clientes, fornecedores, vendedores, colaboradores, representando os diversos
papéis de relacionamentos da pessoa
física ou jurídica com a empresa. Alguns autores ainda classificam os dados
mestres de acordo com a sua volatilidade. Por exemplo, dados mestres do tipo Contrato
normalmente são mais estáticos depois de criados, enquanto que dados mestres de
Clientes
podem ser mais voláteis, quando esses elementos(clientes) evoluem no seu ciclo
de vida;
·
Dados Transacionais, ou seja aqueles
normalmente com uma ou mais referência temporal, como Ordens de pedido, Notas
fiscais, Ordens de compra, lançamentos,etc e normalmente produzido pelo
relacionamento de dados mestres e/ou de referências;
·
Dados de Referência, ou seja lista
de valores padronizados (paises, estados, datas, códigos, etc), usados em
codificações ou decodificações, com o objetivo de trazer maior clareza sobre a
definição do dado. Alguns exemplos: dados de códigos postais(CEP) com
associações com unidades geográficas, dados de códigos de padrões universais de
produtos e serviços, como UNSPSC( convenção hierárquica, definida e adotada
pelas Nações Unidas - de âmbito e aplicação mundial, usada para classificar
todos os tipos de produtos e serviços). Os dados de referência estão próximos
dos dados mestres, com um sabor mais de origem externa(nem sempre) e codificado. Ambos (Mestres e Referências)
são fundamentais na geração dos dados transacionais
·
Metadados,
ou seja os dados sobre os dados, que podem ser técnicos, como nome,
comprimento, lay-out, array, etc ou de negócios
que são usados para aplicações no entendimento do negócio(títulos, nomes de
telas, estatísticas, páginas web, etc), ou metadados de auditoria, com dados como
tipo de informação para rastreamento, visando proteção, recuperação, quem,
quando, como , o porquê, audit, log, etc;
·
Dados
Temporários que são dados usados em certas circunstâncias técnicas, na memória
de sistemas, por exemplo, como elemento de otimização de tempo, performance,
constantes, etc. No framework do DGS aparece provavelmente como dado de
configuração
·
Dados
não estruturados, que são dados relacionados aos novos tipos de informação,
como emails, dados de “posts de twitter”, Facebook,sons,imagens,etc.
Síntese:
Embora o foco seja nos 5 W e 2H, os autores tergiversam por caminhos genéricos
da GD, misturando os conceitos e deixando rastros de pouca clareza sobre como
realizar a GD de forma objetiva. O framework apresentado contém conceitos
genéricos, mas claro, muito válidos. Alguns conceitos seminais aparecem mas
sempre coincidentes com outras ideias e proposições. Por exemplo, a equipe que
deve governar os dados de uma empresa deve ser separada e deve vir na forma de
um vice-presidente de dados ou da criação do CDO(Chief Data Officer).
Independentemente da forma com que seja constituída, a área de negócios deve
ter um envolvimento na governança desses ativos críticos, que são os dados.
Aliás, se fôssemos definir os mandamentos da GD, esse seria o primeiro,
aparecendo com ênfase em todas as escolas de GD. Os traços desse envolvimento
aparecem em certas circunstâncias vitais, como a migração de sistemas legados
para novos ambientes(efeito SAP aqui manifestado) e no surgimento de dados
defeituosos que acabam erodindo a imagem da unidade organizacional ou da
empresa. Nesse contexto os autores sugerem o que chamamos em BH de um “Pardini” de dados,
ou seja uma medição efetiva de qualidade dos dados, via ferramentas criando
baselines de referências para os a comparação de esforços ao longo do tempo.
Também a adoção de outra abordagem(aparece na metodologia do MIT), focando em
pesquisa qualitativa pode ser recomendada. Tente identificar, via pesquisa com
a equipe de venda e de gerência, o número de oportunidades perdidas ou
impactadas negativamente por dados defeituosos. Esses dois itens, traduzidos em
diagnósticos preliminares da qualidade de dados, quer seja por mecanismos de “profiling”
ou de pesquisas qualitativas também
aparecem como mandamentos da GD. Nunca tente vender GD sem saber o estado atual
dos seus dados. Questão básica de entendimento de requisitos. A necessidade de qualidade dos dados também
pode estar atrelada a aspectos de legislação. O exemplo apresentado se refere
exatamente ao ambiente de onde se originou o principal do DGS(Data Governance
Society): a indústria de medicamentos. Nesse caso, a distribuição de
medicamentos pelo pais deverá ser revestida de um cuidado extremo. É
fundamental que a empresa saiba para onde os lotes de medicamentos foram
enviados , no caso de problemas de interações medicamentosas atípicas. A
possível necessidade de um recall desses produtos é definida pela
legislação da FDA e a governança de
dados deve estar atenta a esses aspectos de alta criticidade de dados e de seus
efeitos.
Ao longo
dos tempos, podemos observar a criação de certos axiomas na medida em que
alguns conceitos ou proposições são criados. A seguir, um que já se tornou um
clássico da GD e vem desde a época da Administração de dados: Os
dados devem ser considerados como um ativo da organização
Nada mais
verdadeiro, nada mais clichê!
O gerenciamento de dados é uma ferramenta muitas vezes ignorada pelas empresas, que perdem grandes oportunidades.
ResponderExcluir