Total de visualizações de página

domingo, 29 de julho de 2012

Governança de Dados-Parte VIII-d-Visão europeia sobre Governança de dados:continuação do post anterior



Visão de qualidade de dados: Pesquisa francesa sobre qualidade de dados(qualitée des données), publicada pela PWC-Price Waterhouse Coopers, Micropole e Electronic Business Group-Julho de 2011, disponível em www.pwc.fr/qualites-des-donnees.html, acessado em janeiro de 2012.

1)Objetivo:
A pesquisa da PWC teve como objetivo tirar uma fotografia sobre os aspectos de qualidade de dados nas empresas da França. Foi desenvolvida em conjunto com a Micropole e a EBG-Electronic Business Group. A Micropole é uma empresa francesa especializada em consultoria na área de BI, CRM, ERP e desenvolvimento Web. A empresa atua na França, Bélgica e Suíça, e tem cerca de 1300 colaboradores, com uma carteira de 800 clientes, sendo que 80% deles estão na classificação CAC40, índice da Bolsa de Paris que define ranking de empresas, de acordo com a sua solidez. A EBG-Electronic Business Group é uma sociedade de empresas que agrupa interesses nos domínios da economia digital. Tem entre os seus associados os pesos-pesados do mercado mundial e francês, como Oracle, Microsoft, Lóreal, Nestlé, Renault, Fnac, Accor,etc.

2)Pesquisa:
A pesquisa sobre qualidade de dados foi realizada em 25 empresas, citadas ao final e não representa uma visão estatística formal, mas sim uma captura qualitativa dos aspectos de governança e de qualidade de dados nas empresas. Não apresenta rigor formal e sim uma coleção de percepções sobre os temas GD(Governança de Dados)  e QD(Qualidade de Dados).

3)Estruturação conceitual:
O trabalho começa com uma definição formal que procura diferenciar os conceitos de dados, informação e conhecimento . Na pesquisa ficaram assim definidos:
ü  Dados é  algo factual,  quantificado, medido, computado e armazenado;
ü  Informação: é uma montagem de dados segundo uma ontologia que define uma relação entre os elementos que a compõe. A informação é um ente comunicado;
ü  Conhecimento:é uma  montagem de estruturas conceituais, feita pelo cérebro humano  e portanto mais subjetiva e imperfeitamente representada pelas informações para poder ser comunicada.
O trabalho apresenta um ciclo de vida da informação, mostrando a cadeia de produção do conhecimento através do dado na ponta de entrada.
A seguir o trabalho apresenta uma classificação de dados, que foi expandida na figura abaixo, por este autor. A ideia é que os dados devam ser vistos com uma ontologia que permita identifica-los nas suas diferentes manifestações:
ü  Conforme a origem: dados internos e externos
ü  Conforme a gênese e transformação: dados primários e dados derivados
ü  Conforme a sua forma : estruturados e não estruturados
ü  Conforme o seu entendimento: a existência de metadados que permitam o seu entendimento
No cerne do esquema os dados podem ser separados segundo a sua estabilidade: dados mestres e dados operacionais. Os dados mestres podem ser entendidos com uma subdivisão que contempla os mestres puros e os dados referenciais(esses voltados para codificação e padronização, como cep, códigos de classificação de materiais,etc)
Os dados operacionais  podem ser divididos em : dados transacionais propriamente ditos e dados históricos, esses retidos e imutáveis, além dos dados condicionais, cujo conteúdo varia em função de alguma circunstância ou regra. Finalizando há os dados temporários usados em otimização, performance, etc.
Essa classificação transcende à mostrada no trabalho e engloba todos principais conceitos apresentados na pesquisa francesa.
No final do primeiro capítulo, a pesquisa mostra os números do universo digital, com ênfase para os patamares a serem atingidos em 2020, com valores em torno de 35 zetabytes, assunto já discutido nos posts anteriores relacionados a Big Data.   

4)Definição de Qualidade de dados:
A pesquisa apresentou seis(6) atributos entendidos pelas empresas como elementos que definem a qualidade de dados. O termo em francês será mantido para se entender a tradução livre feita por este autor:
4.1)Atualidade(fraicheur):diz respeito à característica do dado de oferecer uma visão mais atual, naquele instante, acerca de um fato e permitir uma tomada de decisão correta. Existem dois gaps importantes para serem entendidos: a distância entre a coleta do dado e a sua análise e a distância entre a sua comunicação (report) e a tomada de decisão. Em muitos casos, a atualidade deve ser entendida como latência zero, ou seja os dados somente servem em tempo real. É o caso de domínios de estudos quantitativos e análise de mídia, como duas das empresas pesquisadas demonstraram: GfK e Kantar Media
4.2)Disponibilidade(disponibilité): se refere  a dois conceitos analisados individualmente: acessibilidade e pesquisabilidade(findability ou trouvabilité)
4.2.1)A acessibilidade(l´acessibilité)  se refere aos aspectos de estruturação de armazenamento de bases de dados, como o tempo de busca , fator crítico na medida em que os volumes se tornam cada vez maiores e o tempo de acessibilidade aumentará. A acessibilidade também depende de se saber onde está a informação e para isso certas classificações ajudam no entendimento de sua localização. De forma geral a acessibilidade deve ser apoiada por procedimentos e ferramentas, como classificações, metadados e dicionários/glossários.
4.2.2)Pesquisabilidade(findability/trouvabilité) se refere aos aspectos de facilidade em se chegar a informação, no sentido de tê-la no momento de sua necessidade e se constitui num fator de produtividade. A ideia é que por vezes, a informação pode estar acessível, porém dependente de ferramentas mais complexas do que os usuários triviais conseguem pilotar. Com a chegada das informações não estruturadas, essa dificuldade fica mais flagrante, pois a sua busca pode implicar o uso de ferramental especializado(sistemas de documentação, controle eletrônico de documentos, etc), nem sempre à mão dos usuários.
4.3)Coerência(la cohérence):  significa a fidelidade de significado dos dados com relação aos fatos por eles representados. Tem algo de correção, ou seja vista no sentido do dado estar “correto”. Essa característica é marcante quando a empresa busca dados em fontes externas(como cartórios, entidades públicas que fornecem dados de endereços, códigos etc) . Também quando a empresa tem uma diversidade de sistemas com redundância de dados(o caso  mais comum) e há a necessidade de se buscar a coerência interna, garantindo que os sistemas sejam, cada vez mais, integrados. É a essência do MDM.
4.4)Rastreabilidade(la traçabilité): se relaciona com o conhecimento da cadeia produtiva da informação, indo da sua concepção(coleta) ao seu armazenamento final. Está sempre associado a um processo. É muito importante nos aspectos de regulamentação  e quando há envolvimento de aspectos de saúde, segurança, etc. É o caso de associações de dados de produção(lotes) com regiões ou clientes, permitindo o rastreamento de peças defeituosas, ou embalagens com produtos contaminados, facilitando as ações de prevenção e resolução do problema. Empresas de alimentos, remédios, peças de veículos, etc são particularmente sensíveis à estas características.   A pesquisa cita a obrigação legal da empresa Firmenich, uma das maiores produtoras de fragrâncias e aromas da Europa, de ter no contrato com seus clientes as informações de rastreabilidade dos dados(lotes, data de produção, data de despacho, entrega, regiões geográficas, clientes).
4.5)Segurança(la securization): Essa talvez seja a característica de dados que mais avançou nos últimos tempos e devemos isso aos hackers ou às quebras de segurança acontecidas. Na pesquisa mostra a sensibilidade da área de sistemas de Defesa da França com relação a dados “classificados”(classified-sentido de protegidos).
4.6)Completude(la exaustivité): Relacionado ao fato da empresa/processo/ ou do usuário de ter todas as informações requeridas e necessárias. A completude tem um ar de relatividade, na medida em que pode variar com o usuário específico. Por exemplo, um sistema de venda considerará que os dados de vendas estão completos, mesmo que falte os dados de pagamento da parcela do último mês. Já a área de cobrança considerará os dados incompletos, segundo o ponto de vista estabelecido pelo seu negócio.   

5)Porque a qualidade da informação é importante?
A  pesquisa apurou as motivações para se empreender o trabalho de GD e QD. Os fatores mais motivadores são:
ü  O custo da “não qualidade”  é sempre citado, pois torna-se um fator crítico no aspecto de competitividade. Os dados com falta de precisão podem causar problemas  potenciais de faturamento errado além de afetar a eficácia das ações de marketing
ü  A qualidade das informações está diretamente relacionada com a qualidade das relações da empresa com seus clientes e parceiros
ü  A qualidade de dados de fornecedores é fundamental para se estabelecer boas negociações

6)Fontes de não qualidade dos dados:
A  pesquisa apurou quais seriam , na visão daquelas empresas, as fontes geradoras de fatores de “não qualidade” dos dados. As disfunções organizacionais e os erros humanos apareceram como os elementos mais significativos, embora possam ser variados por entre as empresas.

7)O porquê das ações de QD:
A  pesquisa também mostra os fatores que levaram as empresas a empreender processos de qualidade de dados. Na ordem de maior incidência apareceram:
ü  Gestão de risco
ü  Relacionamento com os clientes
o   Uma das empresas que resolveu abrir seus dados de clientes a eles próprios, via uma extranet, entendeu que os dados deveriam ter qualidade para serem expostos
ü  Redução de custos
ü  BI-Business Intelligence, mostrando essa associação, já discutida no livro BI2
ü  Conformidade de regulações
ü  Otimização de receita
ü  Fusões e aquisições, como a citada pela empresa Lucent na incorporação da Alcatel, em 2007, que acabou dando origem ao grupo de qualidade da nova empresa

8)Fatores críticos de sucesso e melhores práticas:
ü  Preparação cuidadosa , pois envolve mobilização de boa parte da empresa e implica mudanças de cultura e de métodos de trabalho
ü  Padronização de dados e de processos ajuda na indução de conceitos de qualidade e facilita a implantação das ações de GD e QD
ü  Buscar a unicidade de dados
ü  Gerenciar com cuidado as permissões de acesso aos dados
ü  Circunscrever o foco e o escopo da aplicação de Qualidade de dados, evitando a abrangência perigosa de se querer fazer QD sobre tudo e não se fazer sobre nada. Isso se chama priorização sobre os dados críticos da empresa
ü  Medir os efeitos das práticas de QD, produzindo indicadores que mostrem as melhorias alcançadas. Aqui entra o conceito de MED, comum em processos de engenharia de software. Aqui o MED(definição, coleta, análise e comunicação) seria para a QD/GD, definindo indicadores que mostrem a incidência de erros nos domínios de dados, nos aspectos de regulação, nos aspectos de integração,etc
ü  Prover os recursos necessários, entendendo que um projeto dessa natureza tem custos significativos
ü  Estabelecer a empreitada como um projeto, cuidando de todos os aspectos que devem envolver uma iniciativa importante. Lembre-se da comunicação interna, mostrando as vantagens da iniciativa
ü  Entender que não há uma só receita de sucesso ou de fracasso para projetos dessa natureza. A empresa, em função de seu tamanho, cultura e recursos deverá pensar na forma de estruturação da qualidade de dados, observando aspectos de centralização/descentralização, motivações/restrições,etc
ü  Escolher cuidadosamente a estrutura que irá conduzir o projeto atentando para o fato que qualidade de dados está longe de ser um problema técnico. Pensar sempre no envolvimento  de áreas de negócios  

Continua no post seguinte

quarta-feira, 11 de julho de 2012

Governança de Dados-Parte VIII-c-Visão europeia sobre Governança de dados:continuação do post anterior (Visão europeia sobre GD e QD)


Visão Bonnet
Pierre Bonnet é um dos mais conhecidos ativistas da área de dados na França. Cofundador da empresa Orchestra , que produz o  software Orchestra Network, especializado em apoiar implantações de projetos MDM, Bonnet também é conhecido pela criação de comunidades abertas  para discussões sobre Arquiteturas sustentáveis de TI(http://www.sustainableitarchitecture.com/)  e da MDM Alliance Group (http://www.mdmalliancegroup.com/) . A estratégia de Pierre Bonnet é abordar os aspectos de Governança de Dados através do canal MDM, onde demonstra forte background e oferece um conjunto de ferramentas, encabeçadas pelo framework EBX5, como carro chefe. O seu livro Enterprise Data Governance(2010), editado pela Wiley tem como subtítulo “ Reference & Master Data Management  Semantic modeling. A comunidade MDM Alliance Group oferece de forma livre um conjunto de  processos e modelos semânticos semi-prontos para áreas de conhecimentos fundamentais das empresas (Location, Asset, Party, Party relationship,Party Role,Event,, Period, etc ), eliminando-se a tediosa prática de se inventar a roda nesse domínio de conhecimento.
Diferentemente das outras proposições discutidas, a de Bonnet aborda uma aproximação mais bottom-up, se comparada com as outras . Enquanto as outras escolas centram em ações top-down que envolvem Comitês de governança de dados, DMO, data stewardship, e data custodians,  a de Bonnet  foca na abordagem de resgate imediato dos dados do mundo relativamente descontrolado em que se encontram em grande parte das empresas. Ou seja, Bonnet começa atacando diretamente o problema inflamado dos dados, embora as outras proposições, anteriormente discutidas, não lhe sejam contraditórias. Simplesmente as duas vertentes começam por extremos opostos. A ideia de GD de Bonnet é centrada nesse resgate dos dados, através do uso de ferramentas centradas em três pilares fundamentais: modelos semânticos de dados, regras de negócios e processos.  Modelos semânticos, para quem não se lembra bem, são os modelos de dados/objetos sem traços de implementação, cheio de riquezas semânticas nas definições dos atributos e dos relacionamentos. Não contém, por exemplo, tabelas de junção, produzidas nas quebras de relacionamentos M x N e oferecem um grau de entendimento maior, principalmente para uma plateia de não informatas. Os dados mestres definidos via modelos semânticos seriam, em tese, mais ricos em detalhamento negocial e permitiriam a aplicação de um conjunto de funções de controles, que Bonnet chama de “governança”. Funções de controle de versões de dados, numa espécie de gerência de configuração aplicada aos dados, funções de autorização e acesso, definindo quem faz o quê sobre os dados; funções de tempo, controlando a variação dos dados ao longo do tempo(valores e significados de dados podem mudar com o passar dos anos) e gerência de contexto, com maiores informações sobre o contexto do dado e suas variadas visões e interpretações, dependente de quem os olha e consome. Lembrem-se que as empresa trabalham em diferentes países, com canais diferentes e regulações variadas e os dados não podem ser congelados e atrelados somente ao “environment” do momento em que o sistema foi concebido.
Na segunda camada aparecem as Regras de negócios, que são definições de cunho mais organizacional estabelecidas sobre dados e processos  e que lhes impõe certos níveis de controle. Colocadas numa camada separada, as regras de negócios podem ser aplicadas aos dados, evitando a sua codificação(hardcoded) direta em programas. Viram uma espécie de objeto também, podendo ser controlada pelos gestores de dados(data steward) e podem ser invocadas na camada de integração, como um serviço. São devidamente codificadas em linguagens próprias  e geridas num BRMS(Business Rule Management System). Por fim, na terceira camada, aparecem os processos, também integrantes da proposição de Bonnet. Essa camada ofereceria sistemas de BPM visando integrar os dados mestres aos seus processos de uso e atualização.
Com esse aparato, a empresa domaria o descontrole dos dados e conseguiria, segundo a proposta francesa, realizar uma GD com correção. A ideia é valida, mas não pode ser considerada isolada das outras ações já discutidas. Tem um viés mais tecnológico, permite um ataque direto aos dados, criando implementações imediatas, mas depende fundamentalmente de ferramentas para a quebra da cultura enraizada nos domínios de dados. Faz parte das soluções semelhantes, como Kalido e DataStar. A empresa, Orchestra, anunciou em julho/2012, um crescimento de 60% no segundo trimestre de 2012, comparado com o mesmo período do ano passado.