Total de visualizações de página

domingo, 29 de julho de 2012

Governança de Dados-Parte VIII-d-Visão europeia sobre Governança de dados:continuação do post anterior



Visão de qualidade de dados: Pesquisa francesa sobre qualidade de dados(qualitée des données), publicada pela PWC-Price Waterhouse Coopers, Micropole e Electronic Business Group-Julho de 2011, disponível em www.pwc.fr/qualites-des-donnees.html, acessado em janeiro de 2012.

1)Objetivo:
A pesquisa da PWC teve como objetivo tirar uma fotografia sobre os aspectos de qualidade de dados nas empresas da França. Foi desenvolvida em conjunto com a Micropole e a EBG-Electronic Business Group. A Micropole é uma empresa francesa especializada em consultoria na área de BI, CRM, ERP e desenvolvimento Web. A empresa atua na França, Bélgica e Suíça, e tem cerca de 1300 colaboradores, com uma carteira de 800 clientes, sendo que 80% deles estão na classificação CAC40, índice da Bolsa de Paris que define ranking de empresas, de acordo com a sua solidez. A EBG-Electronic Business Group é uma sociedade de empresas que agrupa interesses nos domínios da economia digital. Tem entre os seus associados os pesos-pesados do mercado mundial e francês, como Oracle, Microsoft, Lóreal, Nestlé, Renault, Fnac, Accor,etc.

2)Pesquisa:
A pesquisa sobre qualidade de dados foi realizada em 25 empresas, citadas ao final e não representa uma visão estatística formal, mas sim uma captura qualitativa dos aspectos de governança e de qualidade de dados nas empresas. Não apresenta rigor formal e sim uma coleção de percepções sobre os temas GD(Governança de Dados)  e QD(Qualidade de Dados).

3)Estruturação conceitual:
O trabalho começa com uma definição formal que procura diferenciar os conceitos de dados, informação e conhecimento . Na pesquisa ficaram assim definidos:
ü  Dados é  algo factual,  quantificado, medido, computado e armazenado;
ü  Informação: é uma montagem de dados segundo uma ontologia que define uma relação entre os elementos que a compõe. A informação é um ente comunicado;
ü  Conhecimento:é uma  montagem de estruturas conceituais, feita pelo cérebro humano  e portanto mais subjetiva e imperfeitamente representada pelas informações para poder ser comunicada.
O trabalho apresenta um ciclo de vida da informação, mostrando a cadeia de produção do conhecimento através do dado na ponta de entrada.
A seguir o trabalho apresenta uma classificação de dados, que foi expandida na figura abaixo, por este autor. A ideia é que os dados devam ser vistos com uma ontologia que permita identifica-los nas suas diferentes manifestações:
ü  Conforme a origem: dados internos e externos
ü  Conforme a gênese e transformação: dados primários e dados derivados
ü  Conforme a sua forma : estruturados e não estruturados
ü  Conforme o seu entendimento: a existência de metadados que permitam o seu entendimento
No cerne do esquema os dados podem ser separados segundo a sua estabilidade: dados mestres e dados operacionais. Os dados mestres podem ser entendidos com uma subdivisão que contempla os mestres puros e os dados referenciais(esses voltados para codificação e padronização, como cep, códigos de classificação de materiais,etc)
Os dados operacionais  podem ser divididos em : dados transacionais propriamente ditos e dados históricos, esses retidos e imutáveis, além dos dados condicionais, cujo conteúdo varia em função de alguma circunstância ou regra. Finalizando há os dados temporários usados em otimização, performance, etc.
Essa classificação transcende à mostrada no trabalho e engloba todos principais conceitos apresentados na pesquisa francesa.
No final do primeiro capítulo, a pesquisa mostra os números do universo digital, com ênfase para os patamares a serem atingidos em 2020, com valores em torno de 35 zetabytes, assunto já discutido nos posts anteriores relacionados a Big Data.   

4)Definição de Qualidade de dados:
A pesquisa apresentou seis(6) atributos entendidos pelas empresas como elementos que definem a qualidade de dados. O termo em francês será mantido para se entender a tradução livre feita por este autor:
4.1)Atualidade(fraicheur):diz respeito à característica do dado de oferecer uma visão mais atual, naquele instante, acerca de um fato e permitir uma tomada de decisão correta. Existem dois gaps importantes para serem entendidos: a distância entre a coleta do dado e a sua análise e a distância entre a sua comunicação (report) e a tomada de decisão. Em muitos casos, a atualidade deve ser entendida como latência zero, ou seja os dados somente servem em tempo real. É o caso de domínios de estudos quantitativos e análise de mídia, como duas das empresas pesquisadas demonstraram: GfK e Kantar Media
4.2)Disponibilidade(disponibilité): se refere  a dois conceitos analisados individualmente: acessibilidade e pesquisabilidade(findability ou trouvabilité)
4.2.1)A acessibilidade(l´acessibilité)  se refere aos aspectos de estruturação de armazenamento de bases de dados, como o tempo de busca , fator crítico na medida em que os volumes se tornam cada vez maiores e o tempo de acessibilidade aumentará. A acessibilidade também depende de se saber onde está a informação e para isso certas classificações ajudam no entendimento de sua localização. De forma geral a acessibilidade deve ser apoiada por procedimentos e ferramentas, como classificações, metadados e dicionários/glossários.
4.2.2)Pesquisabilidade(findability/trouvabilité) se refere aos aspectos de facilidade em se chegar a informação, no sentido de tê-la no momento de sua necessidade e se constitui num fator de produtividade. A ideia é que por vezes, a informação pode estar acessível, porém dependente de ferramentas mais complexas do que os usuários triviais conseguem pilotar. Com a chegada das informações não estruturadas, essa dificuldade fica mais flagrante, pois a sua busca pode implicar o uso de ferramental especializado(sistemas de documentação, controle eletrônico de documentos, etc), nem sempre à mão dos usuários.
4.3)Coerência(la cohérence):  significa a fidelidade de significado dos dados com relação aos fatos por eles representados. Tem algo de correção, ou seja vista no sentido do dado estar “correto”. Essa característica é marcante quando a empresa busca dados em fontes externas(como cartórios, entidades públicas que fornecem dados de endereços, códigos etc) . Também quando a empresa tem uma diversidade de sistemas com redundância de dados(o caso  mais comum) e há a necessidade de se buscar a coerência interna, garantindo que os sistemas sejam, cada vez mais, integrados. É a essência do MDM.
4.4)Rastreabilidade(la traçabilité): se relaciona com o conhecimento da cadeia produtiva da informação, indo da sua concepção(coleta) ao seu armazenamento final. Está sempre associado a um processo. É muito importante nos aspectos de regulamentação  e quando há envolvimento de aspectos de saúde, segurança, etc. É o caso de associações de dados de produção(lotes) com regiões ou clientes, permitindo o rastreamento de peças defeituosas, ou embalagens com produtos contaminados, facilitando as ações de prevenção e resolução do problema. Empresas de alimentos, remédios, peças de veículos, etc são particularmente sensíveis à estas características.   A pesquisa cita a obrigação legal da empresa Firmenich, uma das maiores produtoras de fragrâncias e aromas da Europa, de ter no contrato com seus clientes as informações de rastreabilidade dos dados(lotes, data de produção, data de despacho, entrega, regiões geográficas, clientes).
4.5)Segurança(la securization): Essa talvez seja a característica de dados que mais avançou nos últimos tempos e devemos isso aos hackers ou às quebras de segurança acontecidas. Na pesquisa mostra a sensibilidade da área de sistemas de Defesa da França com relação a dados “classificados”(classified-sentido de protegidos).
4.6)Completude(la exaustivité): Relacionado ao fato da empresa/processo/ ou do usuário de ter todas as informações requeridas e necessárias. A completude tem um ar de relatividade, na medida em que pode variar com o usuário específico. Por exemplo, um sistema de venda considerará que os dados de vendas estão completos, mesmo que falte os dados de pagamento da parcela do último mês. Já a área de cobrança considerará os dados incompletos, segundo o ponto de vista estabelecido pelo seu negócio.   

5)Porque a qualidade da informação é importante?
A  pesquisa apurou as motivações para se empreender o trabalho de GD e QD. Os fatores mais motivadores são:
ü  O custo da “não qualidade”  é sempre citado, pois torna-se um fator crítico no aspecto de competitividade. Os dados com falta de precisão podem causar problemas  potenciais de faturamento errado além de afetar a eficácia das ações de marketing
ü  A qualidade das informações está diretamente relacionada com a qualidade das relações da empresa com seus clientes e parceiros
ü  A qualidade de dados de fornecedores é fundamental para se estabelecer boas negociações

6)Fontes de não qualidade dos dados:
A  pesquisa apurou quais seriam , na visão daquelas empresas, as fontes geradoras de fatores de “não qualidade” dos dados. As disfunções organizacionais e os erros humanos apareceram como os elementos mais significativos, embora possam ser variados por entre as empresas.

7)O porquê das ações de QD:
A  pesquisa também mostra os fatores que levaram as empresas a empreender processos de qualidade de dados. Na ordem de maior incidência apareceram:
ü  Gestão de risco
ü  Relacionamento com os clientes
o   Uma das empresas que resolveu abrir seus dados de clientes a eles próprios, via uma extranet, entendeu que os dados deveriam ter qualidade para serem expostos
ü  Redução de custos
ü  BI-Business Intelligence, mostrando essa associação, já discutida no livro BI2
ü  Conformidade de regulações
ü  Otimização de receita
ü  Fusões e aquisições, como a citada pela empresa Lucent na incorporação da Alcatel, em 2007, que acabou dando origem ao grupo de qualidade da nova empresa

8)Fatores críticos de sucesso e melhores práticas:
ü  Preparação cuidadosa , pois envolve mobilização de boa parte da empresa e implica mudanças de cultura e de métodos de trabalho
ü  Padronização de dados e de processos ajuda na indução de conceitos de qualidade e facilita a implantação das ações de GD e QD
ü  Buscar a unicidade de dados
ü  Gerenciar com cuidado as permissões de acesso aos dados
ü  Circunscrever o foco e o escopo da aplicação de Qualidade de dados, evitando a abrangência perigosa de se querer fazer QD sobre tudo e não se fazer sobre nada. Isso se chama priorização sobre os dados críticos da empresa
ü  Medir os efeitos das práticas de QD, produzindo indicadores que mostrem as melhorias alcançadas. Aqui entra o conceito de MED, comum em processos de engenharia de software. Aqui o MED(definição, coleta, análise e comunicação) seria para a QD/GD, definindo indicadores que mostrem a incidência de erros nos domínios de dados, nos aspectos de regulação, nos aspectos de integração,etc
ü  Prover os recursos necessários, entendendo que um projeto dessa natureza tem custos significativos
ü  Estabelecer a empreitada como um projeto, cuidando de todos os aspectos que devem envolver uma iniciativa importante. Lembre-se da comunicação interna, mostrando as vantagens da iniciativa
ü  Entender que não há uma só receita de sucesso ou de fracasso para projetos dessa natureza. A empresa, em função de seu tamanho, cultura e recursos deverá pensar na forma de estruturação da qualidade de dados, observando aspectos de centralização/descentralização, motivações/restrições,etc
ü  Escolher cuidadosamente a estrutura que irá conduzir o projeto atentando para o fato que qualidade de dados está longe de ser um problema técnico. Pensar sempre no envolvimento  de áreas de negócios  

Continua no post seguinte

2 comentários:

  1. Essa série de artigos e posts sobre GD tem me ajudado muito.
    Obrigado

    ResponderExcluir
  2. Oi Barbieri, tudo bem?

    Ainda temos um longo caminho para frente - mas chegaremos lá.:-)

    Tem uma notícia na "TI Inside On Line" de 13/08/2012 ("Quase metade das companhias não se adaptou ao big data, revela pesquisa") sobre uma pesquisa da Universidade de Maryland em parceria com as empresas Mzinga e Teradata Aster (acho que você já viu), que poucos executivos dos EUA estão familiarizados com o "Big Data" e mais da metade ainda não sabe se investirão em soluções nesse conceito.

    veja em: http://www.teradata.com/News-Releases/2012/Survey-Says-Companies-Need-Education-on-the-Value-of-Social-Media-and-Big-Data-Analytics/

    Acredito que por ter saído esse tipo de notícias por aqui (no Brasil) indicam a importância desse tópico e, com os seus vastos conhecimentos sendo postados aqui, influenciarão as estratégias deste mundo complexo de TI.

    Abraços,

    ResponderExcluir