Visão de qualidade de dados: Pesquisa francesa sobre qualidade
de dados(qualitée des données), publicada pela PWC-Price Waterhouse Coopers,
Micropole e Electronic Business Group-Julho de 2011, disponível em www.pwc.fr/qualites-des-donnees.html, acessado em janeiro de 2012.
1)Objetivo:
A pesquisa da PWC teve como objetivo tirar uma fotografia sobre
os aspectos de qualidade de dados nas empresas da França. Foi desenvolvida em
conjunto com a Micropole e a EBG-Electronic Business Group. A Micropole é uma
empresa francesa especializada em consultoria na área de BI, CRM, ERP e
desenvolvimento Web. A empresa atua na França, Bélgica e Suíça, e tem cerca de
1300 colaboradores, com uma carteira de 800 clientes, sendo que 80% deles estão
na classificação CAC40, índice da Bolsa de Paris que define ranking de
empresas, de acordo com a sua solidez. A EBG-Electronic Business Group é uma
sociedade de empresas que agrupa interesses nos domínios da economia digital.
Tem entre os seus associados os pesos-pesados do mercado mundial e francês,
como Oracle, Microsoft, Lóreal, Nestlé, Renault, Fnac, Accor,etc.
2)Pesquisa:
A pesquisa sobre qualidade de dados foi realizada em 25
empresas, citadas ao final e não representa uma visão estatística formal, mas
sim uma captura qualitativa dos aspectos de governança e de qualidade de dados
nas empresas. Não apresenta rigor formal e sim uma coleção de percepções sobre
os temas GD(Governança de Dados) e
QD(Qualidade de Dados).
3)Estruturação conceitual:
O trabalho começa com uma definição formal que procura
diferenciar os conceitos de dados, informação e conhecimento . Na pesquisa
ficaram assim definidos:
ü Dados é algo factual, quantificado, medido, computado e armazenado;
ü Informação: é uma montagem de dados
segundo uma ontologia que define uma relação entre os elementos que a compõe. A
informação é um ente comunicado;
ü Conhecimento:é uma montagem de estruturas conceituais, feita pelo
cérebro humano e portanto mais subjetiva
e imperfeitamente representada pelas informações para poder ser comunicada.
O trabalho apresenta um ciclo de vida da informação, mostrando
a cadeia de produção do conhecimento através do dado na ponta de entrada.
A seguir o trabalho apresenta uma classificação de dados,
que foi expandida na figura abaixo, por este autor. A ideia é que os dados
devam ser vistos com uma ontologia que permita identifica-los nas suas
diferentes manifestações:
ü Conforme a origem: dados internos e
externos
ü Conforme a gênese e transformação: dados
primários e dados derivados
ü Conforme a sua forma : estruturados
e não estruturados
ü Conforme o seu entendimento: a
existência de metadados que permitam o seu entendimento
No cerne do esquema os dados podem ser separados segundo a
sua estabilidade: dados mestres e dados operacionais. Os dados mestres podem
ser entendidos com uma subdivisão que contempla os mestres puros e os dados
referenciais(esses voltados para codificação e padronização, como cep, códigos
de classificação de materiais,etc)
Os dados operacionais
podem ser divididos em : dados transacionais propriamente ditos e dados
históricos, esses retidos e imutáveis, além dos dados condicionais, cujo
conteúdo varia em função de alguma circunstância ou regra. Finalizando há os
dados temporários usados em otimização, performance, etc.
Essa classificação transcende à mostrada no trabalho e
engloba todos principais conceitos apresentados na pesquisa francesa.
No final do primeiro capítulo, a pesquisa mostra os números
do universo digital, com ênfase para os patamares a serem atingidos em 2020,
com valores em torno de 35 zetabytes, assunto já discutido nos posts anteriores
relacionados a Big Data.
4)Definição de Qualidade de dados:
A pesquisa apresentou seis(6) atributos entendidos pelas
empresas como elementos que definem a qualidade de dados. O termo em francês
será mantido para se entender a tradução livre feita por este autor:
4.1)Atualidade(fraicheur):diz respeito à característica do
dado de oferecer uma visão mais atual, naquele instante, acerca de um fato e
permitir uma tomada de decisão correta. Existem dois gaps importantes para serem
entendidos: a distância entre a coleta do dado e a sua análise e a distância
entre a sua comunicação (report) e a tomada de decisão. Em muitos casos, a
atualidade deve ser entendida como latência zero, ou seja os dados somente
servem em tempo real. É o caso de domínios de estudos quantitativos e análise
de mídia, como duas das empresas pesquisadas demonstraram: GfK e Kantar Media
4.2)Disponibilidade(disponibilité): se refere a dois conceitos analisados individualmente:
acessibilidade e pesquisabilidade(findability ou trouvabilité)
4.2.1)A acessibilidade(l´acessibilité) se refere aos aspectos de estruturação de
armazenamento de bases de dados, como o tempo de busca , fator crítico na
medida em que os volumes se tornam cada vez maiores e o tempo de acessibilidade
aumentará. A acessibilidade também depende de se saber onde está a informação e
para isso certas classificações ajudam no entendimento de sua localização. De
forma geral a acessibilidade deve ser apoiada por procedimentos e ferramentas,
como classificações, metadados e dicionários/glossários.
4.2.2)Pesquisabilidade(findability/trouvabilité) se refere
aos aspectos de facilidade em se chegar a informação, no sentido de tê-la no
momento de sua necessidade e se constitui num fator de produtividade. A ideia é
que por vezes, a informação pode estar acessível, porém dependente de ferramentas
mais complexas do que os usuários triviais conseguem pilotar. Com a chegada das
informações não estruturadas, essa dificuldade fica mais flagrante, pois a sua
busca pode implicar o uso de ferramental especializado(sistemas de
documentação, controle eletrônico de documentos, etc), nem sempre à mão dos
usuários.
4.3)Coerência(la cohérence):
significa a fidelidade de significado dos dados com relação aos fatos
por eles representados. Tem algo de correção, ou seja vista no sentido do dado
estar “correto”. Essa característica é marcante quando a empresa busca dados em
fontes externas(como cartórios, entidades públicas que fornecem dados de
endereços, códigos etc) . Também quando a empresa tem uma diversidade de
sistemas com redundância de dados(o caso mais comum) e há a necessidade de se buscar a
coerência interna, garantindo que os sistemas sejam, cada vez mais, integrados.
É a essência do MDM.
4.4)Rastreabilidade(la traçabilité): se relaciona com o
conhecimento da cadeia produtiva da informação, indo da sua concepção(coleta)
ao seu armazenamento final. Está sempre associado a um processo. É muito
importante nos aspectos de regulamentação e quando há envolvimento de aspectos de saúde,
segurança, etc. É o caso de associações de dados de produção(lotes) com regiões
ou clientes, permitindo o rastreamento de peças defeituosas, ou embalagens com
produtos contaminados, facilitando as ações de prevenção e resolução do
problema. Empresas de alimentos, remédios, peças de veículos, etc são particularmente
sensíveis à estas características. A pesquisa cita a obrigação legal da empresa
Firmenich, uma das maiores produtoras de fragrâncias e aromas da Europa, de ter
no contrato com seus clientes as informações de rastreabilidade dos
dados(lotes, data de produção, data de despacho, entrega, regiões geográficas,
clientes).
4.5)Segurança(la securization): Essa talvez seja a
característica de dados que mais avançou nos últimos tempos e devemos isso aos
hackers ou às quebras de segurança acontecidas. Na pesquisa mostra a
sensibilidade da área de sistemas de Defesa da França com relação a dados
“classificados”(classified-sentido de protegidos).
4.6)Completude(la exaustivité): Relacionado ao fato da
empresa/processo/ ou do usuário de ter todas as informações requeridas e
necessárias. A completude tem um ar de relatividade, na medida em que pode
variar com o usuário específico. Por exemplo, um sistema de venda considerará
que os dados de vendas estão completos, mesmo que falte os dados de pagamento
da parcela do último mês. Já a área de cobrança considerará os dados
incompletos, segundo o ponto de vista estabelecido pelo seu negócio.
5)Porque a qualidade da informação é
importante?
A pesquisa apurou as
motivações para se empreender o trabalho de GD e QD. Os fatores mais
motivadores são:
ü O custo da “não qualidade” é sempre citado, pois torna-se um fator
crítico no aspecto de competitividade. Os dados com falta de precisão podem causar
problemas potenciais de faturamento
errado além de afetar a eficácia das ações de marketing
ü A qualidade das informações está
diretamente relacionada com a qualidade das relações da empresa com seus
clientes e parceiros
ü A qualidade de dados de fornecedores
é fundamental para se estabelecer boas negociações
6)Fontes de não qualidade dos dados:
A pesquisa apurou
quais seriam , na visão daquelas empresas, as fontes geradoras de fatores de “não
qualidade” dos dados. As disfunções organizacionais e os erros humanos
apareceram como os elementos mais significativos, embora possam ser variados
por entre as empresas.
7)O porquê das ações de QD:
A pesquisa também
mostra os fatores que levaram as empresas a empreender processos de qualidade
de dados. Na ordem de maior incidência apareceram:
ü Gestão de risco
ü Relacionamento com os clientes
o
Uma
das empresas que resolveu abrir seus dados de clientes a eles próprios, via uma
extranet, entendeu que os dados deveriam ter qualidade para serem expostos
ü Redução de custos
ü BI-Business Intelligence, mostrando
essa associação, já discutida no livro BI2
ü Conformidade de regulações
ü Otimização de receita
ü Fusões e aquisições, como a citada
pela empresa Lucent na incorporação da Alcatel, em 2007, que acabou dando
origem ao grupo de qualidade da nova empresa
8)Fatores críticos de sucesso e
melhores práticas:
ü Preparação cuidadosa , pois envolve
mobilização de boa parte da empresa e implica mudanças de cultura e de métodos
de trabalho
ü Padronização de dados e de processos
ajuda na indução de conceitos de qualidade e facilita a implantação das ações
de GD e QD
ü Buscar a unicidade de dados
ü Gerenciar com cuidado as permissões
de acesso aos dados
ü Circunscrever o foco e o escopo da
aplicação de Qualidade de dados, evitando a abrangência perigosa de se querer
fazer QD sobre tudo e não se fazer sobre nada. Isso se chama priorização sobre
os dados críticos da empresa
ü Medir os efeitos das práticas de QD,
produzindo indicadores que mostrem as melhorias alcançadas. Aqui entra o
conceito de MED, comum em processos de engenharia de software. Aqui o
MED(definição, coleta, análise e comunicação) seria para a QD/GD, definindo indicadores
que mostrem a incidência de erros nos domínios de dados, nos aspectos de
regulação, nos aspectos de integração,etc
ü Prover os recursos necessários,
entendendo que um projeto dessa natureza tem custos significativos
ü Estabelecer a empreitada como um
projeto, cuidando de todos os aspectos que devem envolver uma iniciativa
importante. Lembre-se da comunicação interna, mostrando as vantagens da
iniciativa
ü Entender que não há uma só receita
de sucesso ou de fracasso para projetos dessa natureza. A empresa, em função de
seu tamanho, cultura e recursos deverá pensar na forma de estruturação da
qualidade de dados, observando aspectos de centralização/descentralização,
motivações/restrições,etc
ü Escolher cuidadosamente a estrutura
que irá conduzir o projeto atentando para o fato que qualidade de dados está
longe de ser um problema técnico. Pensar sempre no envolvimento de áreas de negócios
Continua no post seguinte
Essa série de artigos e posts sobre GD tem me ajudado muito.
ResponderExcluirObrigado
Oi Barbieri, tudo bem?
ResponderExcluirAinda temos um longo caminho para frente - mas chegaremos lá.:-)
Tem uma notícia na "TI Inside On Line" de 13/08/2012 ("Quase metade das companhias não se adaptou ao big data, revela pesquisa") sobre uma pesquisa da Universidade de Maryland em parceria com as empresas Mzinga e Teradata Aster (acho que você já viu), que poucos executivos dos EUA estão familiarizados com o "Big Data" e mais da metade ainda não sabe se investirão em soluções nesse conceito.
veja em: http://www.teradata.com/News-Releases/2012/Survey-Says-Companies-Need-Education-on-the-Value-of-Social-Media-and-Big-Data-Analytics/
Acredito que por ter saído esse tipo de notícias por aqui (no Brasil) indicam a importância desse tópico e, com os seus vastos conhecimentos sendo postados aqui, influenciarão as estratégias deste mundo complexo de TI.
Abraços,