A última categoria do DMM Qualidade de Dados tem também dois
grandes componentes, com 6 áreas de processos. O primeiro componente é FRAMEWORK
DE QUALIDADE DE DADOS e o segundo é
GARANTIA DA QUALIDADE DE DADOS, conforme a figura DMM-08, abaixo.
Figura DMM-08-
Qualidade de Dados
Esse componente trata do
assunto que , no fundo, é o objetivo final de tudo isso. A Qualidade dos dados
e as suas consequências e benefícios. A categoria tem dois componentes: Um
trata da estratégia a ser adotada, definida num framework e o outro trata da
Garantia da Qualidade de Dados. Simplificadamente uma forma de planejar e a
outra de aplicar. O framework de Qualidade de dados inicia com um processo chamado Desenvolvimento
da Estratégia de Qualidade de dados(32) Esse processo visa definir
os planos de ação para a melhoria do estado corrente de Qualidade dos dados(QD)
para atingir os objetivos da organização. Deve ser uma estratégia de QD definida baseada na análise do estado corrente de qualidade de
dados comparado com os requisitos de qualidade necessários para alcançar os objetivos de negócios e planos estratégicos. Ela deverá
estar alinhada com os objetivos gerais
de GD e ligados com os requisitos de negócios. O objetivo central é criar uma
cultura compartilhada de QD começando com a gerência executiva e integrada ao longo das operações da empresa. A fim de
realizar isso, a empresa deve concordar com um perfil consistente de QD que
possa ser medido ao longo de múltiplas unidades de negócios e aplicações. Isso
permitirá aos patrocinadores de negócios, usuários de dados, apoio de infra e
gerência sênior se ligarem aos processos
de gerência de QD para quantificar valores(ROI, etc) e alinhar com objetivos
como risco computacional, transparência, melhores análises, automação de
processo de negócios, serviços de clientes, capacidade de aderência e perdas de
oportunidades.
A seguir vem Medição
e Análise da Qualidade de Dados(33) que objetiva definir as atividades para medir qualidade de dados através do seu
ciclo de vida, incluindo a criação de objetivos das medidas, bem como o
mecanismo de obter, armazenar, analisar, abstrair, agregar, reportar,
interpretar e iniciar ações de correção , caso apropriado. Deve-se definir um
processo de medição de qualidade de
dados associado com a implementação de um sistema para gerenciar as ações
corretivas. As medidas produzem um meio de feedback estruturado para os
stakeholders e ajudam a sinalizar pontos
a serem observados e gerenciados e mantem a GD alinhada com os objetivos de
negócios. Medições e análise incorporam análise das necessidades de clientes; o
projeto, desenvolvimento, modificação e execução das regras de negócios; implementam mecanismos de revisão de
custo/benefício; e priorizam iniciativas de melhorias em QD baseadas em
critérios de ROI da empresa. A medição de QD pode ser extremamente útil quando
apresentada como “scorecards” para stakeholders, ajudando a sua compreensão e
interpretação. Quando projetando o programa de medições de QD é importante focar em: o processo que
dispara a necessidade das medições ;
como ações corretivas são
integradas ao processo de GD; a revisão de governança de medidas para garantir
que elas permanecem relevantes aos objetivos de negócios e ênfase de medições nos pontos mais críticos
dos processos de negócios. No fundo esse processo está associado com o processo
de apoio de medições do CMMI(MA) e do MPS.BR(MED) e com o processo Medições(11)
do DMM e deve, objetivamente, desenvolver um conjunto de métricas de QD para
satisfazer os requisitos de negócios.
Dentro do componente de
Garantia da Qualidade de dados há o processo de Data Profiling(34)
que visa definir um processo de identificação do real estado e
significado e da estrutura dos dados correntes. É um dos primeiros
passos associados com as boas práticas de GD. É um processo crítico e ainda muito negligenciado . Muitas
organizações fazem o “profiling” de seus dados quando estão implementando um
DW, carregando repositórios de
metadados, realizando uma migração operacional, planejando integração ou
qualquer outro ponto quando os “data stores” são significativamente
modificados. É um dos ingredientes chaves para uma abordagem de GD com sucesso.
O processo de “profiling” de dados é
visto como um conjunto de esforços de descoberta “do que” está armazenado nos
BD e como os valores podem diferir
daqueles listados em repositórios de metadados(de suas definições). Profiling
normalmente examina as áreas como valores de dados, range de valores de dados, distribuição de frequência,
falta de coerência com o metadados, algumas estatísticas, formatos não padrão
de registros, etc . Muitas estratégias de convencimento de GD começam
justamente por aqui, apontando os riscos de “data flaws” encontrados nos seus
arquivos fundamentais.
A seguir vem o processo de Avaliação
de Qualidade de Dados(35), que objetiva Realizar a avaliação de QD
envolve a combinação de metodologias, processos, e regras de negócios usadas
nas medições e análise de QD. A avaliação de
QD conduz a um plano de melhoria
formal de QD para alcançar expectativas de qualidade e é necessário para apoiar
processos de negócios. O objetivo da avaliação de QD é medir a QD e priorizar
melhorias(se necessárias). O output da avaliação será no formato de
“scorecard” que poderá ser usado para
avaliar iniciativas de melhorias de QD e
garantir que estão alinhadas com as tolerâncias de riscos, limites de exposição,
obrigações de stakeholders e objetivos
de negócios da organização. Sinteticamente objetiva: Estabelecer e sustentar um
plano de melhoria de QD baseado em “scorecard” de QD e desenvolver, refinar e
usar as métricas de QD em alinhamento com os objetivos de negócios da empresa e
expectativas de efetividade.
A seguir vem Qualidade
de dados de integração(36) que objetiva garantir que os dados tem
padrão de qualidade ao longo do seu ciclo de vida de tal forma que podem ser
integrados em “data stores” operacionais
e atendem aos requisitos de usuários de negócios. De novo manifesta
preocupação com o fator “integração”. Foca na gerência da QD(incluindo a
identificação de conteúdo faltante, processos de enriquecimento de dados,
validação contra padrões internos) para prevenir erros antes que os dados sejam
propagados através de ambientes de produção. Atividades associadas com QD na
integração cobrem o estabelecimento de padrões de QD com fornecedores, uso de
aparato estatístico, estabelecimento de limiares e faixas de tolerância para vários uso de dados
em coordenação com data owners/data stewards e a criação de mecanismos de
comunicação bidirecional com fornecedores. Essa atividade também cobre todos os
passos que devem ser tomados para qualquer correção de erros de dados que sejam
descobertos. Procura estabelecer gerência consistente de qualidade no ponto de
entrada dos dados e também em múltiplos pontos de “checkagem”; estabelecer ,
avaliar e refinar padrões de QD para fontes internas e externas de dados; gerenciar pontos de
inserção de erros como conversão,
transformação e processos de enriquecimento de dados de forma que os dados estejam em condições satisfatórias antes de
entrar no ambiente operacional.
Finalmente vem o processo de Limpeza
de dados(37) que visa definir mecanismo, regras e processos usados
para validar dados contra conjunto predefinido de regras de negócios e corrigir
dados imprecisos. O processo de limpeza de dados foca na correção de dados para
atender aos requisitos de usuários finais , como medido pelas regras de
negócios de QD contemplando várias dimensões de qualidade(precisão, completude,
consistência, timeliness(disponibilidade),conformidade,etc). As regras de
negócios são críticas na medida em que provêem um mecanismo padrão para
identificar anomalias que podem ser ligadas a processos operacionais. A limpeza
de dados deve ser realizada no ponto mais próximo da captura dos dados e deve
ser precedida por um profiling de dados, avaliação de regras de negócios e
análise de conformidade. Deve haver uma estratégia clara definida (com owners)
para limpeza de dados para garantir que
as regras de limpeza sejam conhecidas e para evitar processos de limpeza
duplicados em múltiplos pontos do ciclo de gerência da informação. O objetivo
geral é limpar os dados no ponto de captura baseado em regras de negócios documentadas
e verificadas. As correções de dados devem ser comunicadas para( e alinhadas
com) todos os repositórios “downstream”(impactados na sequência do fluxo) e
sistemas “upstream”(de onde se originaram os dados). É importante ter um
processo consistente e documentado para escalonamento de “issues” e verificação
de alterações para provedores
(originadores) internos e vendedores
externos de dados .