Total de visualizações de página

domingo, 22 de outubro de 2017

Governança/Gestão e a ética em dados


Introdução:

A Governança de dados, deverá estender os seus corpos de conhecimento em direção a ética no uso de dados. O próprio DMBoK®V2, conforme já discutido aqui neste mesmo espaço, já dedica uma forte e espessa consideração sobre esse novo tema. Na realidade, a ética de dados já tem desdobramentos quando a Gestão e Governança de dados são convocadas para a interação com aspectos de Segurança(um dos corpos de conhecimento do DMBoK®V2). A chegada do GDPR-General Data Protection Regulation, da União Européia, a vigorar a partir de Maio de 2018, já está produzindo, nas empresas mais atentas, essa aproximação entre Segurança e Gestão de dados, com  o encaixe de processos de GD nos já existentes mecanismos do DPO/DSO(Data Privacy ou Data Security) Officer. Dessa forma, além dos aspectos de Arquitetura, Modelagem , Operação de dados, seguido de DW/BI, Dados Mestres e referenciais, Metadados e Qualidade de dados, os conceitos de ética nos dados deverão fazer parte dos Princípios e Políticas de dados das empresas. A chegada de Big Data, IoT e Ciência de dados, claro, vai potencializar essa necessidade, na medida em que teremos um volume maior, mais variado e mais difuso de dados de clientes, empregados, etc. Só que agora, com decisões passíveis de serem produzidas por algoritmos frios de “machine learning”,  e consequentemente com possibilidades de resultados que poderão implicar em embaraços, desconfortos ou prejuízos para pessoas. Recentemente fiz um curso EAD na Universidade de Michigan, com o título “Ethics on Data Science” que veio somar às minhas percepções quando mergulhei no DMBoK®V2 e vi esses conceitos ganharem destaque. Nesse conjunto de artigos, falaremos com mais detalhe sobre esses pontos.

O que é Ética?

A definição de ética é até relativamente simples. Ética é aquele conjunto informal (no sentido de que não está oficialmente escrita) de regras, que nos leva a discernir entre o certo e o errado, fronteira, por vezes não tão claramente definida. Por exemplo, a ética nos faz entregar no setor de  Achados&Perdidos  um celular encontrado no Shopping, ou uma carteira cheia de dinheiro e documentos achado na poltrona do cinema. A Ética difere de legislação, pois esta tem um certo ordenamento jurídico, definido, controlado e aplicado. A ética difere também de religião, onde prevalecem credos e crenças, que aliás, junto com a legislação, ajudam na lapidação dos preceitos éticos. Essas fronteiras da ética não são claramente definidas e percebidas, podendo variar com fatores de educação, criação, exemplos, cultura, etc. Por exemplo: Furar a fila do cinema é uma atitude antiética, mas não necessariamente ilegal(não acho que haja uma lei que proíba furar fila!!). Por outro lado, se você socorrer alguém, à beira da morte, num terrível acidente de trânsito, com impossibilidade de assistência médica imediata e decidir levá-lo a um hospital perto, seguindo na contramão(por impossibilidades variadas no contexto), você estará sendo ético mas tendo uma atitude ilegal (transitar na contramão). Por isso, essas fronteiras se complicam quando chegamos aos dados.  No ambiente organizacional, com os dados em crescimento e os sistemas de IA(Inteligência artificial) sendo desenvolvidos, muitos dos conceitos de ética deverão ser considerados, avaliados e definidos. Por exemplo :

1-É ético a NetFlix saber dos nossos movimentos na sala de TV (Mensagem-Tem alguém assistindo ai?), além de conhecer, pelos nossos dados acumulados, todas as nossas preferências de séries, filmes, etc?. Saber qual o capítulo que foi o desmotivador ou o gancho que te prendeu àquela série? Ter mapeado o seu perfil de gosto, compra, hábitos de assistir,etc? Pelo lado positivo, sugerem títulos mais prováveis para os cinéfilos.
2-É ético os Leitores inteligentes de energia(smart meters) terem os dados que poderão ser usados para inferir sobre a hora em que dormimos, tomamos banho, quando viajamos, ou o consumo de nossos utensílios domésticos? Os de fornecimento de água, terem ideia sobre o momento em damos um  “flush no “toilet” ?. Pelo lado positivo, vem a percepção de possíveis vazamentos, pelo excesso de consumo detectado.
3-É ético o FB conhecer todas as nossas informações de relacionamento na rede social e escolher os “feeds” mais adequados que chegam na nossa linha de tempo? Pelo lado positivo, receberemos teoricamente coisas mais do nosso agrado.
4-É ético os grandes data-brokers, ou agências de crédito, como Serasa-Experian, BV Serviços, Acxiom, Equifax, etc terem informações sobre cada um de nós, dos nossos movimentos de pagamento, inadimplência, créditos, etc e venderem para uma empresa que está avaliando a nossa admissão no novo emprego? Pelo lado positivo, você, como empregador, terá milhares de pontos de dados(nome que eles empregam) acerca de pessoas que você analisa para trabalhar com você.
5-É ético que posts “mal colocados” por você no FB, Twitter,etc, possam ser elementos de avaliação de sua conduta?
6-É ético que os nossos dados de busca no Google sejam mantidos e tratados cuidadosamente, possibilitando revelações sobre doenças, posições políticas e opções pessoais de cada um? Pelo lado positivo, não pagamos nada para acessar a maior enciclopédia já desenvolvida.


7-É ético as operadoras de telefonia terem a completa trilha do seu celular ao longo do dia, na medida em os aparelhos fazem um “ping” com as torres, e poderem saber por onde você anda, a que horas você vai e volta do trabalho, ou até as incursões noturnas em nome do futebol com os amigos?

O tema é controverso e há algumas referências muito boas sobre esses aspectos de privacidade ( não foram escritas agora !)  que, no fundo, nos levam à reflexão sobre a ética dos dados. Já li os dois e recomendo:

a)No Place to hide-Robert O ´Harrow Jr, de 2005
b)Delete-The virtue of forgetting in the digital age-Viktor Mayers-Schonberger-2009


Assim, a ética deverá ser elemento avaliado no contexto de dados da empresa, e a GD deverá estar presente. O Gartner Group aponta que 50% dos problemas relacionados com ética de negócios, serão originados do uso impróprio/inadequado dos dados. Portanto, a GD(Governança e Gestão de dados) terá alguns de seus pilares modificados, quando chegarem(como já estão chegando) os conceitos de Big Data, IoT e Ciência de dados. Depois dos arquitetos de dados, gestores de dados, projetistas de dados, modeladores de dados, custodiadores de dados, poderemos ter os psicólogos ou psiquiatras orientando sobre o uso de dados.. Fiquem atento... 

quinta-feira, 5 de outubro de 2017

Curso de Governança e Gestão de Dados na Prática-Fumsoft&Assespro


Curso: Governança e Gestão de Dados, na prática, Promoção Fumsoft-Assespro, com Carlos Barbieri . Presença de importantes organizações interessadas em como gerir e governar corretamente os dados, na nova fase da sociedade digital(Normal data, Big data e IoT). Presença da Prodabel, Prefeitura de BH, Unimed, A3Data, ATS-Informática, Hekima,Accelor, Cemig, Axxiom, SystemDabase e do consultor João Primo Righi .

Algumas fotos:







quarta-feira, 4 de outubro de 2017

Visão comparativa e comentada do DAMA-DMBOK®V2-Parte III-final

Vamos começar repetindo o modelo DMBoK®V2-Evoluído


Figura 01-Diagrama DAMA-DMBoK® V2 Evoluído, adaptado pelo autor. Fonte: DAMA-DMBoK® V2

Observe que:
Com as 11 Áreas de Conhecimento, detalhadas em Introdução(Drivers de negócios, objetivos& princípios e conceitos essenciais); Atividades; Ferramentas, Técnicas, Guias de implementação, relacionamento com a Governança de dados e Métricas, o novo framework preenche lacunas importantes que existiam na versão 1. Além disso, a adição dos novos conceitos, a serem discutidos separadamente, trouxe uma modernidade impar ao seu Corpo de Conhecimento. Por exemplo:

Ética(Princípios&Ética): Os aspectos de Ética em tratamento de dados, expandidos em um capítulo separado(era tratado de forma mais discreta no DMBOK1), é um dos grandes pontos do DAMA-DMBoK®V2. Hoje, em função da criticidade de aspectos de Privacidade, Segurança e Regulação(Compliance) e em função do crescimento de informações na Sociedade Digital, tornou-se fundamental de ser abordado com maior profundidade, como feito nesta nova versão. Por exemplo, os conceitos de GDPR-General Data Protection Regulation, da União Europeia estão amplamente discutidos no DAMA-DMBOK2 e são hoje um tema de vital importância no domínio da Ética de dados, no sentido da preservação dos direitos à segurança e privacidade. A importância da discussão dos aspectos de ética de dados cresce rapidamente na sociedade digital. Por exemplo, recentemente (setembro de 2017) a Universidade de Stanford publicou um trabalho, divulgado por toda a imprensa mundial, sobre um método de reconhecimento facial, usando IA, que tem 81% de precisão na definição de “gays”. O uso do Watson da IBM no apoio de diagnóstico de câncer também nos leva a um patamar de conceitos éticos, na medida em que os diagnósticos, feitos por mecanismos de inferência, como redes neurais,etc, podem sugerir certos resultados não garantidos, ensejando novos conceitos (como ética) aplicados aos dados. Esse e outros aspectos sobre ética no uso dos dados deverão, gradativamente, elevar a importância de se usar os dados com sensibilidade e visões que respeitem as pessoas, princípios e escolhas. Isso abrirá um novo espaço para a Governança e Gestão de dados passarem a observar os dados com novo olhar. Por exemplo, com o crescente uso de AI com algoritmos focados em Machine Learning(ML), a GD já começa a se posicionar. Esses algoritmos, alguns em forma de caixa preta, deverão merecer a observação da GD na medida em que as decisões tomadas, os resultados obtidos ou as opções escolhidas não são necessariamente reveladas pelos algoritmos de ML. Formados pelo refinamento sucessivo dos modelos, através de variadas simulações, torna-se um desafio da GD entender quais foram os caminhos de decisões tomados para se chegar naquela inferência. Talvez ai esteja surgindo novos processos de GD, como QA(Quality Assurance) de resultado de dados inferenciais. Considerando que podemos entender o ecossistema de ML como composto de 3 camadas vitais: dados , modelos e decisões tomadas, a GD deverá estender seu olhar em direção aos outros dois(modelos e resultados), já que os dados sempre estarão sob a sua capa. Mesmo assim , os dados e metadados deverão ser bem conhecidos, com seu grau de qualidade definido, e suas possíveis tendências e distorções de conteúdo conhecidos. Os modelos, embutidos em algoritmos caixa-pretas, por sua vez, exigirão conhecimento dos coeficientes de calibração das variáveis que conduziram ao resultado inferencial. Por vezes, os algoritmos serão desvendados através dos registros parciais de seus caminhos escolhidos até a conclusão final. Para cada decisão intermediaria, teremos o mapeamento do seu racional, numa espécie de log interno dos seus -ifs- e -elses-.    
Veja no link a reportagem sobre inferência de “gêneros” por análise de imagens: goo.gl/871sR9 . ou no goo.gl/EnW1hi.      Copy short URL
Governança de Dados: A função de Governança de dados, além de já ser uma AC separada, também foi colocada dentro de cada Área de Conhecimento, com olhar específico de controle sobre aquela gerência específica, facilitando a implementação da GD. Isso enriquece cada Área de Conhecimento, já sugerindo pontos que a Governança(como Legislativo e Judiciário dos dados) tem que observar. Por exemplo, dentro da nova AC DII-Integração e Interoperabilidade de dados, a Governança de dados deverá estender sua visão para acordos de compartilhamento de dados, Linhagem de dados e métricas de integração de dados.

Gerência de Mudanças: Aspectos de Gerência de mudança organizacional também são discutidos em um capítulo separado e mencionados em algumas AC(Áreas de Conhecimento), como em Governança de dados, quando há a necessidade de se perceber qual a propensão da empresa para mudanças organizacionais e culturais, fatores preponderantes no sucesso de GD. Os cuidados que se deve ter com a introdução de GD, quebrando fatores cristalizados como “proprietarismo dos dados” é de suma importância e um dos grandes FCS-Fatores críticos de sucesso da empreitada.
Uma recente pesquisa feita pela FSFP-First San Francisco Partners (State fo Data Governance Survey-Agosto de 2017) , agora em setembro de 2017, sobre a situação de Governança de dados nas empresas americanas, mostra alguns pontos interessantes acerca destes aspectos de mudanças:
a)Sobre a função de GD ser praticada de forma dedicada da empresa: 70% responderam que sim e 27,08 responderam que não(funciona só parcialmente).
b)Sobre os maiores obstáculos para o estabelecimento da estratégia de GD: Quase 40% disseram que é  a falta de recursos(staff,TI,etc) vindo com 20,83% a dificuldade  de se comprovar o valor(business case) e 18,75 dizendo que GD não é considerada importante. 
Também os aspectos acerca das variadas estruturas organizacionais para GD( Centralizada, Descentralizada, Híbrida e Federada), se valem de aspectos culturais, além de geográficos e negociais e estão relacionados com mudanças.

Novos capítulos:
Novos temas que eram incipientes no momento de criação do DMBOK1 foram incorporados. Exemplo:

Big Data&Ciência de dados: Esses conceitos, que em 2009 existiam em outra proporção e com denominações diferentes (Big Data era representado por VLDB-Very Large Data Bases, unicamente com dados estruturados) e Ciência de Dados era representada por tratamentos estatísticos computacionais, agora ganham profundidade dentro do DAMA-DMBoK®V2, tornando-o atualíssimo no atual ecossistema de dados.

Maturidade: O conceito de  Avaliação de Maturidade, que em 2009 já era forte em processos, como CMMI e MPS.BR(no Brasil), mas incipientes em dados, mereceu um capítulo à parte. Havia naquele momento(2009), algumas proposições de Avaliação de Maturidade de dados, sugeridas mais por empresas de tecnologia/consultoria, como IBM, Gartner,etc, mas o assunto somente ganhou corpo(no domínio de dados) a partir da chegada do DMM-Data Management Maturity Model, em 2014, lançado pelo CMMI Institute, hoje pertencente ao ISACA, forte em Cobit, ITIL e Governança de TI. O DMM e o Cobit 5 hoje já oferecem uma espécie de ferramenta (Cobit5/DMM Practices Pathway Tool) que permite mapear os resultados de seus componentes, introduzindo a melhoria de Gestão de dados, agora diretamente em empresas que usam o Cobit5.
O novo framework da DAMA ressalta esse importante conceito para a mesa dos decisores, que podem pensar em iniciar um Programa de GD, conhecendo antes o estado atual das práticas de dados nas empresas.

Princípios de Gestão de Dados: Foi reformulado com ênfase em elementos que devem servir de balizamento para a definição de Estratégias e Políticas que subsidiarão a organização em busca de maior valor através dos dados. Esses princípios continuam coerentes nos 2 modelos.

Resumo da ópera:
Dessa forma, o DAMA-DMBoK®V2 chega e ganha contornos de maturidade e modernidade, se posicionando como o mais completo framework disponível para apoiar a implementação de Gestão/Governança de dados nas empresas, com conceitos imprescindíveis no tratamento dos ativos organizacionais de dados. Traz assuntos recentes como Big Data, Ética nos dados, Avaliação de maturidade, etc , tudo no entorno do contexto do Diagrama evoluído do DAMA-DMBoK®V2.  Esse novo framework , dessa forma, se posiciona como  fonte obrigatória para todas as empresas que vislumbram a busca de uma Gestão e Governança de dados moderna, consistente e efetiva, sintonizada com os últimos conceitos emergentes de dados. Se você pensa em caminhar em direção à GD, não deixe de ler o DAMA-DMBoK® V2.

Nota:
DAMA-DMBoK® e DAMA-DMBoK®V2 são marcas da DAMA International e DAMA Brasil.


Referências:
DAMA-DMBoK®-Data Management Body of Knowledge-2nd Edition-2017- Technics Publications
DAMA-DMBoK®V2-Framework-Patricia Cupoli; Susan Earley; Debora Henderson-Set. 2012, publicado no site www.dama.org.
Data Management Maturity Model(DMM) Model.CMMI Institute August 2014-version 1.0.
Data Management Maturity(DMM). CMMI Institute-Agosto de 2014-versão 1.0 (em português).
The DAMA Guide to Data Management Body of Knowledge(Dama-DMBoK® Guide)-First Edition 2009.
Vaughan, J. Machine learning algorithms meet data governance. TechTarget-Search Data management, acessado em 01 de Outubro de 2017.

Uma visão sintética e comentada do DAMA-DMBoK®, Carlos Barbieri, com participação de Fernanda Farinelli, publicado no site da Fumsoft-2013, acessível em goo.gl/kqVSBk

sábado, 16 de setembro de 2017

Visão comparativa e comentada do DAMA-DMBoK®V2-Parte II


Vamos começar a parte II repetindo o Diagrama adaptado do DMBoK® V2.


     Figura 01-Visão geral do DAMA-DMBoK® V2, adaptado pelo autor. Fonte: DAMA-DMBoK®V2

Pode-se observar que:
      O Diagrama DAMA(Dama Wheel), agora aparece com 11 áreas de conhecimento (AC),   trazendo como novidade a fatia de Integração e Interoperabilidade de dados(inexistente explicitamente no DMBOK1, embora fosse tratado em várias disciplinas, como MDM, DW, QD, etc), além de mudanças cosméticas nos nomes das fatias/disciplinas, que perderam a palavra Management. Somente a AC(Área de Conhecimento) Documento e Conteúdo, permaneceu com a palavra “Management”. No texto a AC Metadados é referenciada também como Gerência de Metadados. Para conhecer melhor essa nova disciplina do DAMA-DMBoK®V2, assista o vídeo de Chris Bradley, no link a seguir: goo.gl/4CY88G
      Os Fatores Ambientais , representados pelos hexágonos, sofreram algumas modificações. No DAMA-DMBoK® apareciam: Organização&Cultura; Atividades; Entregáveis; Papéis&Responsabilidades; Práticas&Técnicas e Tecnologia.  No DAMA-DMBoK®V2 permanecem Papéis&Responsabilidades; Atividades, surge  Ferramentas;  Organização&Cultura; Técnicas(sem práticas) e Entregáveis. A palavra Tecnologia entra com Processo e Pessoas, num nível de agregação acima, ficando Pessoas(Papéis e Responsabilidades); Processos(Atividades e Técnicas) e Tecnologia(Ferramentas e Entregáveis).

               Figura 02-Fatores Ambientais, adaptado pelo autor- Fonte: DAMA-DMBoK®V2

     Os Diagramas de Contexto de áreas de conhecimento(AC), também foram modificados:
      No DAMA-DMBoK® apareciam, para cada disciplina/fatia: Definição, Missão, Objetivos, Entradas, Fornecedores, Participantes, Ferramentas, Entregáveis primários, Consumidores e Métricas. No miolo, as Funções daquela fatia,
            –      No DAMA-DMBoK®V2 aparecem: Definição, sai Missão, Objetivos, Entradas, Fornecedores, Participantes, Entregáveis, sai primário, Consumidores . As Métricas, Técnicas e Ferramentas aparecem como direcionadores técnicos, enquanto dos objetivos saem os direcionadores de negócios.  Aparecem também, para cada fatia(Área de Conhecimento) um ciclo de vida composto de : Planejamento( P ), Controle ( C ), Desenvolvimento (D) e Operações(O).

              Figura 03-Diagrama de Contexto, adaptado pelo autor- Fonte: DAMA-DMBoK®V2

  -      O DAMA-DMBoK® V2 resolveu trazer também algumas concepções de autores famosos na seara de Dados e que sempre estiveram na proximidade do Modelo. Por exemplo, a Pirâmide de Peter Aiken (ex-presidente da Dama International), que procura usar as áreas funcionais para descrever a situação em que muitas empresas se encontram. Não chega a ser um diagnóstico de dados, mas serve, principalmente para empresas que começaram o processo de adoção de GD sem uma estratégia muito definida. Muitas empresas começam essa incursão em direção à melhoria dos dados, levadas por impulsos ou projetos isolados. A compra de uma aplicação com Bancos de dados, por exemplo, pode levar a empresa a colocar os olhos sobre modelagem e projeto de dados, armazenamento, segurança etc. A essa fase seguirão outras, por exemplo, como uma preocupação com a qualidade dos dados, que dependerá de Metadados e de uma arquitetura estável e bem definida. A seguir, para que essas práticas sejam disciplinadas, aparecerá a necessidade de Governança de dados, que poderá alavancar a gerência de dados mestres, referenciais e de documentos. Essa é a visão da pirâmide de Aiken , apresentada no DAMA-DMBoK® V2, ou seja uma costura progressiva e temporal das diversas disciplinas do DMBoK®, pelo gradativo aparecimento de suas necessidades de dados. A empresa começa por uma das áreas de conhecimentos (fatias), por um motivo específico e segue, com certa lógica, realizando uma conexão com as outras, tecendo dessa forma a malha da Gestão de dados;

      O DAMA-DMBoK®V2 também trouxe uma proposição semelhante, desenvolvida por Sue Geuens(presidente da DAMA International e agora na Infosys-Inglaterra), na qual se estabelece também necessidades iniciais de dados(como um projeto de BI ou Analytics, etc) que vai , progressivamente, demandando outras áreas de conhecimento e montando um diagrama em camadas com certa dependência funcional entre as fatias do DAMA-DMBoK®V2. Tem similaridade com a proposta de Aiken;                  
      Nesse contexto, o próprio DAMA-DMBoK®V2 apresenta um framework mais evoluído, quando comparado à frieza do antigo Diagrama DAMA(Dama Wheel). Nesse diagrama há o aparecimento de novos conceitos, além das 11 disciplinas/fatias tradicionais. Há uma camada superior de Supervisão que é a Governança de dados(que na roda DMBOK ficava no centro), com elementos novos como Valoração de dados, Princípios e Ética sobre os dados, além das conhecidas Políticas e Stewardship. São aspectos fortemente ligados à mudança cultural, como lembra o primeiro bloco deste framework.  No meio, aparece um outro bloco, com ênfase na gerência de ciclo de vida, por onde desfilam as Áreas de Conhecimento, separadas por Planejamento e projeto(Arquitetura e Modelagem e Projeto de dados); Uso e Melhoria(Armazenamento e Operação de dados, Integração e Interoperabilidade, MDM, RDM,DW e aparece Big Data, como novidade) e Ativação e manutenção(BI, Uso de Dados Mestres, Gerência de Conteúdo e Documento, Monetização de dados, Análise Preditiva e Data Science). Observe que os conceitos emergentes e atualíssimos de Big data, Data Science, Monetização, etc agora já aparecem no radar detalhado do DAMA-DMBoK®V2.
      Finalmente, como Bloco de atividades pilares, aparecem: Gerência de Riscos englobando Segurança, Privacidade e Compliance, Gerência de Metadados e Gerência de Qualidade de dados.

      Esse novo diagrama do DAMA-DMBoK®V2, agora em blocos e camadas, estende a antiga Dama Wheel e incorpora conceitos que se faziam necessários nesse novo ecossistema de dados. Dessa forma, o novo framework apresenta a sua Dama Wheel evoluída, com todos os elementos anteriormente descritos e elementos entrantes como Data Science, Visualização de dados, Monetização de dados, Análise preditiva, Stewardship e Ownership(gestão e propriedade dos dados), drives para mudança cultural, princípios e ética sobre os dados, Classificação de dados, Valoração de dados e Avaliação de maturidade em dados. Esses conceitos são fundamentais no novo ambiente de dados onde pontos como Monetização estão a reclamar estudos e visões acadêmicas mais profundas para se designar valores diretos sobre os dados. 


              Figura 04-Diagrama DAMA-DMBoK® V2 Evoluído, adaptado pelo autor. Fonte: DAMA-DMBoK® V2

Notas:

DAMA-DMBoK® e DAMA-DMBoK®V2 são marcas da DAMA International e DAMA Brasil.
DCAM é marca do EDM-Council
DMM é marca do CMMI-Institute