Total de visualizações de página

quinta-feira, 14 de dezembro de 2017

Governança/Gestão e a ética em dados-Parte 4

Privacidade por projeto:


Um dos pontos importantes que a Segurança e Privacidade começaram a cogitar, com a chegada dos conceitos de Big Data, IoT e IA(Inteligência artificial) é o chamado “Privacy by Design”, ou Privacidade através de projeto. No fundo, a ideia é que os aspectos de privacidade e segurança de dados sejam parte constituinte da solução dos sistemas, desde o início, ou seja “by design”. Esse ponto torna-se fundamental na medida em que essa temática(privacidade e segurança, quando em contextos de Big Data, IoT, e Inteligência artificial) exigirão cuidados muito maiores do que aqueles que normalmente são dispensados em sistemas até hoje. Por exemplo, os aspectos de Privacidade quando envolvidos com algoritmos de Inteligência artificial, como aprendizado de máquinas, demandará uma visão de muito mais cuidado e sensibilidade. Conceitos de XAI(Explainable Artificial Intelligence) e GAI(Governed Artificial Intelligence) já estão sendo trazidos  nestes domínios para definir algoritmos de IA que sejam explicáveis(XAI-eXplainable) e que sejam governados(GAI-Governed). No fundo isso tenta estabelecer um mecanismo de mitigação para os problemas relacionados com resultados embaraçosos ou inexplicáveis produzidos pela Inteligência artificial. Resultados errados em inferências médicas, ou em classificações indevidas de pessoas, além de atribuição de responsabilidade em desastres de carros autônomos, por exemplo, poderão ser resultantes da complexidade do ecossistema de IA.  Será fundamental neste contexto, o envolvimento de uma equipe multidisciplinar, com cientistas de dados, analistas de sistemas, especialistas em IA e Gestores de dados que deverão dar o tom correto do que se chama Inteligência artificial governada(GAI). A figura 01 mostra os conceitos que envolvem a Privacidade por projeto, onde aparecem aspectos éticos como respeito ao usuário, ações proativas e não reativas(como acontece hoje, quando soluções de privacidade e segurança são pensadas, com profundidade, somente depois que a casa cai) e o foco preventivo como gancho, minimizando os aspectos corretivos(a posteriori).

                                         
                                                Figura 01-Esquema de Privacidade por projeto (design)

Em resumo, a Privacidade por projeto(Privacy by design) representa ações planejadas, discutidas num arco de amplo espectro e  definidas nos níveis de projeto(design), focando no ciclo completo dos dados, garantindo transparências nas ações e mitigando os riscos que poderão advir de seus usos indevidos, tanto pela empresa, quanto pela máquina. Como consultor na área de dados e um “data geek” por natureza, fiquei em alerta para esse tema, depois de fazer dois cursos(EAD) na área de Ética sobre os dados. Um na Universidade de Michigan (Ethics on Data Science, com H.V. Jagadish)  e outro na Universidade de Seattle, com apoio da Microsoft (DAT249x: Ethics and Law in Analytics and AI, com Geneva Lasprogata, Nathan Colaner e Ben Olsen) . Depois desses cursos, recebi um artigo, escrito pelo meu ex-colega de Cemig, Virgílio Almeida e por Urs Gasser , publicado por Harvard.(1). O artigo, também versa sobre uma proposta de modelo estruturado em camadas para a adoção de uma Governança de Inteligência artificial. No fundo, haveria 3 camadas, uma com os elementos sociais e legais (normas , leis e regulações), outra com aspectos éticos(critérios e princípios)  e uma terceira com aspectos técnicos e os cuidados sobre os dados, envolvendo a GD-Governança de dados com padrões e a responsabilização dos algoritmos. Ou seja, claramente a privacidade e segurança de dados ganham contornos de preocupação com a aproximação da Inteligência artificial, chamada de “incrustable”(impenetrável), onde os algoritmos profundos de aprendizados de máquinas não são alcançados e  plenamente entendidos e portanto, sugerem a adoção de governança. O DMBoK® V2 já  havia trazido a palavra ética e princípios para dentro da seara de discussão de gestão/governança de dados, agora no seu lançamento em meados de 2017. Dessa forma, conceitos de justiça e igualdade, sem discriminação pelos dados, privacidade protegida ou até o grau de substituição do trabalho do homem pelas máquinas, começam a ganhar espessura. Isso vai sugerir novos olhos para a responsabilidade final(accountability) das empresas e para a explicabilidade(explainability) que poderá ser demandada em decisões polêmicas, feitas por “decisores” humanos ou algorítmicos. Assim, chegamos à conclusão de que os filmes de Tom Cruise não estão mais tão distantes , que Big Data é bem mais do que Data Lake com Hadoop e que IA, algo muito mais profundo nos seus efeitos do que sugerem os frios e descansados algoritmos de “deep learning”.   

Referências:

1-Gasser, Urs, and Virgilio A.F. Almeida.2017. “A Layered Model for AI Governance.” IEEE Internet Computing 21 (6) (November): 58-62. doi: 10.1109/mic.2017.4180835

2-Jagadish, H. Ethics on Data Science. Curso EAD. Universidade de Michigan, 2017.

3-Lasprogata, G.,Colaner,N., Olsen,B.  Curso EAD. Ethics and Law in Analytics and AI. Universidade de Seattle. 2017

domingo, 26 de novembro de 2017

Governança/Gestão e a ética em dados-Parte 3


Nessa parte vamos falar sobre Privacidade de dados. Esse conceito, conforme vimos está fortemente entrelaçado com os anteriores e alguns que seguirão. Privacidade pode ser definida como o direito à proteção dos seus dados. Seria o aspecto da TI(Tecnologia da Informação) que trata com a habilidade ou capacidade de uma organização ou indivíduos de determinar que dados, num sistema computacional, poderão ser compartilhados por terceiros. Envolve a coleta, armazenamento e disseminação de dados, a expectativa de seus donos com proteção e privacidade e fecha com aspectos legais e políticos que envolve.
Um dos mais emblemáticos assuntos hoje sobre Privacidade dos dados é o GDPR-Regulação Geral de proteção aos dados, definido pela EU(União Européia) que deverá entrar em vigor, a partir de Maio de 2018. Aqui , neste mesmo espaço escrevi sobre GDPR, em 3 partes, depois que assisti várias sessões de discussões sobre o assunto em seminários internacionais(em 2016 e 2017). No Brasil o assunto continua morno, embora as empresas brasileiras(dependendo de como atuam naquele mercado-EU), estejam sim, envolvidas. Nesses links, a seguir você terá maiores detalhes sobre GDPR, que sintetizarei no contexto deste artigo.

GDPR-General Data Protection Regulation:


1)GDPR-General Data Protection Regulation-Visão geral

Lançada em Abril de 2016 e com data para entrar em vigor, a partir de 25 de Maio de 2018, a resolução foca, de forma muito mais severa, na proteção de dados para os residentes da Comunidade Europeia. A ideia central é dar aos cidadãos sob sua proteção, a volta do direito absoluto sobre os seus próprios dados, além de uniformizar esse tema para a Comunidade da União Europeia(UE). A Europa, mostra mais uma vez, uma nítida visão de maior preocupação com os aspectos de privacidade e segurança de dados, bem maior do que os EUA, onde o tema é visto com certa leniência.

2)Acidentes de privacidade recentes:

De maneira geral, o número de incidentes de segurança/privacidade aumentou 38%, de 2014 para 2015. Em julho deste ano(2016), o Yahoo foi adquirido(seu core business) pela Verizon, por algo em torno de US$4,8 bi. Durante a negociação, diz a Verizon, que o Yahoo não revelou o vazamento(breach) ocorrido em 2014 de 500 milhões de contas, assumido em setembro deste ano, após a concretização da venda. Em Dezembro  de 2016, o Yahoo revela e assume mais um vazamento, desta vez de 1 bilhão de contas, ocorrido em 2013. Talvez o maior vazamento da história digital. Pronto. Está configurado o embaraço, com mais de um bilhão de usuários tendo tido expostos seus nomes, telefones, passwords(criptografadas ou não), perguntas de “check” para confirmação de identidade e email secundário(aquele para onde serão enviados os procedimentos de “reset” de password). Uma empresa de cyber-segurança americana, especializada em circular pelas sarjetas da Dark Web, assegura que 3 cópias dessas informações já foram vendidas por US$300.000,00 cada. Para finalizar 2017, a Equifax, revela um “breach” de 143 milhões de contas e na semana passada o Uber notificou um vazamento de quase 57 milhões de contas, dados pelos os quais o Uber teve que pagar um resgate para garantir que não seriam vazados. Ledo engano. Não há garantia nenhuma com relação a isso, a menos da palavra dos hackers..

3)Escopo do GDPR:

No artigo 3, o GDPR fala sobre o escopo territorial, mas esse ponto é o mais nebuloso da Regulação:
3.1)Deverão estar sob o GDPR os dados de empresas tanto controladoras(aquelas que originalmente coletaram os seus dados), quando as processadoras(aquelas que foram autorizadas/terceirizadas pelas controladoras para processá-los) com estabelecimento na União Européia(U.E), independentemente se o processamento ocorre lá.
3.2)Também será aplicado ao processamento de dados de pessoas que estejam na U.E, por controladores/processadores que não estejam lá, quando o processamento se referir a produtos e serviços, independentemente se há pagamento requerido ou se o monitoramento dos seus comportamentos(uso dos dados) acontece dentro da U.E.
3.3)Essa Regulação também se aplica ao processamento de dados por um controlador não estabelecido na U.E, mas em um lugar onde as leis do Estado Membro(qualquer pais da U.E)  se aplicam por motivos de acordos internacionais.
Dúvida: Um italiano que tenha vindo à BH(trabalha na FIAT), é atendido num Hospital particular daqui e tenha os seus dados registrados no sistema dessa Rede de Saúde. O hospital estará sob os controles do GDPR? Estará somente se o tal Hospital tiver um estabelecimento na U.E? ou independentemente disso?  Vale para o cidadão da U.E onde estiver? Essa dúvida, que coloquei num painel de discussão, em Junho passado, numa Conferência de dados em San Diego-Ca, continua sem definição clara...  

4)Síntese dos aspectos de privacidade exigidos pelo GDPR:

1-Todas as informações solicitadas por você deverão ser enviadas em 1 mês, conforme Artigo 12 . Caso contrário uma queixa formal poderá ser enviada à autoridade constituída;
2-É obrigatória a confirmação de que os seus dados pessoais estão sendo processados e caso OK, quais categorias de PII(Personal Indentifiable Information)  a empresa possui acerca dos dados do solicitante;
3-Deverá ser explicitado  o que os Sistemas de Informações tem de dados a seu respeito. Detalhar se inclui BD, e-mails, documentos, voz ou outra forma de mídia;
4-Em quais países,  os seus dados pessoais  estão armazenados, ou são acessíveis . Em caso de serviços na nuvem dizer em quais países os servidores estão localizados(onde os dados estão ou estiveram nos últimos 12 meses);
5-Uma cópia dos dados ou uma forma de acesso a eles pode ser solicitada, por você, para disponibilização;
6-Informar com detalhes o uso específico que os seus dados pessoais estão tendo ou terão no contexto dos negócios da empresa;
7-Informar a lista de terceiros com os quais a empresa tem (ou pode ter) os seus dados compartilhados;
8-Informar as jurisdições que há com relação aos terceiros, com os quais os seus dados podem ter sido compartilhados. Especificar locais, a partir dos quais os terceiros poderão armazenar ou acessar os seus dados pessoais. Informar as bases legais que permitiram a transferência dos seus dados para essas jurisdições. Informar as salvaguardas definidas por esses terceiros com relação aos seus dados;
9-Informar por quanto tempo existe o armazenamento dos dados e, se a retenção é baseada em categoria de dados(PII, por exemplo), informar por quanto tempo cada categoria é retida;
10-Informar se há outra fonte de coleta de seus dados, além da do próprio solicitante, conforme o artigo 14 do GDPR;
11-Informar, caso haja decisões automáticas sobre os dados(*), incluindo “profiling”(baseado ou não no artigo 22 do GDPR), os dados que servem de base para a realização dessas decisões automáticas, além do significado e das consequências desse processamento;
(*)Decisões baseadas em regras de negócios estabelecidas e que podem ser realizadas automaticamente (Analítics,Machine learning,etc). Informar se os resultados serão sempre reavaliados a fim de ajustar o “engine” de busca ou inferência(leia-se os algoritmos);
12-Informar se houve, inadvertidamente, algum vazamento/acesso aos dados do solicitante, no passado ou como resultado de uma invasão/quebra de segurança e privacidade. Se ok, informar os detalhes de cada invasão/quebra(breach), conforme abaixo:
1-Descrição geral;2-Data e hora (estimada) do ocorrido;3-Data e hora da descoberta;4-A fonte do ocorrido(sua empresa ou terceiros para os quais os dados foram transferidos);5-Quais dados foram vazados;6-A avaliação de risco da sua empresa acerca dos  prejuízos do solicitante;7-A descrição das medidas tomadas que serão aplicadas para prevenir futuros acessos não autorizados aos dados;8-As informações para contato visando buscar maiores informações sobre o breach;9-As informações e conselhos sobre o que o solicitante pode fazer para se proteger contra possíveis prejuízos, incluindo roubo de identidade e fraude;
13-Se não puderem garantir que houve exposição indevida, através de tecnologia adequada, orientar os passos de mitigação que foram aplicados: 1-Criptografia dos dados;2-Estratégia de minimização de dados;3-Anomymização ou pseudoanonymização de dados;4-Qualquer outro meio;
14-Passar informações sobre Políticas e Padrões que foram seguidos com relação à segurança dos dados, informações como aplicam ISO-27001 para segurança de informações e mais particularmente, suas práticas com relação aos seguintes pontos abaixo:
a-Informar se houve backup dos dados para fita, disco ou outra mídia, informar onde estão armazenadas, em que grau de segurança, incluindo quais passos foram tomados para proteger os dados com relação às perdas ou roubos e se incluem criptografia;
b-Informar se há tecnologias aplicadas que permita saber, com razoável certeza, se os  dados foram vazados, incluindo, mas não limitado a : sistemas de detecção de invasão; tecnologias de firewall; tecnologias de gerência de identificação e acesso; ferramentas de segurança e auditoria de BD; ferramentas de análise comportamental, análise de logs e de auditoria;
15-Com relação aos empregados e contratados informar quais tecnologias ou procedimentos garantem que os dados não serão levados para fora ou vazados da organização, via email, webmail, whatsup,etc;
16-Informar se houve alguma circunstância na qual empregados ou contratados foram demitidos ou acusados de acessos indevidos a dados pessoais;
17-Informar quais treinamentos e medidas de conscientização foram tomadas a fim de garantir que os empregados e terceiros acessem e processem os dados em conformidade com o GDPR.

Conclusão:

1-É claro que, pelas exigências colocadas, há um claro viés de se criar uma  espessa nuvem de preocupação nas empresas responsáveis ou terceirizadas que mexem com os seus dados.  Muito provavelmente, pelo excesso de itens da regulação haverá uma dificuldade na materialização das inspeções. Mas nunca esqueçamos que estamos falando da EU-União Europeia e não do Brasil, onde uma regulação dessa talvez nascesse morta;
2-Entretanto, isso mostra que a privacidade talvez seja o elemento, dentro do espectro  ético dos dados, que mais preocupação tenha trazido à sociedade digital. A coleta de dados é fácil de ser feita e normalmente inofensiva, mas o uso e a (falta de) a proteção e controle podem ser desastrosos. A premissa de que os dados na internet são para sempre é assustadora, conforme aponta Schonberger no seu livro-Delete-A virtude do esquecimento na era digital. Parte disso se deve ao próprio usuário, que se expõe e “se esquece de esquecer” os seus dados(delete). Parte disso se deve ao “business” de algumas empresas que, por leis ainda frágeis e discutíveis, podem usar os seus dados(exemplo Mugshots). Parte disso, se deve também ao senso de reciprocidade com os grandes players do mundo digital(FB, Google, Linkedin,etc) que oferecem aplicativos grátis(?). Parte disso, finalmente deve-se ao aos desafios dos hackers que mostram recorrentemente a vulnerabilidade dos mecanismos de proteção dos dados. Isso também é mostrado pela preocupação extrema do GDPR, com exigências rigorosas e multas astronômicas. O vazamento de bilhões de dados, citados nessa parte, evidencia o potencial de danos para os aspectos éticos e de segurança. Só para citar um exemplo de embaraço: Em 2015, houve o vazamento de 32 milhões de contas de um site de encontros (furtivos)  de casais (Ashley Madison). Imagine a aflição das pessoas que estavam lá, sem o conhecimento do parceiro(a), para definir justificativas apressadas de homonímia...

Referências:

      1- Abelson, H. , Ledeen K., Lewis,H. Blown to bits-Your life, liberty and happiness after the
      Digital Explosion.Addison-Wesley.2008
      2- Bell,G. Gemmel, J. Total Recall-How the e-memory Revolution will change everything.
       Dutton.2009
3-Building a European Area of Justice. Disponível em
4-EU-General Data Protection Regulation (GDPR)-An implementation and Compliance Guide-IT Governance Privacy Team, Amazon.com
5-EU General Data Protection Regulation (EU-GDPR). Disponível em:
6-Portal GDPR. Disponível em: http://www.eugdpr.org/eugdpr.org.html. Acesso em: 04/01/2017
7-REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL. Disponível em:
        8-Schonberger, VM. Delete-The virtue of forgetting in the digital age.Princeton University
        Press.2009

9-The Nightmare Letter: A subject Access Request under GDPR
Constatine Karbaliotis-VP Privacy Office Solutions at Nymity
Publicado no Linkedin-9/março/2017, acessado no dia 9/3/17

domingo, 5 de novembro de 2017

Governança/Gestão e a ética em dados-Parte 2


Nessa parte discutiremos, com detalhe, alguns conceitos que diretamente podem afetar o senso de ética no uso dos dados. Esses pontos, depois de devidamente analisados, deverão compor Princípios e Políticas(2 dos P´s da GD) de dados das empresas, caso as empresas considerem pertinentes, com a chegada dos movimentos de Big Data,IoT, etc.
Alguns fatores são muito importantes de serem considerados, quando pensamos em ética sobre os dados. Por exemplo:

a-Propriedade dos dados
b-Privacidade dos dados
c-Proteção dos dados(anonimato)
d-Validade dos dados
e-Corretude e equidade dos algoritmos usados na análise

Embora discutidos em separado, esses fatores se entrelaçam, na medida em que o conceito de privacidade, por exemplo, pode ser afetado pelo senso controverso de propriedade dos dados ou pela validade dos dados usados ou até pela corretude ou equidade dos algoritmos de aprendizado de máquina aplicados nas suas análises.
Vamos discutir cada um

a)Propriedade dos dados:

Aqui começa a polêmica. Quem são os proprietários dos dados?
-Os dados de sua pesquisa na caixa de search do Google pertence a você ou ao Google? Você foi, no mínimo, o produtor daqueles dados de entrada. Nasceram por sua necessidade/inspiração/curiosidade. As respostas recebidas até que foram produzidas pelos algoritmos do Google. Mas a questões “drivers” da busca foram suas. A localização é sua, o endereço IP é seu. A quem pertence ?
-As imagens de segurança de um supermercado que flagra você e seus filhos caminhando pelos corredores em busca de uma lata de leite condensado. Hoje, com o desenvolvimento de identificação facial, aquelas imagens podem chegar a você. Pertence a você, que está flagrado ou ao supermercado que gravou?
Algumas considerações sobre propriedades de dados já existem, em outros domínios. Por exemplo, quando uma biografia é escrita, a quem pertence os direitos? Ao biografado ou ao escritor? Caso não haja no conteúdo algo que desabone o biografado, não poderá haver nenhuma objeção legal, mesmo que seja uma biografia -não autorizada-. A fronteira entre a liberdade de expressão(do autor) e os dados do biografado é algo que pode ser complexo. Há vários casos na indústria literária brasileira sobre problemas entre autores e biografados(ou seus descendentes). Em 2005, Fernando Morais com a obra que versava sobre a agência W/Brasil, contestada na Justiça por Ronaldo Caiado, virou polêmica. Em 2006, Roberto Carlos com Paulo Cesar Araújo, quando o cantor sentiu violada a sua privacidade por fatos relativos ao seu acidente, quando menino. E finalmente, também em 2006, quando Ruy Castro teve um embate com as filhas do jogador Garrincha, quando escrevia sobre sua biografia. Em 2015, o STF, liberou esse direito, por decisão unânime, apontando que as reparações somente poderiam vir no caso de abusos ou ultrajes eventualmente acontecidos. Não esqueçamos que um livro biográfico é uma coleção de dados de alguém. Por outro lado, aumentando o espectro de complexidade do assunto, um livro de sua autoria é comprado e colocado numa Biblioteca física. Você, como autor, recebeu por um único volume pago, mas dezenas ou centenas de pessoas poderão lê-lo, sem lhe dever direitos pela propriedade do que você produziu. A Wikipédia, por sua vez, é uma espécie de enciclopédia digital escrita por milhares de autores, que não tem nenhum direito de propriedade sobre ela. Há alguns sites que são produzidos com os seus dados, escritos especialmente para eles, via críticas e opiniões (Reclame aqui, TripAdvisor, Rotten Tomatoes,etc). Eles faturam com os dados dos outros e não pagam por isso. 
A propriedade dos dados, bem definida, é algo que representa também valor direto e “monetizavel” sobre esses tipos de ativo. A Microsoft comprou o Linkedin por causa dos 200 milhões de registros dos nossos perfis (escritos por cada um de nós). A IBM comprou a Weather Company, por US$2 bilhões devido aos bilhões de registros de meteorologia e também aos milhares de registros de grandes clientes que os utilizam. Mas as coisas nem sempre são tão lineares assim. Por exemplo, a quem pertence os registros de dados de uma companhia que faliu e não existe mais? A Radio Shack, outrora grande loja americano de eletrônicos, quebrou e quando foi vendida rendeu esse imbróglio. A quem pertenceria os milhões de registros de clientes que ela armazenava? Somente depois de um arranjo jurídico complexo, que envolveu opt-in/optout dos clientes, é que a questão foi resolvida, com a transferência dos bancos de dados para a empresa compradora.
Pior ainda: há sites na Internet que vendem dados embaraçosos sobre pessoas. Por exemplo, os controversos MugShots. Veja a figura 01.


                                              Figura 01- Mugshots

Nela aparecem os chamados mugshots, que são aquelas fotografias tiradas pela polícia, para registrar o autor de um suposto ilícito. Repare que essas fotos(de frente e de lado), são elementos obrigatórios para compor o ato da apreensão policial e temporária, mas que não representam, necessariamente, culpa ou condenação. Mas são extremamente embaraçosos e o pior: são dados públicos(nos EUA), e portanto passíveis de acesso por qualquer um. No exemplo acima, aparecem os mugshots de Jane Fonda, do famoso apresentador da CNN, Larry King, hoje aposentado, de Bill Gates, de Frank Sinatra e de Justin Bieber. Essas fotos circulam livremente pela internet, juntamente com a de outros famosos. Embora controversos, a reprodução desses dados, a partir de uma fonte lícita (Departamento de Polícia)  em sites chamados de MugShots(MugShots.com, BustedMugshots, JustMugshots), não representa crime. Hoje há mais de 80 sites desses na Internet. Embora polêmicos e possíveis de produzir altos danos, a publicação desses dados é defendida por jornalistas e movimentos de livre expressão, além de ser considerada legal pela Suprema Corte Americana. A sua proibição, conflitaria com a Primeira Emenda da Constituição, que fala sobre a livre expressão, quando considera que a publicação de dados públicos é pura manifestação de liberdade. Soma-se a isso, o argumento positivo, de que esses sites estariam prestando um serviço à comunidade, pois mostram publicamente pessoas que estão envolvidas em algum ilícito e que poderiam ser a baby-sitter de sua filha, o professor particular de seu filho ou a fisioterapeuta dos seus pais. O grande problema desses sites, com certa propriedade de seus dados, é que eles cobram taxas para a remoção da sua foto. Variando de US50 a US$500, essas taxas, em tese, serviriam para a deleção das fotos do seu acervo. O grande problema centra no fato que essas fotos poderão estar espalhadas em dezenas deles e aí as coisas complicam. O livro Delete-The virtue of forgetting in the Digital Age (Schonberger), fala exatamente sobre isso: A Internet nunca esquece... Embora os sites de Mugshots argumentem que todas as solicitações de remoção serão devidamente analisadas e feitas gratuitamente para aquelas que comprovarem casos encerrados, absolvições, etc, o problema é sério. Tão sério que hoje já existe um conjunto de sites que se dizem especializados em limpar os seus mugshots(Veja erasemyshots.com). Alguns estados americanos se movimentam para, via legislação, apertar o cerco sobre isso, mas os resultados são lentos. Até 2013, somente os estados do Oregon, Georgia e Utah tinham projetos de lei em sua esfera política para tentar regular esses que são considerados elementos da indústria da humilhação. De lá, até hoje, houve pouca evolução nesse segmento.

Isso exemplifica, de forma simples, a complexidade existente no miolo do conceito de propriedade dos dados. Caberá à Gestão/Governança de dados, quando cabível, um olhar atento sobre o DLCM-Data Life Cycle Management, por exemplo e os aspectos de privacidade e ética sobre eles. A ideia de DLCM , presente nas melhores práticas de dados, tem exatamente esse objetivo de analisar, regular e documentar as  diversas fases da vida dos dados, inclusive a sua eliminação/descarte. (Coleta/produção, tratamento, uso e descarte). Agora, entram também nesse olhar, os aspectos de violação, prejuízos e danos, que os dados poderão causar, em tese, àqueles que seriam seus próprios donos.  

domingo, 22 de outubro de 2017

Governança/Gestão e a ética em dados


Introdução:

A Governança de dados, deverá estender os seus corpos de conhecimento em direção a ética no uso de dados. O próprio DMBoK®V2, conforme já discutido aqui neste mesmo espaço, já dedica uma forte e espessa consideração sobre esse novo tema. Na realidade, a ética de dados já tem desdobramentos quando a Gestão e Governança de dados são convocadas para a interação com aspectos de Segurança(um dos corpos de conhecimento do DMBoK®V2). A chegada do GDPR-General Data Protection Regulation, da União Européia, a vigorar a partir de Maio de 2018, já está produzindo, nas empresas mais atentas, essa aproximação entre Segurança e Gestão de dados, com  o encaixe de processos de GD nos já existentes mecanismos do DPO/DSO(Data Privacy ou Data Security) Officer. Dessa forma, além dos aspectos de Arquitetura, Modelagem , Operação de dados, seguido de DW/BI, Dados Mestres e referenciais, Metadados e Qualidade de dados, os conceitos de ética nos dados deverão fazer parte dos Princípios e Políticas de dados das empresas. A chegada de Big Data, IoT e Ciência de dados, claro, vai potencializar essa necessidade, na medida em que teremos um volume maior, mais variado e mais difuso de dados de clientes, empregados, etc. Só que agora, com decisões passíveis de serem produzidas por algoritmos frios de “machine learning”,  e consequentemente com possibilidades de resultados que poderão implicar em embaraços, desconfortos ou prejuízos para pessoas. Recentemente fiz um curso EAD na Universidade de Michigan, com o título “Ethics on Data Science” que veio somar às minhas percepções quando mergulhei no DMBoK®V2 e vi esses conceitos ganharem destaque. Nesse conjunto de artigos, falaremos com mais detalhe sobre esses pontos.

O que é Ética?

A definição de ética é até relativamente simples. Ética é aquele conjunto informal (no sentido de que não está oficialmente escrita) de regras, que nos leva a discernir entre o certo e o errado, fronteira, por vezes não tão claramente definida. Por exemplo, a ética nos faz entregar no setor de  Achados&Perdidos  um celular encontrado no Shopping, ou uma carteira cheia de dinheiro e documentos achado na poltrona do cinema. A Ética difere de legislação, pois esta tem um certo ordenamento jurídico, definido, controlado e aplicado. A ética difere também de religião, onde prevalecem credos e crenças, que aliás, junto com a legislação, ajudam na lapidação dos preceitos éticos. Essas fronteiras da ética não são claramente definidas e percebidas, podendo variar com fatores de educação, criação, exemplos, cultura, etc. Por exemplo: Furar a fila do cinema é uma atitude antiética, mas não necessariamente ilegal(não acho que haja uma lei que proíba furar fila!!). Por outro lado, se você socorrer alguém, à beira da morte, num terrível acidente de trânsito, com impossibilidade de assistência médica imediata e decidir levá-lo a um hospital perto, seguindo na contramão(por impossibilidades variadas no contexto), você estará sendo ético mas tendo uma atitude ilegal (transitar na contramão). Por isso, essas fronteiras se complicam quando chegamos aos dados.  No ambiente organizacional, com os dados em crescimento e os sistemas de IA(Inteligência artificial) sendo desenvolvidos, muitos dos conceitos de ética deverão ser considerados, avaliados e definidos. Por exemplo :

1-É ético a NetFlix saber dos nossos movimentos na sala de TV (Mensagem-Tem alguém assistindo ai?), além de conhecer, pelos nossos dados acumulados, todas as nossas preferências de séries, filmes, etc?. Saber qual o capítulo que foi o desmotivador ou o gancho que te prendeu àquela série? Ter mapeado o seu perfil de gosto, compra, hábitos de assistir,etc? Pelo lado positivo, sugerem títulos mais prováveis para os cinéfilos.
2-É ético os Leitores inteligentes de energia(smart meters) terem os dados que poderão ser usados para inferir sobre a hora em que dormimos, tomamos banho, quando viajamos, ou o consumo de nossos utensílios domésticos? Os de fornecimento de água, terem ideia sobre o momento em damos um  “flush no “toilet” ?. Pelo lado positivo, vem a percepção de possíveis vazamentos, pelo excesso de consumo detectado.
3-É ético o FB conhecer todas as nossas informações de relacionamento na rede social e escolher os “feeds” mais adequados que chegam na nossa linha de tempo? Pelo lado positivo, receberemos teoricamente coisas mais do nosso agrado.
4-É ético os grandes data-brokers, ou agências de crédito, como Serasa-Experian, BV Serviços, Acxiom, Equifax, etc terem informações sobre cada um de nós, dos nossos movimentos de pagamento, inadimplência, créditos, etc e venderem para uma empresa que está avaliando a nossa admissão no novo emprego? Pelo lado positivo, você, como empregador, terá milhares de pontos de dados(nome que eles empregam) acerca de pessoas que você analisa para trabalhar com você.
5-É ético que posts “mal colocados” por você no FB, Twitter,etc, possam ser elementos de avaliação de sua conduta?
6-É ético que os nossos dados de busca no Google sejam mantidos e tratados cuidadosamente, possibilitando revelações sobre doenças, posições políticas e opções pessoais de cada um? Pelo lado positivo, não pagamos nada para acessar a maior enciclopédia já desenvolvida.


7-É ético as operadoras de telefonia terem a completa trilha do seu celular ao longo do dia, na medida em os aparelhos fazem um “ping” com as torres, e poderem saber por onde você anda, a que horas você vai e volta do trabalho, ou até as incursões noturnas em nome do futebol com os amigos?

O tema é controverso e há algumas referências muito boas sobre esses aspectos de privacidade ( não foram escritas agora !)  que, no fundo, nos levam à reflexão sobre a ética dos dados. Já li os dois e recomendo:

a)No Place to hide-Robert O ´Harrow Jr, de 2005
b)Delete-The virtue of forgetting in the digital age-Viktor Mayers-Schonberger-2009


Assim, a ética deverá ser elemento avaliado no contexto de dados da empresa, e a GD deverá estar presente. O Gartner Group aponta que 50% dos problemas relacionados com ética de negócios, serão originados do uso impróprio/inadequado dos dados. Portanto, a GD(Governança e Gestão de dados) terá alguns de seus pilares modificados, quando chegarem(como já estão chegando) os conceitos de Big Data, IoT e Ciência de dados. Depois dos arquitetos de dados, gestores de dados, projetistas de dados, modeladores de dados, custodiadores de dados, poderemos ter os psicólogos ou psiquiatras orientando sobre o uso de dados.. Fiquem atento...