Juntamente com a Segurança, os aspectos de Privacidade e
Discriminação formam os três maiores pontos de cuidado a serem observados com a
chegada de Big Data e Data Science. Vejamos:
1-Quebra de anonimato por informações parciais:
Um ponto importante sobre privacidade dos dados/anonimato
é que para quebrá-la não é necessário o conhecimento de todos os seus PII/PD(Personal
Identifiable Information/Personal Data). Uma pesquisa mostra que com somente o
seu Zip-code(cep),sexo e data de nascimento alcança-se uma taxa de 87% de
chance de identificar a pessoa. Um relato interessante sobre isso: A Comissão
geral de seguros, nos EUA, liberou, certa feita, um conjunto de dados(que
chamam de de-identified data, ou seja sem a identificação da pessoa) sobre
seguro de saúde contendo somente o zip-code, a data de nascimento e o
sexo, além de informações sobre seguro do referido. Uma especialista em ciência
da computação do MIT, chamada Latanya Sweeney, através de um algoritmo
desenvolvido, chegou no registro de saúde do Governador William Weld
(Massachussets-1991-1997), inclusive com diagnósticos e prescrição. Isso
comprovou, para espanto de todos, a possibilidade de se alcançar alguém, mesmo
que não se tenha os chamados dados identificadores.
2-Quebra de anonimato por informações correlacionadas:
Outro aspecto importante é que o seu anonimato pode ser
quebrado por correlações entre informações colocadas por você mesmo, em
diferentes fontes/sites. Um exemplo aconteceu num concurso feito pela NetFlix,
que dava US$1 milhão para quem conseguisse desenvolver um algoritmo (tipo
Market-Basket, na verdade método utilizado de recomendação, onde são cruzados
perfis de usuários com perfis de produtos) que superasse em precisão, o mecanismo
existente. Esse algoritmo é aquele que consegue inferir quais seriam as suas
próximas escolhas, baseado no seu perfil de usuário. Algo parecido com aquele (quem compra A
compra B, etc). Se você tem um perfil de “Geek” e um elevado percentual de “geeks”
gosta de “Star Trek”, possivelmente esta será uma sugestão válida para o seu
perfil. O NetFlix entregou uma lista de filmes assistidos por seus clientes,
omitindo, claro, a identificação do assinante. Um certo assinante não
identificado assistiu os filmes, a,b,c..., do gênero tal, nas respectivas datas,
d1, d2,etc,etc. Um profissional de dados, resolveu fazer uma análise do IMDB, aquele
grande site com informações sobre todos os filmes. Lá, as pessoas opinam sobre
os filmes assistidos e claro, normalmente se identificam. Fazendo uma
correlação entre um subconjunto de opiniões emitidas por uma pessoa
identificada no IMDB com os registros anônimos do Netflix, ele chegou à
conclusão de quem (provavelmente) era quem. Na lista anônima do NetFlix (daquela
possível pessoa) havia também uma série de filmes do gênero “gay”, que, claro,
não estavam comentados no IMDB. O analista de dados, por correlações indiretas,
publicou nas suas redes sociais a sua “descoberta”. A pessoa descoberta era uma
mãe “gay” ainda “dentro do armário”, o que resultou num grande “rebut”. A senhora
foi para cima do NetFlix com uma ação por quebra de privacidade de US$8 milhões
e o NetFlix acabou com o tal concurso. Os exemplos mostram que , embora para
nós possa ser difícil perceber certas correlações à primeira vista, isso pode
ser feito facilmente, com observação, paciência, e se necessário, o poder dos
processadores. Além da segurança e da privacidade, os aspectos de discriminação
no uso dos dados também entram na tela de radar dos aspectos de ética.
Lei
e Discriminação:
Um dos problemas clássicos na aplicação dessas leis é o
claro descompasso existente entre elas e a velocidade de desenvolvimento das
tecnologias. O que acontece é que as leis (ainda) não evoluíram para serem
aplicadas em tecnologias como Big Data, IoT e IA e , por isso , busca-se uma
adaptação da legislação atual. Mesmo assim, nos EUA, algumas multas têm sido
aplicadas em empresas com tecnologia avançada, embora a lei tenha sido definida
num contexto antigo e diferente. Exemplo da Spokeo, empresa classificada como
Data Broker, mas que foi punida e enquadrada como empresa CRA-(Agência de
classificação de risco) e que pagou US$800.000,00 de “fine”. Outro caso foi a
multa aplicada na empresa Trendnet, que oferece serviços de câmeras de
segurança via internet, mas que apresentou problemas na oferta de seus
serviços, com invasão de hackers. O FTC(Procon dos EUA) aplicou, nesses casos,
leis já existentes, sem serem específicas para o contexto da era digital.
O FTC lançou um manual relativo a esses aspectos de leis
e proteção dos consumidores com relação ao uso de Big Data. Chama-se Big Data-A
Tool for inclusion or exclusion? Understanding the issues-FTC Report-January
2016, que pode ser acessado no endereço
https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf
O documento faz uma análise detalhada sobre os benefícios
de Big Data e os possíveis impactos que o seu uso pode ter na sociedade, se
certos cuidados não forem observados. São citadas as leis que já existem, nos
EUA e que podem ser aplicadas na regulação do uso de Big Data:
1-Fair Credit Reporting Act, aplicada em empresas
chamadas CRA-Credit Reporting Agencies, que tem o seu business na compilação e
venda de informações sobre consumidores, usadas para análise de concessão de
créditos, seleção de empregados, venda de seguros, corretoras de aluguéis, etc e
que decidem a elegibilidade de alguém em qualquer dessas circunstâncias. A Lei
define o rigor de precisão que essas informações devem ter, além de permitir ao
consumidor acesso a elas e a possibilidade de corrigi-las, caso pertinente. A
preocupação com a chegada de Big Data neste cenário é que as empresas poderão
usar, no lugar dos dados tradicionalmente considerados para essas decisões,
outras informações que poderão influenciar a resultado final para o consumidor.
Por exemplo, no lugar as tradicionais comparações de histórico de pagamento de
débitos, a empresa emprega o uso de zip-code(analisando a localização de
moradia e por consequência o seu status social) ou o uso de redes sociais,
identificando comportamentos não diretamente associados à capacidade de
pagamento ou ao risco de inadimplência.
2-Leis de igualdade de oportunidades: O FTC também aborda
as diversas leis que regulamentam igualdades de oportunidades, como a lei de
igualdade de oportunidade de crédito(ECOA-Equal Credit Opportunity Act). Outras
leis, como a de 1964 ((Title VII of the civil rights Act-1964) que protege os
direitos civis se juntam a outras que definem um escudo de proteção contra
discriminação por raça, cor, gênero, religião, origem, estado civil,
deficiências e informações genéticas. Por exemplo, se alguém tem no seu genoma
marcadores que sugerem propensão ao câncer de próstata, isso, não poderá ser
usado na seleção de empregos ou na análise e seleção de inquilinos.
3-Lei do Procon(Federal Trade Commission Act): A seção 5
da Lei do Procon americano, que trata de proteção contra práticas injustas ou
enganosas, agora focada no uso de Big Data. As empresas que se utilizam de
Analytics com Big Data, deverão verificar se não estão quebrando certas regras com
relação aos consumidores. Por exemplo, se não estão infringindo aspectos sobre
o compartilhamento de dados dos consumidores, ou sobre a preservação de seus
dados pessoais, ou se há a opção consciente e consentida deste
compartilhamento. Além disso, no mínimo, as empresas provedoras desses dados
deverão estar cientes sobre o uso que será feito com os dados, garantindo que
este não será com objetivos fraudulentos ou discriminatórios.
Com o objetivo de maximizar os benefícios e mitigar os
riscos no uso dos dados, o Guia sugere algumas práticas de QA-Garantia da
Qualidade, através de certas observações:
--Quanto representativo é o seu conjunto de dados? No
fundo sugere a verificação de quanto balanceado está o seu dado, procurando
fugir de impropriedades de “extremos”.
Por exemplo, se os dados são obtidos de redes sociais ou aplicativos, uma parte
da população não afeita a esses ambientes, poderá ser excluída. Como os dados
foram coletados, quando e por quê?
--Como estão os dados e as amostras, com relação a tendências/distorções(biased).
O quanto confiável são os dados? Tem um pouco a ver com o anterior, porém se
concentra em observações de partes do ciclo de vida dos dados(DLCM-Data Lyfe
Cycle Management), atentando para que certos elementos de distorções, omissões ou
tendências não estejam presentes nos dados, ao longo desse fluxo. Por exemplo,
na fase inicial de um processo admissional, no processo de coleta, observar cuidados
com fatores seletivos que definem, por exemplo, universidades “tops”, para
compor o processo. Isso tenderá a excluir profissionais de outros domínios, que
podem ser tão bons ou até melhores, mas serão excluídos pela inserção de um
fator “biased”.
--Observar com cuidado os aspectos de precisão dos
algoritmos de predição. A análise, não cuidadosa de certas variáveis que compõe
o “core” do algoritmo de predição e inferência, poderá levar a resultados não
confiáveis. Os algoritmos deverão ser governados(conforme já falado
anteriormente), com o intuito de garantir a preservação de aspectos éticos e de
equidade das tomadas de decisão. Aspectos de registros de erros já detectados
pelo uso dos algoritmos (falsos positivos ou falsos negativos) relacionados com
gênero, sexo, raça deverão formar uma base de conhecimento.
--Aspectos de responsabilidades: Definir “accountability”
(responsabilidade final) pela aplicação dos algoritmos e de seus resultados que
poderão influenciar em liberdades e direitos.
Validade
dos dados e dos algoritmos:
Com o crescimento dos conceitos de Big Data e a tendência
de sua interpretação por algoritmos de “machine learning”, cresce uma
preocupação: Qual a precisão das máquinas, com seus algoritmos estatísticos
para realizar uma inferência sobre, por exemplo, a figura mostrada a seguir?.
Qual a garantia de preservação de privacidade ou de possibilidade de geração de
embaraços, num exemplo como esse? Conforme O Globo de 08 de setembro de 2017, a
Universidade de Stanford desenvolveu um algoritmo que permite com mais de 80% de precisão inferir a opção sexual de uma
pessoa, analisando somente as suas feições numa fotografia. (figura 01).
Figura 01
Fonte:
O Globo. INTELIGÊNCIA ARTIFICIAL DETECTA SE UMA PESSOA É GAY ANALISANDO
FOTOGRAFIAS. Disponível
em :
https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-se-uma-pessoa-gay-analisando-fotografias-21799100
, acesso em 8/9/2017.
Embora o algoritmo ainda se restrinja a pessoas adultas,
caucasianas, etc como garantir que tal inferência está estatisticamente
correta? Como gerenciar, do ponto de vista de ética dos dados essas pretensas
adivinhações digitais? E as consequências da liberação de um algoritmo desses
na internet, onde fotografias de amigos e parentes circulam livremente em redes
sociais e poderiam ser analisados? Como gerenciar essa nova e complexa faceta
dos dados?
Veja um outro exemplo, também veiculado no O Globo, agora
de 01/Novembro de 2017.(figura 02) O artigo aponta que os algoritmos de AI já mostram
resultados na detecção de padrões cerebrais dos pensamentos suicidas. Embora
esse exemplo até sugira intervenção nobre e preventiva, como garantir que os
resultados sejam corretos e as suas consequências, no caso do falso positivo e
do falso negativo?
Fonte:
MATSUURA, SÉRGIO. “INTELIGÊNCIA ARTIFICIAL DETECTA PADRÕES CEREBRAIS DOS
PENSAMENTOS SUICIDAS”. Disponível em :
https://oglobo.globo.com/sociedade/tecnologia/inteligencia-artificial-detecta-padrões-cerebrais-dos-pensamentos-suicidas-22015064
, acesso em 8/9/2017.
Outro exemplo, publicado, agora na UOL, mostra o caso da
atriz de Mulher Maravilha, cujo rosto foi “transplantado” por algoritmos de
IA(Machine learning -TensorFlow da Google) para personagens de filmes
pornográficos.(figura 03)
Figura 03
Fonte: Uol. FILMES PORNÔ COM CELEBRIDADES? A
MAIORIA É FRUTO DE INTELIGÊNCIA ARTIFICIAL. disponível em
https://tecnologia.uol.com.br/noticias/redacao/2017/12/13/filmes-porno-com-celebridades-a-maioria-e-fruto-de-inteligencia-artificial.htm,
acesso em 13/12/17.
Assim, a validade dos dados e a equidade dos algoritmos são
temas que deverão, a partir de agora, fazer parte dos itens de QA-Quality
Assurance dos cientistas de dados, se já não o fazem. A Gestão e Governança de
dados ganham mais uma fatia de processos, agora com o que chamei de “psicologia”
e cuidado no uso dos dados.
O livro “Weapons
of Math Destruction: How Big data increases inequality and threatens democracy” é uma referência interessante
quando se pensa nos aspectos de igualdade de tratamento e ameaças dos
algoritmos. O livro, que tem no título um trocadilho de “armas de destruição em
massa”, (trocando mass por math) circulou pelas listas dos melhores de 2016, no
conjunto mais respeitado da imprensa americana como New York Times, Boston
Globe, Wired, Fortune, etc. Escrito por Cathy O´Neil, uma matemática que trabalhou como analista de
hedge-fund e cientista de dados e fundou
uma empresa com o objetivo de auditar algoritmos (ORCAA). Colunista da
Bloomberg, apresenta uma visão aguda e
crítica sobre os problemas produzidos por decisões automatizadas dirigidas por
códigos, ilustrada com vários exemplos de problemas desta natureza. Com foco nos algoritmos “black box”, objetiva
analisar e entender os riscos existentes nas decisões caixa-preta que chegaram
com os conceitos de Big data quando casado com IA. Esses riscos poderão
gravitar por sobre decisões tendenciosas que são desiguais para classes, raças,
sexo,etc e poderão colocar as empresas em situação de vulnerabilidade em função
de suas tomadas de decisão. A consultora criou uma empresa especializada,
justamente neste tipo de auditoria, criando um processo que objetiva , com
rigor, auditar os algoritmos que tomam decisão. É uma espécie do que eu chamei
de QA da IA, ou seja a “Quality Assurance” da Inteligência artificial.
Referências:
FTC-Federal Trade Commission. Big Data-A Tool for
inclusion or exclusion? Understanding the issues-FTC Report-January 2016, disponível
em https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf , acesso
em 01 de novembro de 2017.
Jagadish, H. Ethics on Data Science. Curso EAD. Universidade
de Michigan, 2017.
Jie Lu, Dianshuang Wu, Mingsong Mao, Wei Wang, Guangquan
Zhang, Recommender system application developments: A survey, In Decision
Support Systems, Volume 74, 2015, Pages 12-32, ISSN 0167-9236,
https://doi.org/10.1016/j.dss.2015.03.008.
Lasprogata, G.,Colaner,N., Olsen,B. Curso EAD. Ethics and Law in Analytics and
AI. Universidade de Seattle. 2017.
O´Neil, C. Look for who´s fighting our algorithmic
overlords. disponível em www.bloomberg.com/view/articles . Bloomberg, acesso em 14/12/2017.
O´Neil, C. “Gaydar” shows how creepy algorythms can get.
disponível em www.bloomberg.com/view/articles, Bloomberg, acesso em 14/12/2017.
O´Neil, C. Weapons of math destruction: How Big Data
increases inequality and threatens democracy. Broadway Books.2016.
Temática atual e relevante... E em pleno 2 de janeiro o Barbieri postando! Abs!
ResponderExcluirA segurança da informação é um tema vasto e com frequência ultrapassa as fronteiras da TI.Isso por si só já é complexo.
ResponderExcluirImagine agora, com o surgimento dos algoritmos "decifradores", como a situação ganha em complexidade e dimensão. É um universo em exploração que merece um olhar alerta, quanto à utilização. Agora não apenas pensando em divulgar ou não um dado, mas redobrada atenção na verdade que ele traz(ou não).Abraço do Luiz Claudio.