Como se encontram os conceitos de Governança, Gestão de
Dados, MDM e correlatos, no momento nos EUA-Visão 2016-Parte I
Evento: EDW-2016-San Diego-California, entre 17 e 22 de
Abril
Embora o Blog do Barbi não pôde ter comparecido
pessoalmente, tive acesso a todas os vídeos de todas as palestras. A análise
cuidadosa de todas as palestras, permite essa visão simplificada do estado da
GD, Bancos NOSQL, Gestão de dados e temas correlatos nos EUA, e de certa forma,
reflete a situação no mundo. Fica até mais confortável, pela possibilidade de
se ouvir várias vezes, o que o listening do meu inglês “Joel Santana” dificulta de
primeira....Enjoy..
A)Palestras sobre NOSQL:
O tema foi bastante discutido em várias 13 palestras, que
variaram de visões mais gerais sobre o conceito e outros mais específicos sobre
certos produtos, passando per aplicações dessa tecnologia em projetos muito
interessantes. Vamos comentar algumas:
1)Health
Care Analytics with na Enterprise Data Lake-Parsa Mirhaji-CTO do Montefiore
Health System e Jans Aasman, CTO da
FranzInc, criadora do Allegrograph
A apresentação mostrou uma interessante aplicação na qual
um importante Centro Clínico americano está
montando um grande Data Lake semântico. Data Lake é um conceito emergente para
designar um grande depósito de informações, de natureza variada, com dados de pacientes,
de famílias de pacientes, dados de imagens, prescrições, medicamentos, especificidades sobre doenças e tratamentos, “devices”
, planos de seguros dos pacientes, etc. Algumas informações complementares
também entram como os dados sócio geográficos de pacientes(onde moram, como
moram, etc) e informações genéticas sobre eles. É na realidade o que
chamávamos, nos anos 80 e 90, de ODS-Operational Data Store, agora amplificado
por Big Data e dados não estruturados, formando uma espécie de repositório
gigantesco, um “sopão” de informações
gerais, de onde podem ser extraídos conjuntos de dados para tratamentos
informacionais específicos, via outras plataformas. A ideia central é ter um
conjunto plural de dados, capaz de, rapidamente, produzir informações precisas
e conectadas, por meio de uma camada NOSQL
que aplique estruturas de grafos e relacionamentos semânticos.
Maturidade em tratamento de dados de saúde
A apresentação mostrou um interessante modelo de
maturidade em “Analytics” para á área de saúde, com 9 níveis(de zero a 8),
evidenciando os tipos de degraus que a empresa pode trilhar em direção a um
patamar mais maduro no tratamento de informações médicas. Vai, por exemplo do
nível zero, onde as soluções de informações se baseiam em fontes de dados(data
points) fragmentados, subindo para um EDW-Data Warehouse Empresarial (nível 1),
alcançando registros padronizados e glossário de termos(nível 2). Continua com
a automatização de relatórios internos(nível 3) e de relatórios externos(nível 4). Sobe um degrau
para contemplar a gerência sobre redução do resíduo hospitalar(nível 5), chegando
na camada de Gerência de saúde da
população, com “analytics” sugestivo e inferencial de potenciais
problemas(nível 6). Cresce para o próximo nível analisando riscos clínicos de
intervenções com análise preditiva(nível 7), até alcançar a camada de medicina
personalizada e prescritiva(nível 8). Baseados em sistemas de aprendizado centrados
em evidências clínicas, os níveis 0 e 1, estão fundamentados em relatórios,
dashboards, Data Marts, etc. Os níveis de 2 a 5 se concentram na melhoria dos
EMR(Eletronic Medical records) , com acesso ubíquo a qualquer informação,
aspectos regulatórios, informações de colaboração e parceiros. Os níveis(6 e 7)
focam em ACO-Accountable Care Organization, no fundo uma organização de
provedores de serviços de saúde com um modelo de entrega(de serviços) e de
pagamentos (de fornecedores) que procura definir com rigor os reembolsos
centrados em métricas de qualidade e de redução no custo total para um tipo
definido de população de pacientes. Isso evidencia a forte associação que os provedores de serviços de saúde tem com os
dados e sua gerência, compondo o conceito forte de HIS-Health Information
Systems. Esse modelo claramente , na medida em que evolui nos degraus descritos,
demandará um volume maior de dados, além de, muito importante, os metadados mais
presentes e elaborados. Não esqueçamos que essa dupla(dados e metadados) são os
pilares para se alcançar uma sólida Gerência de Conhecimento, que no fundo a
indústria da saúde americana procura sistematizar, evidenciada neste trabalho
apresentado.
Data Lake Semântico e suas camadas
A base conceitual da arquitetura é o Data Lake Semântico,
plataforma composta por uma camada em “analytics”
de Big data e computação Cognitiva(uma
forma de processamento de dados que tenta simular a capacidade de pensamento do
ser humano). A camada básica de software
é formada pelo Hadoop(HDFS), com Spark , uma proposta que vem de encontro ao
MapReduce, com uma intenção de maior performance, focando em processamento em memória e com o mesmo
objetivo básico de processar uma imensidão de dados distribuídos em diversos
clusters de processadores. Processa comandos SQL e dados “in-stream” , com
fluxos constantes. Além disso, o sistema aplica os conceitos de Redes
Semânticas, procurando uma estruturação de dados, baseada em
triplas(sujeito-predicado-objeto), como (Barbieri=sujeito), (operou=predicado),
(a tiroide=objeto). Essa estruturação, no estilo de grafos, se ajusta
perfeitamente na montagem de pedaços de conhecimentos, ligando via nós e arcos,
os átomos de informação e seus relacionamentos. Para tal, os conceitos de metadados e ontologia são usados
e complementam a formação em direção a uma melhor produção de conhecimento. A
Ontologia é aquela parte que formaliza as classificações de “coisas”, no caso
aqui classificações de medicamentos, de doenças, de tipos de atendimento, de
tipos de pacientes, etc, que acabam compondo a camada final de metadados, fundamental
para a codificação e a cristalização do
conhecimento. Parte de repositórios ontológicos já existentes são usados como
o NCI-Thesaurus(National Cancer
Institute), GO-Gene Ontology, para descrições de termos e
conceitos de genéticas, etc. Aproximadamente 183 bases de conhecimento,
ontologias e termos são usados no sistema, formando o Knowledgebase do sistema.
O NOSQL usado neste projeto é o AllegroGraph e
Hive(solução de DW que roda sobre o Hadoop e foi desenvolvido inicialmente pelo
FB e hoje atende ao Netflix). O Datalake, em si, é armazenado no Hive (DW) e os
dados são tratados, na forma de redes semânticas, via o Allegrograph , um BD
NoSQL do tipo grafo. Usam o SPARQL, uma linguagem espécie de SQL like para buscar
informações de nós e arcos. O Allegrographo forma com o Neo4J, a dupla de
destaque dos produtos NOSQL da categoria BD de Grafos.
Objetivo final:
No fundo, o que o sistema busca, de forma reduzida e
simplificada, é melhorar as ações de diagnósticos, cruzando instantaneamente
sintomas de um certo paciente e
procurando similaridades com outros pacientes que já manifestaram o mesmo problema,
onde um conjunto gigantesco de informações já coletadas, poderá produzir e melhorar
as inferências sobre aquele caso em análise. Foi citado o caso grave de um
garoto internado com alergia a amendoim e que por correlações não diretas descobriu-se
que tinha asma, detectado por uma rede de conhecimento entre alergia a
amendoim, dermatite e asma. O sistema
também poderia responder query do tipo: Quantos pacientes com um diagnóstico
relacionado com dores abdominais (X) , no espaço de 30 dias, retornaram com um
diagnóstico relacionado a pedras na vesícula (Y), depois de 10 dias ? O desenvolvimento da Ciência de dados , numa
ambiente deste tipo, poderá trazer respostas para previsões em torno de
possíveis doenças(a acontecer); a probabilidade de readmissão(reincidência da
doença dentro de x dias), a efetividade dos procedimentos e dos medicamentos
usados; o que poderia ser melhor para um certo paciente, dado o conjunto
particular de doenças e seus aspectos genéticos, a efetividade e a eficiência
dos provedores envolvidos(médicos, enfermeiras, departamentos, etc), etc Os algoritmos de similaridade entre pacientes
são possíveis pelos links definidos no sistema entre ontologias diversas. O
conceito de “data provenance” e “data lineage” são considerados fundamentais
nesse contexto, rastreando-se a origem dos dados (provenance), considerando
todos os passos intermediários por onde o dado transitou (lineage), podendo
analisar a sua qualidade e possíveis erros. Tudo isso é fator fundamental
quando se fala de dados sobre saúde e vida.
Resumo da ópera:
A palestra foi focada especificamente em Health
Information System, onde dados são importantes pelo papel que representam na
saúde e na vida da população. Foi feita, na sua primeira parte pelo Chief
Technical Officer (CTO) da organização médica que desenvolve o sistema, num
centro de excelência em Nova York, A palestra deixou algumas dúvidas, justo pela
alta especialização do tema Na segunda parte falou o CTO da empresa que oferece
o produto(Allegrograph), numa simbiose comum nesses eventos. O entusiasmo de
quem usa e o produtor daquilo que é usado como “tool”, sempre produzem
palestras com visão muito otimista, onde problemas e restrições naturais de
qualquer solução não são trazidas para os PPT´s. Assim, todo filtro é cuidadoso
e sugerido..
Nenhum comentário:
Postar um comentário