$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Para produzir resultados de amostra, implementamos o algoritmo de CaseOLAP em duas rubricas/descritores de assunto: "Faixas etárias" e "Nutricional e doenças metabólicas" como casos de uso.
Grupos de idade. Nós selecionamos todas as 4 subcategorias de "Grupos etários" (infantil, criança, adolescente e adulto) como células em um texto-cubo. Os metadados obtidos e estatísticas são mostradas na tabela 3A. A comparação do número de documentos entre as células de cubo de texto é exibida na figura 6A. Adulto contém 172.394 documentos que é o número mais alto em todas as células. As subcategorias de adultas e adolescentes têm o maior número de documentos compartilhados (26.858 documentos). Notadamente, estes documentos incluíam a entidade de nosso interesse apenas (ou seja, proteínas mitocondriais). O diagrama de Venn na Figura 6B representa o número de entidades (ou seja, proteínas mitocondriais) encontrado dentro de cada célula e dentro de várias sobreposições entre as células. O número de proteínas compartilhado dentro de todos os grupos etários subcategorias é 162. A subcategoria adulta retrata o maior número de proteínas únicas (151) seguido por criança (16), infantil (8) e do adolescente (1). Calculamos a associação de grupo de proteínas-idade como uma pontuação de CaseOLAP. As proteínas de top 10 (com base na sua pontuação média de CaseOLAP) associadas com criança, criança, adolescente e adulto subcategorias são esterol 26-hidroxilase, cadeia alfa-CRYGS B, D-1 de 25-hidroxivitamina alfa-hidroxilase, Serotransferrin, citrato sintase, L-seryl-tRNA, transporte de sódio/potássio ATPase subunidade alfa-3, Glutathione S-transferase Ômega-1, NADPH: adrenodoxina oxidorredutase e peptídeo mitocondrial metionina sulfóxido redutase (mostrado na Figura 6). A subcategoria adulta exibe 10 heatmap células com uma intensidade mais elevada em comparação com as células heatmap da criança, adolescente e infantil subcategoria, indicando que o top 10 proteínas mitocondriais apresentam as associações mais fortes para a subcategoria de adulta. A proteína mitocondrial esterol 26-hidroxilase tem associações de altas em todas as subcategorias de idade que é demonstrado pelas células heatmap com intensidades mais elevadas em comparação com as células heatmap das outras 9 proteínas mitocondriais. A distribuição estatística da absoluta diferença na pontuação entre dois grupos mostra o seguinte intervalo de diferença de média, com um intervalo de confiança de 99%: (1) a diferença média entre 'ADLT' e 'INFT' encontra-se no intervalo (0,029 a 0.042), média (2) diferença entre 'ADLT' e 'CHLD' encontra-se no intervalo (0.021 para 0,030), (3) a diferença média entre 'ADLT' e 'ADOL' encontra-se no intervalo (0.020 a 0,029), (4) a diferença média entre 'ADOL' e 'INFT' encontra-se no intervalo (0.015 a 0,022), (5) a diferença média entre 'ADOL' e 'CHLD' situa-se no intervalo (0,007 a 0,010), (6) a diferença média entre 'CHLD' e 'INFT' encontra-se no intervalo (0.011 para 0.016).
Doenças nutricionais e metabólicas. Nós selecionamos 2 subcategorias de "Nutricional e doenças metabólicas" (ou seja, doença metabólica e distúrbios nutricionais) para criar 2 células em um texto-cubo. Os metadados obtidos e estatísticas são mostradas na tabela 3B. A comparação do número de documentos entre as células de cubo de texto é exibida na Figura 7A. A doença metabólica subcategoria contém 54.762 documentos seguidos por 19.181 documentos em distúrbios nutricionais. A doença metabólica de subcategorias e distúrbios nutricionais têm 7.101 documentos compartilhados. Notadamente, estes documentos incluíam a entidade de nosso interesse apenas (ou seja, proteínas mitocondriais). O diagrama de Venn na Figura 7B representa o número de entidades encontradas dentro de cada célula e dentro de várias sobreposições entre as células. Calculamos a proteína-"Nutricional e doenças metabólicas" associação como uma pontuação de CaseOLAP. As proteínas de top 10 (com base na sua pontuação média de CaseOLAP) associadas com este caso de uso são esterol 26-hidroxilase, alfa-CRYGS B cadeia, L-seryl-tRNA, citrato sintase, tRNA pseudouridine sintase A 25-hidroxivitamina D-1 alfa-hidroxilase, Glutathione S-transferase Ômega-1, NADPH: adrenodoxina oxidorredutase, redutase de sulfóxido de metionina peptídeo mitocondrial, inibidor do ativador do plasminogênio 1 (mostrado na Figura 7). Mais da metade (54%) de todas as proteínas são compartilhados entre as doenças metabólicas subcategorias e distúrbios nutricionais (397 proteínas). Curiosamente, quase metade (43%) de proteínas está associadas na subcategoria doença metabólica são exclusivas (300 proteínas), Considerando que distúrbios nutricionais apresentam apenas algumas proteínas únicas (35). Cadeia B de alfa-CRYGS exibe a associação mais forte para as doenças metabólicas subcategoria. Esterol 26-hidroxilase, mitocondrial exibe a associação mais forte na subcategoria transtornos nutricionais, indicando que esta proteína mitocondrial é altamente relevante em estudos descrevendo desordens nutricionais. A distribuição estatística da absoluta diferença na pontuação entre dois grupos 'MBD' e 'NTD' mostra o intervalo (0,046 a 0.061) para a diferença média como um intervalo de confiança de 99%.

Figura 1. Modo de exibição dinâmico de fluxo de trabalho CaseOLAP. Esta figura representa as 5 principais etapas do fluxo de trabalho CaseOLAP. Na etapa 1, o fluxo de trabalho começa por baixar e extrair documentos textuais (por exemplo, a partir de PubMed). Na etapa 2, os dados extraídos são analisados para criar um dicionário de dados para cada documento, bem como uma malha para mapeamento PMID. Na etapa 3, indexação de dados é realizado para facilitar a busca rápida e eficiente da entidade. Na etapa 4, implementação de informação fornecido pelo usuário de categoria (ex.., raiz de malha para cada célula) é realizada para construir um texto-cubo. Na etapa 5, a operação de contagem de entidade é implementada sobre dados de índice, para calcular a pontuação de CaseOLAP. Essas etapas são repetidas de forma iterativa para actualizar o sistema com as últimas informações disponíveis em uma base de dados pública (por exemplo, PubMed). Clique aqui para ver uma versão maior desta figura.

Figura 2. Arquitetura técnica do fluxo de trabalho CaseOLAP. Esta figura representa os detalhes técnicos do fluxo de trabalho CaseOLAP. Dados do repositório PubMed são obtidos do servidor de FTP do PubMed. O usuário se conecta ao servidor nuvem (por exemplo, conectividade AWS) através do seu dispositivo e cria um Pipeline de Download que faz o download e extrai os dados de um repositório local na nuvem. Dados extraídos são estruturados, verificados e trouxe para um formato adequado com um Pipeline de análise de dados. Simultaneamente, uma malha para a tabela de mapeamento PMID é criada durante a etapa de análise, que é usada para construção de texto-cubo. Dados analisados são armazenados como um JSON como formato de chave-valor dicionário com metadados do documento (por exemplo, PMID, malha, publicação ano). A etapa de indexação mais melhora os dados implementando Elasticsearch para lidar com grandes volumes de dados. Em seguida, o texto-cubo é criado com categorias definidas pelo usuário através da implementação de malha para mapeamento PMID. Quando a formação do texto-cubo e indexação passos forem concluídos, uma contagem de entidade é conduzida. Dados de contagem de entidade são implementados para os metadados de texto-cubo. Finalmente, a pontuação de CaseOLAP é calculada com base na estrutura subjacente do texto-cubo. Clique aqui para ver uma versão maior desta figura.

Figura 3. Uma amostra de um documento analisado. Uma amostra de dados analisados é apresentada nesta figura. Os dados analisados são organizados como um par chave-valor que é compatível com a criação de metadados de documentos e indexação. Nesta figura, uma PMID (por exemplo, "25896987") está servindo como uma chave e coleta de informações associadas (por exemplo, título, revista, data, abstrato, MeSH, substâncias, departamento e local de publicação) como valor. A primeira aplicação de tal documento metadados é a construção da malha para PMID mapeamento (Figura 5 e tabela 2), que mais tarde é implementado para criar o texto-cubo e para calcular a pontuação de CaseOLAP com entidades fornecido pelo usuário e categorias. Clique aqui para ver uma versão maior desta figura.

Figura 4. Um exemplo de uma árvore de malha. Árvore de malha de 'idade dos grupos é adaptado a partir da estrutura de dados árvore disponível no banco de dados do NIH (MeSH árvore 2018, < https://meshb.nlm.nih.gov/treeView>). Descritores de malha são implementados com seu IDs (por exemplo, pessoas [M01], idades [M01.060], adolescente [M01.060.057], adulto [M01.060.116], criança [M01.060.406], infantil [M01.060.703]) para coletar os documentos relevantes para um descritor específico de malha ( de nó 3A da tabela). Clique aqui para ver uma versão maior desta figura.

Figura 5. MeSH para mapeamento PMID em faixas etárias. Essa figura apresenta o número de documentos de texto (cada um ligado com um PMID) coletado sob os descritores de malha em "Faixas etárias" como um enredo de bolha. A malha para mapeamento PMID é gerada para fornecer o número exato dos documentos recolhidos sob os descritores de malha. Um número total de 3.062.143 documentos originais foram coletado sob os descritores de malha 18 descendentes (ver tabela 2). Quanto maior o número de PMIDs selecionada sob um descritor de malha específico, quanto maior o raio da bolha que representa o descritor de malha. Por exemplo, o maior número de documentos foram coletado sob o descritor de malha "Adulto" (1.786.371 documentos), Considerando que o menor número de documentos de texto foram coletado sob o descritor de malha "Infante, Postmature" (62 documentos).
Um exemplo adicional de malha para mapeamento PMID é dada para "Doenças nutricionais e metabólicas" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Um número total de 422.039 documentos originais foram coletado sob os 361 descritores MeSH descendentes em "Doenças nutricionais e metabólicas". O maior número de documentos foram coletado sob o descritor de malha "Obesidade" (77.881 documentos) seguiram por "Diabetes Mellitus tipo 2" (61.901 documentos), Considerando que "doença do armazenamento de glicogênio, digite VIII" exibiu o menor número de documentos (1 documento ). Uma tabela relacionada também está disponível online em (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Clique aqui para ver uma versão maior desta figura.

Figura 6. "Faixas etárias" como um caso de uso. Essa figura apresenta os resultados de um caso de uso da plataforma de CaseOLAP. Neste caso, nomes de proteína e suas abreviaturas (ver exemplo no quadro 4) são implementadas como entidades e "Faixas etárias", incluindo as células: Infante (INFT), criança (CHLD), adolescente (ADOL) e adulto (ADLT), são implementados como subcategorias (ver Tabela 3A). () Número de documentos em "Faixas etárias": Este mapa de calor mostra o número de documentos distribuídos entre as células dos "Grupos de idade" (para obter detalhes sobre o texto-cubo criação ver protocolo 4 e a tabela 3A). Um maior número de documentos é apresentado com uma intensidade mais escura do heatmap célula (veja a escala). Um único documento pode ser incluído em mais de uma célula. O heatmap apresenta o número de documentos dentro de uma célula ao longo da posição diagonal (por exemplo, ADLT contém 172.394 documentos que é o número mais alto em todas as células). A posição nondiagonal representa o número de documentos, caindo em duas células (por exemplo, ADLT e ADOL tem 26.858 documentos compartilhados). (B) . Contagem de entidade em "Faixas etárias": o diagrama de Venn representa o número de proteínas encontradas nas quatro células representando "Faixas etárias" (INFT, CHLD, ADOL e ADLT). O número de proteínas compartilhados em todas as células é 162. O grupo de idade ADLT retrata o maior número de proteínas únicas (151) seguido por CHLD (16), INFT (8) e ADOL (1). (C) CaseOLAP apresentação de pontuação em "Faixas etárias": As top 10 proteínas com as maiores pontuações CaseOLAP médias de cada grupo são apresentadas em um mapa de calor. Uma maior pontuação CaseOLAP é apresentada com uma intensidade mais escura do heatmap célula (veja a escala). Os nomes de proteína são exibidos na coluna da esquerda e as células (INFT CHLD, ADOL, ADLT) são exibidas ao longo do eixo x. Algumas proteínas mostram uma forte associação a um grupo etário específico (por exemplo, esterol 26-hidroxilase, Cadeia de alfa-CRYGS B e L-seryl-tRNA tem fortes associações com ADLT, Considerando que o transporte de sódio/potássio ATPase subunidade alfa-3 tem uma forte associação com INFT). Clique aqui para ver uma versão maior desta figura.

Figura 7. "Nutricional e doenças metabólicas" como um caso de uso: esta figura apresenta os resultados de outro caso de uso da plataforma de CaseOLAP. Neste caso, nomes de proteína e suas abreviaturas (ver exemplo no quadro 4) são implementadas como entidades e "Nutricional e doença metabólica" incluindo as duas células: doença metabólica (MBD) e distúrbios nutricionais (NTD) são implementados como subcategorias (consulte a tabela 3B). (A). número de documentos em "Doenças nutricionais e metabólicas": este heatmap retrata o número de documentos de texto nas células de "Doenças nutricionais e metabólicas" (para obter detalhes sobre a criação de texto-cubo, consulte protocolo 4 e tabela 3B ). Um maior número de documentos é apresentado com uma intensidade mais escura do heatmap celular (ver escala). Um único documento pode ser incluído em mais de uma célula. O heatmap apresenta o número total de documentos dentro de uma célula ao longo da posição diagonal (por exemplo, MBD contém 54.762 documentos que é o número mais alto entre as duas células). A posição nondiagonal representa o número de documentos compartilhada por duas células (por exemplo, MBD e NTD tem 7.101 documentos compartilhados). (B). contagem de entidade em "Doenças nutricionais e metabólicas": o diagrama de Venn representa o número de proteínas encontradas nas duas células representando "Nutricional e doenças metabólicas" (MBD e NTD). O número de proteínas compartilhada dentro das duas células é 397. A célula MBD retrata 300 proteínas únicas, e a célula NTD retrata 35 proteínas únicas. (C). CaseOLAP apresentação de pontuação em "Doenças nutricionais e metabólicas": as proteínas de top 10 com as maiores pontuações médias de CaseOLAP em "Doenças nutricionais e metabólicas" são apresentadas em um mapa de calor. Uma maior pontuação CaseOLAP é apresentada com uma intensidade mais escura do heatmap celular (ver escala). Os nomes de proteína são exibidos na coluna esquerda e células (MBD e NTD) são exibidas ao longo do eixo x. Algumas proteínas mostram uma forte associação a uma categoria de doença específica (por exemplo, alfa-CRYGS B cadeia tem uma alta associação com doença metabólica e esterol 26-hidroxilase tem uma alta associação com distúrbios nutricionais). Clique aqui para ver uma versão maior desta figura.
| Tempo gasto (porcentagem do tempo total) | Passos na plataforma CaseOLAP | Algoritmo e estrutura de dados da plataforma CaseOLAP | Complexidade do algoritmo e estrutura de dados | Detalhes das etapas |
| 40% | Transferindo e Análise | Iteração e árvore de análise de algoritmos | Iteração com loop aninhado e multiplicação constante: O(n^2), O (logn). Onde ' n'é não de iterações. | O pipeline de Downloading itera cada procedimento em vários arquivos. Análise de um único documento executa cada procedimento sobre a estrutura de árvore de dados brutos de XML. |
| 30% | Indexação, pesquisa e criação de cubo de texto | Iteração, algoritmos de busca por Elasticsearch (classificação, índice Lucene, filas de prioridade, as máquinas de estado finito, bit sem fazer cortes, consultas de regex) | Complexidade relacionada com Elasticsearch (https://www.elastic.co/) | Documentos são indexados pela implementação do processo de iteração sobre o dicionário de dados. A criação de texto-cubo implementa documento meta-dados e informações fornecidos pelo usuário da categoria. |
| 30% | Entidade contagem e cálculo CaseOLAP | Iteração na integridade, popularidade, cálculo de distintividade | (1), O(n^2), múltiplas complexidades relacionadas com caseOLAP cálculo de pontuação com base nos tipos de iteração. | Operação de contagem de entidade lista os documentos e fazer uma operação de contagem a lista. Os dados de contagem de entidade são usados para calcular a pontuação de CaseOLAP. |
Tabela 1. Algoritmos e complexidades. Esta tabela apresenta as informações sobre o tempo gasto (porcentagem do tempo total gasto) sobre os procedimentos (por exemplo, transferindo, análise), estrutura de dados e detalhes sobre os algoritmos implementados na plataforma CaseOLAP. CaseOLAP implementa a indexação profissional e aplicação de pesquisa chamado Elasticsearch. Informações adicionais sobre complexidades relacionadas com Elasticsearch e algoritmos internos podem ser encontradas em (https://www.elastic.co).
| Descritores de malha | Número de PMIDs coletados |
| Adulto | 1.786.371 |
| Com idade média | 1.661.882 |
| Com idade | 1.198.778 |
| Adolescente | 706.429 |
| Jovem adulto | 486.259 |
| Criança | 480.218 |
| Com a idade, 80 e mais | 453.348 |
| Criança, pré-escolar | 285.183 |
| Infante | 218.242 |
| Recém | 160.702 |
| Infante, prematuro | 17.701 |
| Nascimento de criança, baixo peso | 5.707 |
| Idosos frágeis | 4.811 |
| Nascimento de criança, muito baixo peso | 4.458 |
| Infantil, pequeno para a idade gestacional, | 3.168 |
| Criança, extremamente prematura | 1.171 |
| Peso de nascimento de criança, extremamente baixa | 1.003 |
| Infante, Postmature | 62 |
Tabela 2. MeSH para estatísticas de mapeamento PMID. Esta tabela apresenta todos os descritores de malha descendentes de "Faixas etárias" e seu número de PMIDs coletados (documentos de texto). A visualização destas estatísticas é apresentada na Figura 5.
| A | Infante (INFT) | Criança (CHLD) | Adolescente (ADOL) | Adulto (ADLT) |
| ID de raiz de malha | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Número de descritores de malha descendentes | 9 | 2 | 1 | 6 |
| Número de PMIDs selecionada | 16.466 | 26.907 | 35.158 | 172.394 |
| Número de entidades encontradas | 233 | 297 | 257 | 443 |
| B | Doenças metabólicas (MBD) | Distúrbios nutricionais (NTD) | | |
| ID de raiz de malha | C18.452 | C18.654 | | |
Número de descendentes de malha descritores de | 308 | 53 | | |
| Número de PMIDs coletados | 54.762 | 19.181 | | |
| Número de entidades encontradas | 697 | 432 | | |
Tabela 3. Metadados de texto-cubo. Uma exibição tabular metadados de texto-cubo é apresentada. As tabelas fornecem informações sobre as categorias e malha raízes descritor e descendentes, que são implementados para coletar os documentos em cada célula. A tabela também fornece as estatísticas dos documentos recolhidos e entidades. () "Grupos etários": é uma exibição tabular das "Faixas etárias", incluindo o Infante (INFT), criança (CHLD), adolescente (ADOL) e adulto (ADLT) e sua raiz malha IDs, o número de descritores de malha descendente, número de PMIDs selecionados e número de encontrada de entidades. (B) "Doenças nutricionais e metabólicas": é uma exibição tabular de "Nutricional e doenças metabólicas" incluindo doença metabólica (MBD) e distúrbios nutricionais (NTD) com sua raiz de malha IDs, número de descritores de malha descendentes, número de PMIDs selecionados e o número de entidades encontradas.
| Nomes de proteína e sinônimos | Abreviaturas |
| N-acetylglutamate sintase, mitocondrial, aminoácido acetiltransferase, N-acetylglutamate sintase forma longa; N-acetylglutamate sintase forma abreviada; N-acetylglutamate sintase conservado domínio formulário] | (CE 2.3.1.1) |
| Proteínas e ácidos nucleicos/ácido deglycase DJ-1 (deglycase de Maillard) (Oncogene DJ1) (proteína de doença de Parkinson 7) (parkinsonismo associado deglycase) (DJ de proteína-1) | (CE-3.1.2.-) (CE-3.5.1.-) (CE 3.5.1.124) (DJ-1) |
| Carboxilase do piruvato, mitocondrial (piruvato carboxilase) | (CE 6.4.1.1) (PCB) |
| Componente de vinculação Bcl-2 3 (p53 acima-regulada modulador da apoptose) | (JFY-1) |
| BH3-interação agonista de morte de domínio [BH3-interagindo domínio morte agonista p15 (p15 oferta); BH3-interagindo domínio morte agonista p13; BH3-interagindo domínio morte agonista p11] | (p22) oferta (OFERTA) (p13) oferta (p11) oferta |
| ATP sintase subunidade alfa, mitocondrial (ATP sintase F1 subunidade alfa) | |
| Citocromo P450 11B2, mitocondrial (aldosterona sintase) (enzima de síntese de aldosterona) (CYPXIB2) (citocromo P-450Aldo) (citocromo P-450_C_18) (esteroide 18-hidroxilase) | (ALDOS) (CE 1.14.15.4) (CE 1.14.15.5) |
| 60 kDa calor choque proteína mitocondrial (60 kDa Chaperona) (Chaperona 60) (CPN60) (proteínas de choque 60 de calor) (proteína matriz mitocondrial P1) (proteína de linfócitos P60) | (HSP-60) (Hsp60) (HuCHA60) (CE 3.6.4.9) |
| Caspase-4 (gelo e Ced-3 do homólogo 2) (TX de Protease) [clivada em: subunidade 4 Caspase 1; Subunidade de caspase-4 2] | (CASP-4) (CE 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
Tabela 4. Entidade tabela de exemplo. Esta tabela apresenta a amostra de entidades implementado em nossos casos de dois uso: "Faixas etárias" e "Doenças nutricionais e metabólicas" (Figura 6 e Figura 7, tabela 3A,B). As entidades incluem nomes de proteína, sinónimos e abreviaturas. Cada entidade (com seus sinónimos e abreviaturas) é selecionado um por um e é passada através da operação de busca de entidade sobre dados indexados (ver protocolo de 3 e 5). A pesquisa produz uma lista de documentos que facilitar ainda mais a operação de contagem de entidade.
| Quantidades | Definidos pelo usuário | Calculado | Equação da quantidade | Significado da quantidade |
| Integridade | Sim | Não | Integridade do usuário definidas entidades consideradas 1.0. | Representa uma frase significativa. Valor numérico é 1.0, quando já é uma frase estabelecida. |
| Em termos de popularidade | Não | Sim | Equação de popularidade na Figura 1 (fluxo de trabalho e algoritmo) de referência 5, seção "Materiais e métodos". | Com base na frequência de termo da frase dentro de uma célula. Normalizados pela frequência prazo total da célula. Aumento da frequência do termo tem que diminuir o resultado. |
| Distintividade | Não | Sim | Equação de distintividade na Figura 1 (fluxo de trabalho e algoritmo) de referência 5, seção "Materiais e métodos". | Com base no termo frequência e frequência de documento dentro de uma célula e entre as células vizinhas. Normalizado pelo prazo total de frequência e frequência de documento. Quantitativamente, é a probabilidade de que uma frase é exclusiva em uma célula específica. |
| Pontuação CaseOLAP | Não | Sim | Equação de Pontuação de CaseOLAP na Figura 1 (fluxo de trabalho e algoritmo) de referência 5, seção "Materiais e métodos". | Com base na integridade, popularidade e distinção. Valor numérico sempre cai dentro de 0 para 1. Quantitativamente, a pontuação de CaseOLAP representa a associação de frase-categoria |
Tabela 5. Equações CaseOLAP: CaseOLAP o algoritmo foi desenvolvido pelo Fangbo Tao e Jiawei Han et al. em 20161. Brevemente, esta tabela apresenta o cálculo de Pontuação de CaseOLAP constituído por três componentes: integridade, popularidade e distintividade e seu significado matemático associado. Em nossos casos de uso, a pontuação de integridade para proteínas é 1.0 (a máxima pontuação) porque eles ficam como nomes de entidade estabelecida. As contagens de CaseOLAP em nossos casos de uso podem ser vistas na Figura 6 e Figura 7.