$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Для получения результатов, мы реализовали CaseOLAP алгоритм в два субъекта заголовки/дескрипторы: «Возрастные группы» и «Питания и метаболических заболеваний» как варианты использования.
Возрастных групп. Мы выбрали все 4 подкатегории «Возрастных групп» (младенцев, детей, подростков и взрослых) как клетки в текст-куб. Полученные метаданные и статистические данные приводятся в таблице 3A. Сравнение числа документов среди клеток текста-Куба отображается в рисунке 6A. Взрослого содержит 172,394 документов, который является наибольшим числом для всех ячеек. Подкатегории взрослых и подростков имеют наибольшее количество общих документов (26,858 документы). В частности эти документы включали сущность нашего интереса только (то есть, митохондриальных протеинов). Венна в рисунке 6B представляет количество сущностей (т.е., митохондриальных протеинов) найдены в пределах каждой ячейки и в течение нескольких совпадений среди клеток. Количество белков, совместно в рамках всех возрастных групп подкатегорий — 162. Взрослый подкатегории изображает наибольшее количество уникальных белков (151) следуют ребенка (16), товары для детей (8) и подростков (1). Мы рассчитали белка возрастной группы ассоциации как оценка CaseOLAP. Топ 10 белков (на основе их средняя оценка CaseOLAP) связанные с младенцев, детей, подростков и взрослых подкатегории, стерол 26-гидроксилазы, альфа кристаллин B цепи, 25-гидроксивитамина альфа D-1-гидроксилазы, Serotransferrin, цитрат синтаза, L-seryl тРНК, натрия/калия транспортировки АТФазы Субблок альфа-3, глутатион-S-трансферазы омега-1, Оксидоредуктазы NADPH: adrenodoxin и митохондриальной пептид метионина сульфоксида редуктаза (показано на рисунке 6 c). Взрослый подкатегории отображаются 10 heatmap ячейки с большей интенсивностью, по сравнению с heatmap клетки подростков, детской и младенческой подкатегории, указав, что топ 10 митохондриальных протеинов exhibit сильных ассоциаций для взрослых подкатегории. Митохондриальных белок стерол 26-гидроксилазы имеет высокий ассоциаций всех подкатегорий возраст которых подтверждается heatmap клеток с более высокой интенсивности по сравнению с heatmap клетки 9 других митохондриальных протеинов. Статистическое распределение абсолютная разница в счете между двумя группами показывает следующий диапазон для разность с 99% доверительный интервал: (1) означает разницу между «ADLT» и «INFT» лежит в диапазоне (0,029 0,042), среднее (2 Разница давлений между «ADLT» и «CHLD» лежит в диапазоне (0,021 до 0,030), (3) означает разницу между «ADLT» и «ADOL» лежит в диапазоне (0,020 0,029), (4) означает разницу между «ADOL» и «INFT» лежит в диапазоне (0,015-0,022), (5) средняя разность «ADOL» и «CHLD» лежит в диапазоне (0,007-0,010), (6) средняя разность между «CHLD» и «INFT» лежит в диапазоне (0,011 до 0,016).
Питания и метаболических заболеваний. Мы выбрали 2 подкатегории «Питания и метаболических заболеваний» (то есть, метаболические заболевания и расстройства питания) для создания 2 клетки в текст-куб. Полученные метаданные и статистические данные приводятся в таблице 3B. Сравнение числа документов среди клеток текста-Куба отображается Рисунок 7а. Метаболические болезни подкатегории содержит 54,762 документы следуют 19,181 документов в расстройства питания. Подкатегории метаболических болезней и нарушений питания у 7,101 Общие документы. В частности эти документы включали сущность нашего интереса только (то есть, митохондриальных протеинов). Венна в Рисунок 7B представляет количество сущностей найден внутри каждой клетки и в течение нескольких дублирования между ячейками. Мы рассчитали белка-«Пищевая и метаболических заболеваний» ассоциации как CaseOLAP баллов. Топ 10 белков (на основе их средняя оценка CaseOLAP) связанные с этим вариантом использования являются стерины 26-гидроксилазы, альфа кристаллин B цепи, L-seryl ТРНК синтетазы цитрат, ТРНК синтетазы pseudouridine A, 25-гидроксивитамина альфа D-1-гидроксилазы, Глутатион-S-трансферазы омега-1, NADPH: adrenodoxin Оксидоредуктазы, митохондриальных пептид метионина сульфоксида редуктазы, ингибитора активатора плазминогена 1 (показано на рисунке 7 c). Более половины (54%) из всех белков являются общими для подкатегорий метаболических болезней и нарушений питания (397 белки). Интересно, что почти половина (43%) всех связанных белков в подкатегории метаболические заболевания являются уникальные (300 белки), тогда как расстройства питания выставлять только несколько уникальных белков (35). Альфа кристаллин B цепи отображает сильных ассоциаций подкатегории метаболических заболеваний. Стерол 26-гидроксилазы, митохондриальных отображает сильных ассоциаций в подкатегории расстройства питания, указав, что этот митохондриальных белок является весьма актуальным в исследования, описывающие расстройства питания. Статистическое распределение абсолютная разница в счете между двумя группами «MBD» и «NTD» показывает диапазон (0,046 0,061) для средняя разность как 99% доверительного интервала.

Рисунок 1. Динамическое представление рабочего процесса CaseOLAP. Эта цифра 5 основных шагов в процессе CaseOLAP. В шаге 1 рабочий процесс начинается с загрузки и извлечения текстовых документов (например, от PubMed). В шаге 2 создание словаря данных для каждого документа, а также сетку для сопоставления PMID анализируются извлеченные данные. В шаге 3 индексирование данных проводится для облегчения поиска быстрый и эффективный орган. В шаге 4 предоставляемый пользователем категории информации (например,., корень сетки для каждой ячейки) осуществляется для построения текста-куб. В шаге 5 операция фото сущности реализуется над данных индекса для подсчета очков CaseOLAP. Эти шаги повторяются в последовательной манере для обновления системы с последней информации, имеющейся в публичной базе данных (например, PubMed). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 2. Техническая архитектура CaseOLAP рабочего процесса. Эта цифра представляет собой технические детали CaseOLAP рабочего процесса. Данные из хранилища PubMed получаются из PubMed FTP-сервера. Пользователь подключается к серверу облака (например, подключения AWS) через их устройства и создает скачать трубопровода, который загружает и извлекает данные в локальное хранилище в облаке. Извлеченные данные структурированы, проверены и привели в надлежащий формат с разбора конвейер данных. Одновременно сетки в таблице сопоставления PMID создается во время выполнения синтаксического анализа, который используется для текста-куб строительства. Анализируемые данные хранятся в виде JSON как словарь ключ значение формат метаданных документа (например, год издания PMID, сетка,). Индексация дальше улучшает данные путем реализации Elasticsearch для обработки больших объемов данных. Далее текст-куб создается с определяемые пользователем категории путем реализации сетки PMID сопоставления. После завершения формирования текста-куб и индексирование шаги, проводится количество сущностей. Данные сущностей реализуются для метаданных текста-Куба. Наконец CaseOLAP оценка рассчитывается на основе базовой структуры текста-куб. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 3. Образец анализируемого документа. На этом рисунке представлен образец разбора данных. Анализируемые данные организованы как пара ключ значение, которая совместима с индексации и документ метаданных создание. На этом рисунке PMID (например, «25896987») выступает в качестве ключа и коллекции связанных сведений (например, название, журнал, даты, аннотация, сетка, вещества, Департамент и местоположение публикации), как значение. Очень первое применение такого документа метаданных является строительство сетки PMID сопоставления (рис. 5 и Таблица 2), которая осуществляется позже для создания текста-Куба и вычисления CaseOLAP Оценка с пользователем сущности и категории. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 4. Пример дерева MeSH. 'Возрастных групп сетки дерево адаптировано из дерева структуры данных в базе данных NIH (MeSH дерево 2018, < https://meshb.nlm.nih.gov/treeView>). Дескрипторы сетки осуществляется с их идентификаторы (например, лица [M01], возрастные группы [M01.060], подростков [M01.060.057], взрослого [M01.060.116], ребенок [M01.060.406], ребенок [M01.060.703]) для сбора документов, касающихся конкретных дескрипторов MeSH ( узлов Таблица 3а). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 5. Сетка для картирования PMID в возрастных группах. Эта цифра представляет количество текстовых документов (каждый связано с PMID), собранные под дескрипторов MeSH «Возрастных групп» как пузырь сюжет. Сетки для сопоставления PMID генерируется предоставлять точное число документов, собранных под дескрипторов MeSH. Общее количество 3,062,143 уникальных документов были собраны под 18 дочерних дескрипторов MeSH (см. таблицу 2). Чем выше количество PMIDs подбирать под дескриптор конкретного сетки, тем больше радиус пузырь, представляющий дескриптор сетки. К примеру, наибольшее количество документов были собраны под дескриптор сетки «Взрослый» (1,786,371 документы), тогда как наименьшее количество текстовых документов были собраны под дескриптор сетки «Младенец, Postmature» (62 документов).
Дополнительный пример сетки для сопоставления PMID предоставляется для «Питания и метаболических заболеваний» (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Общее количество 422,039 уникальных документов были собраны под 361 потомком дескрипторов MeSH в «Питания и метаболических заболеваний». Наибольшее количество документов были собраны под дескриптор сетки «Ожирение» (77,881 документы) следуют «сахарный диабет типа 2» (61,901 документы), тогда как «гликогена хранения заболевания, типа VIII» выставлены наименьшее количество документов (1 документ ). Связанная таблица также доступны онлайн на (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 6. «Возрастных групп» как вариант использования. Эта цифра представляет результаты от варианта использования платформы CaseOLAP. В этом случае имена белков и их аббревиатуры (см. пример в таблице 4) реализованы в виде сущностей и «Возрастные группы», включая клетки: Товары для детей (INFT), ребенка (CHLD), подростков (ADOL) и взрослых (ADLT), реализованы в виде подкатегорий (см. Таблица 3а). (A) Количество документов в «Возрастных групп»: Это тепло карта показывает количество документов, распределенных по клетки «Возрасте групп» (Дополнительные сведения о см. Создание текста-куб 4 протокола и таблица 3A). Большее количество документов представлен с темнее интенсивностью heatmap клеток (см. шкалы). Один документ может быть включена в более чем одной ячейке. Тепловая карта представляет количество документов в ячейке вдоль диагонали позицию (например, ADLT содержит 172,394 документы которая наибольшее число для всех ячеек). Недиагональными позиция представляет количество документов, подпадающих под две клетки (например, ADLT и ADOL у 26,858 Общие документы). (B) . Количество сущностей в «Возрастных групп»: Венна представляет количество белков, обнаруженных в четырех ячейках, представляющих «Возрастных групп» (INFT, CHLD, ADOL и ADLT). Количество белков, совместно в рамках всех ячеек — 162. В возрастной группе ADLT изображает наибольшее количество уникальных белков (151) следуют CHLD (16), INFT (8) и ADOL (1). (C) CaseOLAP Оценка презентация «Возрастных групп»: Топ 10 белков с наивысшими баллами средняя CaseOLAP в каждой группе представлены в тепловую карту. Более высокий балл CaseOLAP представлен с темнее интенсивностью heatmap клеток (см. шкалы). В левом столбце отображаются имена белка и клетки (CHLD, ADOL, ADLT и INFT) отображаются вдоль оси x. Некоторые белки показывают сильную связь для определенной возрастной группы (например, стерол 26-гидроксилазы, альфа кристаллин цепи B и L-seryl-tRNA имеют сильные ассоциации с ADLT, тогда как натрия/калия транспортировки АТФазы Субблок альфа-3 имеет сильную связь с INFT). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.

Рисунок 7. «Питания и метаболических заболеваний» как вариант использования: эта цифра представляет результаты из другого случая использования платформы CaseOLAP. В этом случае имена белков и их аббревиатуры (см. пример в таблице 4) реализованы в виде сущностей и питания и метаболических заболеваний «» включая две ячейки: метаболические болезни (MBD) и трофические нарушения (НТД) реализованы как подкатегорий (см. таблицу 3Б). (A). количество документов в «Питания и метаболических заболеваний»: этой heatmap изображает количество текстовых документов в клетках «Питания и метаболических заболеваний» (Дополнительные сведения о создании текста-куб см протокол 4 и Таблица 3В ). Большее количество документов представлен с темнее интенсивностью heatmap клеток (см. Шкала). Один документ может быть включена в более чем одной ячейке. Тепловая карта представляет общее количество документов в ячейке вдоль диагонали позицию (например, MBD содержит 54,762 документы что является наибольшим числом через две клетки). Недиагональными позиция представляет количество документов, разделяют две ячейки (например, MBD и NTD у 7,101 Общие документы). (B). количество сущностей в «Питания и метаболических заболеваний»: Венна представляет количество белков, обнаруженных в двух клетках, представляющие «Питания и метаболических заболеваний» (MBD и NTD). Количество белков, совместно в двух ячейках-397. MBD клеток изображает 300 уникальных белков, и клетки NTD изображает 35 уникальных белков. (C). CaseOLAP Оценка презентации в «Питания и метаболических заболеваний»: в тепловой карте представлены топ 10 белков с наивысшими баллами средняя CaseOLAP в «Питания и метаболических заболеваний». Более высокая оценка CaseOLAP представлен с темнее интенсивностью heatmap клеток (см. Шкала). В левом столбце отображаются имена белка и клетки (MBD и NTD) отображаются вдоль оси x. Некоторые белки показывают сильную связь в категорию конкретных заболеваний (например, альфа кристаллин B цепь имеет высокий ассоциации с метаболические болезни и стерол 26-гидроксилазы имеет высокий ассоциации с расстройства питания). Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
| Время (в процентах от общего времени) | Шаги в платформе CaseOLAP | Алгоритм и структура данных платформы CaseOLAP | Сложность алгоритма и структуры данных | Подробная информация о шаги |
| 40% | Загрузка и Синтаксический анализ | Итерации и дерево синтаксического анализа алгоритмов | Итерации с вложенного цикла и постоянной умножения: O(n^2), O (log n). Где Sit'n ' является количество итераций. | Загрузка конвейера выполняет итерацию каждой процедуры несколько файлов. Разбор одного документа каждой процедуры пробегает древовидная структура необработанных XML-данных. |
| 30% | Индексирование, Поиск и создание Куба текста | Итерации, алгоритмы поиска по Elasticsearch (сортировка, индекса Lucene, приоритет очереди, конечные автоматы, сложа хаки, запросы regex бит) | Сложности, связанные с Elasticsearch (https://www.elastic.co/) | Документы индексируются путем реализации процесса итерацию над словаря данных. Создание текста-куб реализует документ мета данных и информации, предоставленных пользователем категории. |
| 30% | Подсчет сущностей и CaseOLAP расчет | Итерации в целостности, популярности, своеобразность расчет | O(1), O(n^2), несколько сложностей, связанных с caseOLAP Оценка вычисления, основанные на типах итерации. | Сущность операции перечислены документы и сделать операции над списком. Количество данных сущности используется для вычисления CaseOLAP балла. |
Таблицы 1. Алгоритмы и сложность. В этой таблице представлена информация о времени (в процентах от общего времени) о процедурах (например, Закачка, разбор), структура данных и сведений о реализованных алгоритмов в платформе CaseOLAP. CaseOLAP реализует профессиональные индексации и поиска приложение под названием Elasticsearch. Дополнительная информация о сложностях, связанных с Elasticsearch и внутренние алгоритмы можно найти на (https://www.elastic.co).
| Дескрипторы сетки | Количество собранных PMIDs |
| Взрослый | 1,786,371 |
| Возрасте от среднего | 1,661,882 |
| В возрасте | 1,198,778 |
| Подростков | 706,429 |
| Молодых взрослых | 486,259 |
| Ребенок | 480,218 |
| Возрасте, 80 лет и старше | 453,348 |
| Ребенок, детей дошкольного | 285,183 |
| Младенец | 218,242 |
| Ребенок, новорожденный | 160,702 |
| Ребенок, недоношенный | 17,701 |
| Вес при рождении младенческой, низкий | 5,707 |
| Немощных престарелых | 4,811 |
| Вес при рождении младенческой, очень низкая | 4,458 |
| Младенец, Малый для гестационного возраста | 3168 |
| Младенец, чрезвычайно недоношенных | 1,171 |
| Младенческой, чрезвычайно низкой массой тела при рождении | 1003 |
| Младенец, Postmature | 62 |
В таблице 2. Сетка для PMID сопоставления статистики. Эта таблица представляет все потомки дескрипторов MeSH от «Возрастных групп» и их количество собранных PMIDs (текстовые документы). Визуализация эти статистические данные представлены на рисунке 5.
| A | Товары для детей (INFT) | Ребенок (CHLD) | Подростков (ADOL) | Взрослый (ADLT) |
| Идентификатор корня сетки | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
| Количество потомков дескрипторов MeSH | 9 | 2 | 1 | 6 |
| Количество выбранных PMIDs | 16,466 | 26,907 | 35,158 | 172,394 |
| Количество организаций | 233 | 297 | 257 | 443 |
| B | Метаболические заболевания (MBD) | Расстройства питания (НТД) | | |
| Идентификатор корня сетки | C18.452 | C18.654 | | |
Количество потомков сетки дескрипторы | 308 | 53 | | |
| Количество PMIDs | 54,762 | 19,181 | | |
| Количество организаций | 697 | 432 | | |
В таблице 3. Текст куб метаданные. Просмотр метаданных куба текст представлен. Таблицы, предоставляют информацию о категориях и MeSH дескриптор корни и потомков, которые осуществляются для сбора документов в каждой ячейке. Таблица также содержит статистические данные о собранных документов и организаций. (A) «Возрастных групп»: это табличного отображения «Возрастных групп», включая младенцев (INFT), ребенок (CHLD), подростков (ADOL) и взрослых (ADLT) и их сетки корневого идентификаторы, Количество потомков сетки дескрипторы, количество отдельных PMIDs и количество найденных сущностей. (B) «Питания и метаболических заболеваний»: это табличного отображения «Питания и метаболических заболеваний» включая метаболические болезни (MBD) и трофические нарушения (НТД) с их сетки корневого идентификаторы, Количество потомков сетки дескрипторов, количество выбранный PMIDs и количество найденных сущностей.
| Белка названия и синонимы | Аббревиатуры |
| N-acetylglutamate NO-синтетазы, митохондриальных, аминокислоты Ацетилтрансфераза, N-acetylglutamate синтетазы длинной формы; N-acetylglutamate синтетазы короткая форма; N-acetylglutamate синтетазы сохраняется домена форма] | (EC 2.3.1.1) |
| Белка/нуклеиновых кислот deglycase DJ-1 (deglycase Маяра) (онкогена DJ1) (Паркинсона болезнь белка 7) (паркинсонизм связанные deglycase) (белок DJ-1) | (EC 3.1.2.-) (EC 3.5.1.-) (ЕС 3.5.1.124) (DJ-1) |
| Пируват carboxylase, митохондриальных (пировиноградная carboxylase) | (EC 6.4.1.1) (ПХД) |
| Bcl-2-привязки компонента 3 (p53 регулирует вверх модулятор апоптоза) | (JFY-1) |
| Взаимодействующих BH3 домен смерти агонист [взаимодействующих BH3 домен смерти агонист p15 (p15 BID); Взаимодействующих BH3 домен смерти агонист p13; Взаимодействующих BH3 домен смерти агонист p11] | (p22 BID) (СТАВОК) (p13 BID) (p11 BID) |
| ATP синтазы Субблок альфа, митохондриальных (ATP синтазы F1 Субблок альфа) | |
| Цитохрома P450 11B2, митохондриальных (альдостерона синтетазы) (фермент синтеза альдостерона) (CYPXIB2) (цитохрома P-450Aldo) (цитохрома P-450_C_18) (стероидных 18-гидроксилазы) | (АЛЬДОС) (ЕС 1.14.15.4) (ЕС 1.14.15.5) |
| 60 кДа теплового шока белка, митохондриальных (60 kDa chaperonin) (Chaperonin 60) (CPN60) (тепловой шок белков 60) (митохондриальной матрица белка P1) (P60 протеина лимфоцита) | (HSP-60) (Hsp60) (HuCHA60) (ЕС 3.6.4.9) |
| Каспаза-4 (гомолога 2 льда и КНИ-3) (протеазы TX) [расщепляется в: Caspase-4 Субблок 1; Субблок caspase-4 2] | (КАСП-4) (ЕС 3.4.22.57) (ИЧ-2) (ICE(rel)-II) (Mih1) |
Таблица 4 . Пример сущности таблицы. Эта таблица представляет образец сущностей реализована в наших двух случаях: «Возрастные группы» и «Питания и метаболических заболеваний» (Рисунок 6 и рис. 7, таблица 3A,B). Организации включают в себя имена белка, синонимы и сокращения. Каждая сущность (с его синонимы и сокращения) является выбранным по одному и передается через операции поиска сущности над индексированных данных (см. Протокол 3 и 5). Поиск производит список документов, которые еще более облегчить операции количество сущностей.
| Количества | Определяемые пользователем | Расчет | Уравнение количества | Значение количества |
| Целостность | Да | Нет | Целостности пользователей определены сущности, считается 1.0. | Представляет смысл фразы. Числовое значение — 1.0, когда это уже установленные фразы. |
| Популярность | Нет | Да | Популярность уравнение на рисунке 1 (рабочего процесса и алгоритм) из ссылки 5, раздел «Материалы и методы». | На основе термина частоты слов в ячейке. Нормированный по частоте общий срок ячейки. Увеличение частоты термина имеет уменьшение результат. |
| Своеобразие | Нет | Да | Своеобразность уравнение на рисунке 1 (рабочего процесса и алгоритм) из ссылки 5, раздел «Материалы и методы». | На основе термина частоты и частоты документа внутри клетки и через соседние клетки. Нормированный, общий срок частоты и частоты документа. Количественно это вероятность того, что фраза уникальна в определенной ячейке. |
| CaseOLAP Оценка | Нет | Да | CaseOLAP Оценка уравнения на рисунке 1 (рабочего процесса и алгоритм) из ссылки 5, раздел «Материалы и методы». | На основе целостности, популярности и самобытности. Численное значение всегда попадает в пределах 0 до 1. Количественно CaseOLAP Оценка представляет собой объединение фразу категории |
В таблице 5. Уравнения CaseOLAP: CaseOLAP алгоритм был разработан Fangbo-Тао и Джиавей Han et al. в 2016 году1. Вкратце, эта таблица представляет расчет Оценка CaseOLAP, состоящий из трех компонентов: целостность, популярности и самобытности, и их связанные математические значения. В наших вариантов использования, оценка целостности для белков является 1.0 (максимальная оценка) потому, что они стоят как имена установленных сущностей. CaseOLAP баллы в нашем случаи использования можно увидеть в рисунке 6 c и рис. 7 c.