Medicine

Объективизация диагностики языка в традиционной медицине, анализ данных и применение в исследованиях

Published: April 14, 2023 doi: 10.3791/65140

Li Feng*¹, Wenke Xiao*¹, Chuanbiao Wen¹, Qiaoling Deng¹, Jinhong Guo¹, Haibei Song¹

¹School of Intelligent Medicine, Chengdu University of Traditional Chinese Medicine

* These authors contributed equally

Summary

В настоящем исследовании использовались U-Net и другие алгоритмы глубокого обучения для сегментации изображения языка и сравнения результатов сегментации для изучения объективации диагностики языка.

Abstract

Диагностика языка является важным методом диагностики традиционной китайской медицины (ТКМ), и потребность в объективации изображений языка с помощью технологии обработки изображений растет. В настоящем исследовании представлен обзор прогресса, достигнутого в области объективации языка за последнее десятилетие, и сравниваются модели сегментации. Различные модели глубокого обучения построены для проверки и сравнения алгоритмов с использованием реальных наборов изображений языка. Проанализированы сильные и слабые стороны каждой модели. Полученные данные показывают, что алгоритм U-Net превосходит другие модели в отношении точности точности (PA), отзыва и среднего пересечения по сравнению с метриками объединения (MIoU). Однако, несмотря на значительный прогресс в получении и обработке изображений языка, единый стандарт для объективной диагностики языка еще не установлен. Чтобы облегчить широкое применение изображений языка, снятых с помощью мобильных устройств, для объективации диагностики языка, дальнейшие исследования могли бы решить проблемы, связанные с изображениями языка, снятыми в сложных условиях.

Introduction

Наблюдение за языком является широко используемым методом в традиционной китайской этнической медицине (ТКМ). Цвет и форма языка могут отражать физическое состояние и различные свойства, тяжесть и прогнозы заболевания. Например, в традиционной медицине хмонгов цвет языка используется для определения температуры тела, например, красный или фиолетовый язык указывает на патологические факторы, связанные с теплом. В тибетской медицине о состоянии судят, наблюдая за языком пациента, обращая внимание на цвет, форму и влажность слизи. Например, языки пациентов с болезнью Хейи становятся красными и шероховатыми или черными и сухими¹; пациенты с болезнью Сиери² имеют желтые и сухие языки; между тем, пациенты с болезнью Бадакан³ имеют белый, влажный и мягкий язык⁴. Эти наблюдения показывают тесную связь между особенностями языка и физиологией и патологией. В целом, состояние языка играет жизненно важную роль в диагностике, выявлении заболеваний и оценке эффекта лечения.

В то же время, из-за различных условий жизни и практики питания среди различных этнических групп, различия в изображениях языка очевидны. Лабораторная модель, созданная на основе международного стандарта определения цвета, была сформулирована Международной комиссией по эклерированию (CIE) в 1931 году. В 1976 году цветовой узор был изменен и назван. Цветовая модель Lab состоит из трех элементов: L соответствует яркости, а a и b — двум цветовым каналам. a включает цвета от темно-зеленого (значение низкой яркости) до серого (среднее значение яркости) и ярко-розового (значение высокой яркости); b переходит от ярко-синего (низкое значение яркости) к серому (среднее значение яркости) и желтому (высокое значение яркости). Сравнивая значения L x a x b цвета языка пяти этнических групп, Yang et ^al.5 обнаружили, что характеристики языковых изображений групп хмонгов, хуэй, чжуанов, хань и монголов значительно отличались друг от друга. Например, у монголов темные языки с желтым языковым покрытием, в то время как у хмонгов светлые языки с белым языковым покрытием, что позволяет предположить, что особенности языка можно использовать в качестве диагностического индикатора для оценки состояния здоровья населения. Кроме того, изображения языка могут функционировать в качестве оценочного показателя доказательной медицины в клинических исследованиях этнической медицины. Он и ^др.6 использовали изображения языка в качестве основы для диагностики ТКМ и систематически оценивали безопасность и эффективность гранул Чжоу-Лин-Дань (гранулы CLD, используемые для лечения воспалительных и лихорадочных заболеваний, включая сезонный грипп в ТКМ) в сочетании с китайской и западной медициной. Результаты установили научную достоверность изображений языка в качестве оценочного показателя для клинических исследований. Тем не менее, традиционные врачи, как правило, полагаются на субъективность для наблюдения за характеристиками языка и оценки физиологических и патологических состояний пациентов, требующих более точных показателей.

Появление Интернета и технологий искусственного интеллекта проложило путь к оцифровке и объективизации диагностики языка. Этот процесс включает в себя использование математических моделей для обеспечения качественного и объективного описания изображений языка⁷, отражающего содержание изображения языка. Процесс включает в себя несколько этапов: получение изображения, оптическая компенсация, цветокоррекция и геометрическое преобразование. Предварительно обработанные изображения затем вводятся в алгоритмическую модель для позиционирования и сегментации изображений, извлечения признаков, распознавания образов и т. д. Результатом этого процесса является высокоэффективная и точная диагностика данных изображения языка, что позволяет достичь цели объективации, количественной оценки и информатизации диагностики языка⁸. Таким образом, достигается цель высокой эффективности и высокой точности обработки данных диагностики языка. Основываясь на знаниях о диагностике языка и технологии глубокого обучения, это исследование автоматически отделило тело языка и покрытие языка от изображений языка с помощью компьютерного алгоритма, чтобы извлечь количественные характеристики языков для врачей, повысить надежность и последовательность диагноза и предоставить методы для последующих исследований объективации диагностики^{языка 9}.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Это исследование было одобрено проектом Национального фонда естественных наук Китая «Построение правил динамического изменения изображения лица ТКМ на основе ассоциативного анализа». Номер одобрения этики - 2021KL-027, и комитет по этике одобрил клиническое исследование, которое будет проводиться в соответствии с утвержденными документами, которые включают протокол клинического исследования (2021.04.12, V2.0), информированное согласие (2021.04.12, V2.0), материалы для набора субъектов (2021.04.12, V2.0), случаи исследования и/или отчеты о случаях, дневниковые карточки субъектов и другие анкеты (2021.04.12, V2.0), список участников клинического исследования, утверждение исследовательского проекта и т.д. Было получено информированное согласие пациентов, участвовавших в исследовании. Основной экспериментальный подход этого исследования заключается в использовании реальных изображений языка для проверки и сравнения эффектов сегментации модели. На рисунке 1 представлены компоненты объективизации диагностики языка.

1. Получение изображения

Используйте самостоятельно разработанный ручной лингвальный диагностический прибор для лица для сбора языковых изображений лиц пациентов.
Введите имя пациента, пол, возраст и заболевание на странице компьютера. Изображения, включенные здесь, принадлежат пациентам, которые пришли в клинику и согласились сфотографироваться после того, как были проинформированы о цели и содержании исследования. Убедитесь, что пациент сидит прямо, поместите все лицо в прибор для получения изображения и попросите пациента максимально вытянуть язык изо рта.
Держите устройство для получения изображений, подключенное к компьютеру, и убедитесь по изображениям на экране компьютера, что пациент находится в правильном положении и что язык и лицо полностью открыты.
Нажмите кнопку «Съемка » на экране компьютера три раза, чтобы сделать три снимка.
ПРИМЕЧАНИЕ: Инструмент для получения изображений в настоящее время находится только на стадии подачи заявки на патент и не предназначен для коммерческого использования, поэтому он не продается.
Вручную выберите и отфильтруйте собранные изображения языка и лица. Фильтруйте и исключайте изображения с неполной экспозицией языка и лица, а также изображения, которые слишком темные из-за недостаточного освещения. На рисунке 2 показана страница получения изображения программного обеспечения.
В экспериментальном дизайне соберите три изображения от каждого пациента одновременно в качестве альтернативы и выберите относительно стандартное, полностью экспонированное, хорошо освещенное и четкое изображение в качестве образца для последующего обучения и тестирования алгоритма.
Собирайте данные после съемки, экспортируйте данные для ручного скрининга и удаляйте нестандартные изображения, видимые невооруженным глазом. Используйте следующие критерии фильтрации и исключения: неполная экспозиция языка и лица, а также слишком темные изображения из-за недостаточного освещения. Пример недостаточно освещенного, неполного и стандартного изображения показан на рисунке 3.
ПРИМЕЧАНИЕ: Недостаточное освещение обычно вызвано тем, что пациент не помещает лицо полностью в инструмент. Полная экспозиция обычно получается только при правильном фотографировании пациента.

2. Сегментация языка

Выполните сегментацию изображений языка с помощью онлайн-инструмента аннотации, как описано ниже.
1. Установите Labelme, нажмите кнопку « Открыть » в верхнем левом углу интерфейса этикетки, выберите папку, в которой находится изображение, и откройте фотографии.
2. Нажмите « Создать многоугольник », чтобы начать отслеживать точки, отслеживать формы языка и языка, называть их в соответствии с выбранными областями (например, языком и язычной поверхностью) и сохранять их.
3. Когда все отметки будут завершены, нажмите кнопку Сохранить , чтобы сохранить изображение в папке с данными. Подробную блок-схему см. на рисунке 4 .
  ПРИМЕЧАНИЕ: Поскольку изображения могут иметь различия в пикселях, изображения не могут быть напрямую использованы для обучения и тестирования алгоритмов.
Объедините изображения до одинакового размера, заполнив изображения краями, указав длинную сторону изображения в качестве целевой длины заливки и выполнив белую заливку краев, чтобы заполнить изображения до квадрата, а длинная сторона изображения стала длиной края. Размер изображения, захваченного устройством, составляет 1080 x 1920 пикселей, а размер заполненного изображения — 1920 x 1920 пикселей. Смотрите рисунок 5.
При необходимости примените улучшение изображения. В этом исследовании не было применено никаких улучшений, так как используемые изображения были сделаны в фиксированной сцене и были менее подвержены влиянию окружающей среды, освещения и других факторов.
Поскольку в процессе съемки для каждого пациента было собрано три изображения, чтобы учесть неконтролируемые факторы, такие как моргание объекта и блокировка объектива, вручную просматривайте изображения каждого пациента, чтобы сохранить одно изображение для каждого пациента.
С целью обучения модели соберите данные от 200 человек, или 600 изображений. После скрининга сохраните около 200 пригодных для использования изображений.
В соответствии с номером изображения случайным образом разделите все изображения языка, поместив 70% из них в обучающий набор и 30% в тестовый набор в электронной таблице.

3. Классификация языка

Перейдите на официальные сайты, скачайте и установите Anaconda, Python и Labelme. Активируйте среду и завершите установку и настройку всей среды. На рисунке 6 показана блок-схема, описывающая установку и настройку программного обеспечения.
Постройте модель алгоритма глубокого обучения в установленной среде, настройте параметры и завершите обучение модели с помощью обучающего набора. Выполните выбор и настройку модели, как описано в следующих шагах.
1. Выбор модели: Выберите подходящую модель в зависимости от цели исследования. После рассмотрения исследований по обработке изображений языка за последние 5 лет для проверки в этом исследовании были выбраны четыре алгоритма: U-Net, Seg-Net, DeeplabV3 и PSPNet (см. Файл дополнительного кодирования 1, Файл дополнительного кодирования 2, Файл дополнительного кодирования 3 и Файл дополнительного кодирования 4 для кодов моделей).
2. Построение набора данных: После завершения выбора модели сконструируйте необходимый набор данных в сочетании с содержанием исследования, в основном используя аннотацию Labelme и методы равномерного размера изображения, как описано выше.
Выполните обучение модели, как описано ниже. На рисунке 7 показана подробная информация об операции обучения алгоритма.
1. Введите данные в нейронную сеть для прямого распространения, при этом каждый нейрон сначала вводит взвешенное накопление значений, а затем вводит функцию активации в качестве выходного значения этого нейрона для получения результата.
2. Введите результат в функцию ошибки и сравните его с ожидаемым значением, чтобы получить ошибку и судить о степени распознавания по ошибке. Чем меньше функция потерь, тем лучше будет модель.
3. Уменьшите погрешность за счет обратного распространения и определите вектор градиента. Отрегулируйте веса по вектору градиента в соответствии с тенденцией к результатам, чтобы погрешность стремилась к нулю или уменьшалась.
4. Повторяйте этот процесс обучения до тех пор, пока набор не будет завершен или значение ошибки больше не уменьшится, после чего обучение модели будет завершено. На рисунке 8 показана блок-схема модели алгоритма при обучении и тестировании.
Протестируйте четыре модели, используя одни и те же тестовые данные для сегментации, и оцените производительность модели в соответствии с эффектом сегментации. Четыре показателя точности, запоминания, средней точности пикселей (MPA) и MIoU обеспечивают более полную оценку производительности модели.
После того, как результаты четырех моделей сгенерированы, сравните их значения по горизонтали; Чем выше значение, тем выше точность сегментации и тем выше производительность модели. Смотрите Рисунок 9, Рисунок 10 и Рисунок 11.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Результаты сравнения см. на рисунке 12, рисунке 13 и в таблице 1, где среда, построенная в этом исследовании, использует одни и те же образцы для обучения и тестирования модели алгоритма. Индикатор MIoU: U-Net > Seg-Net > PSPNet > DeeplabV3; Индикатор MPA: U-Net > Seg-Net > PSPNet > DeeplabV3; прецизионный индикатор: U-Net > Seg-Net > DeeplabV3 > PSPNet; напомним: U-Net > Seg-Net > PSPNet > DeeplabV3. Чем больше значение индекса, тем выше точность сегментации и тем выше производительность модели. По результатам индекса можно проанализировать, что алгоритм U-Net превосходит другие алгоритмы по MIoU, MPA, точности и отзыву, а его точность сегментации также выше, чем у других алгоритмов. Таким образом, алгоритм U-Net имеет лучшую производительность среди четырех различных алгоритмов. PSPNet лучше, чем DeeplabV3 в MIoU, MPA и отзыве, в то время как модель DeeplabV3 ниже, чем модель Seg-Net по всем индексам. Таким образом, можно сделать вывод, что алгоритм DeeplabV3 имеет наименее желательную комплексную производительность среди четырех алгоритмов в этой исследовательской среде.

Показатели оценки
В этом исследовании производительность модели алгоритма была проверена в основном точностью, отзывом, MPA и MIoU. Показатели производительности модели напрямую связаны с матрицей путаницы, которая состоит из результатов классификации модели, и отражает количество выборок, которые модель классифицировала правильно и неправильно. Матрица представляет собой оценочное значение, эквивалентное результатам тестового набора, а фактическое представляет собой основную истину. Обе категории делятся на истинные и ложные, представленные T и F соответственно, в результате чего получаются четыре комбинации: TP, FP, FN и TN.MPA — среднее значение доли правильно классифицированных пикселей в каждой категории, а MIoU — среднее отношение пересечения к слиянию. Это наиболее распространенная метрика для семантической сегментации; Он вычисляет соотношение пересечения и объединяет истинное и прогнозируемое значения¹⁰. Формула для них:

Точность = , отзыв = , MPA = (CPA = , где N - общее количество категорий) и MIoU = (IoU = Equation 1 Equation 4 Equation 2 Equation 3 Equation 5 ).

Эти четыре показателя обеспечивают более полную оценку эффекта сегментации изображений языка.

В этом исследовании были выбраны четыре модели алгоритмов глубокого обучения: U-Net, Seg-Net, DeeplabV3 и PSPNet, для обучения и тестирования моделей алгоритмов с использованием реальных данных языковых изображений. U-Net¹¹ имеет U-образную архитектуру, состоящую из кодировщика слева и декодера справа, и имеет то преимущество, что обучает более точные результаты классификации с меньшим количеством данных и всесторонне извлекает признаки изображения. Основываясь на сети Res-Net для решения проблемы многомасштабной целевой сегментации, DeepLabV3 использует полую структуру свертки, проектирует модуль для захвата многомасштабного контекста, удаляет условное случайное поле (CRF) и модернизирует модуль пула пространственных пирамид (ASPP), значительно повышая производительность модели. Семантическая сегментация направлена на получение метки категории для каждого пикселя сегментированного объекта. Seg-Net — это архитектура сверточной нейронной сети (CNN) с симметричной структурой для семантической сегментации, включающая кодировщик и декодер. Преимущество этого заключается в том, что метод повышающей дискретизации декодера для диаграмм признаков с более низким разрешением исключает время обучения с повышающей дискретизацией. Модель PSPNet в основном применяется для синтаксического анализа сцен, добавления контекстной информации к семантической сегментации, что позволяет избежать частичной ошибки, решить проблему отсутствия соответствующих стратегий использования глобальной информации классификации сцен и повысить надежность конечных прогнозируемых результатов.

Рисунок 1: Компоненты объективизации диагностики языка. Компоненты диагностики языка, включая элементы съемки изображений, сегментацию языка и классификацию языка. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 2: Страница получения изображения. Интерфейс получения изображения языка и содержание анкеты. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 3: Критерии фильтрации и отклонения изображений. Зеленая галочка обозначает критерии включения, а красный крест — критерии исключения. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 4: Принципиальная схема процесса маркировки Labelme. Программное обеспечение Labelme используется для аннотирования всего процесса создания изображения, от открытия папки до сохранения файла. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 5: Схема предварительной обработки изображения. Размер снимка составляет 1080 x 1920 пикселей, а размер заполняющего изображения — 1920 x 1920 пикселей. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 6: Блок-схема конфигурации среды. Алгоритм может быть запущен только после настройки среды. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 7: Подробная схема прогона обучения алгоритма. Подробные шаги и методы выполнения в работе алгоритма. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 8: Блок-схема модели алгоритма при обучении и тестировании. Важные этапы алгоритма, включая обработку данных, обучение алгоритма и тестирование алгоритма. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 9: Структура алгоритма Seg-Net. Логическая структура алгоритма Seg-Net и процесс выполнения кода. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 10: Структура алгоритма U-Net. Логическая структура алгоритма U-Net и процесс выполнения кода. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 11: Поток исследований сегментации изображений языка. Красная область на изображении является результатом сегментации языка, а зеленая область — результатом сегментации покрытия языка. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 12: Сравнительная таблица четырех метрик алгоритма. MIoU, MPA, точность и отзыв — все это показатели оценки производительности алгоритма. Чем больше значение, тем лучше производительность алгоритма и выше точность сегментации. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 13: Сравнение результатов четырех алгоритмов сегментации языка. Красная область на изображении является результатом сегментации языка, а зеленая область — результатом сегментации покрытия языка. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 14: Структурная схема алгоритма U-Net. Сине-белые прямоугольники обозначают карту объектов, а число над картой объектов представляет количество каналов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

	МИоУ	.MPA	Точность	Вспоминать
Ю-Нет	84.00%	89.38%	91.90%	89.38%
DeeplabV3	59.68%	61.33%	84.21%	61.33%
PSPNet	67.80%	72.56%	82.71%	72.56%
СегНет	80.09%	87.14%	88.53%	87.14%

Таблица 1: Сравнение четырех метрик результатов сегментации алгоритма. Метриками были MIoU, MPA, точность и отзыв.

Дополнительный файл кодирования 1: U-Net_training. Обучающий код модели U-Net. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл кодирования 2: Seg-Net_training. Код обучения модели Seg-Net. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл кодирования 3: DeeplabV3_training. Обучающий код модели DeeplabV3. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл кодирования 4: PSPNet_training. Код обучения модели PSPNet. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Исходя из результатов сравнения, представленных выше, видно, что характеристики четырех рассматриваемых алгоритмов разнообразны, а их явные преимущества и недостатки описаны ниже. Структура U-Net, основанная на модификации и расширении полной сверточной сети, может получать контекстную информацию и точное позиционирование через сужающийся путь и симметричный расширяющийся путь. Классифицируя каждую точку пикселя, этот алгоритм обеспечивает более высокую точность сегментации и быстрее сегментирует изображение с обученной моделью. С другой стороны, алгоритм Seg-Net, состоящий из симметричной структуры кодировщика и декодера, имеет то преимущество, что быстро адаптируется к новым задачам и хорошо справляется с такими задачами, как речь, семантика, зрение и игры. Однако алгоритм требует большого объема данных, что делает его требовательным с точки зрения аппаратной конфигурации и, таким образом, применим только для некоторых задач. В качестве более общей структуры алгоритм DeeplabV3 имеет то преимущество, что улучшает модули ASSP для большинства сетей и размещает их каскадно или параллельно для повышения общей производительности. Тем не менее, окончательная карта объектов должна быть получена с повышением дискретизации с частотой 8 и 16, что является относительно грубым и может быть улучшено позже. Кроме того, модель PSPNet имеет наиболее важную особенность, заключающуюся в агрегировании контекстной информации из разных регионов с помощью модуля PSP, тем самым улучшая доступ к глобальной информации и обеспечивая хорошие результаты по нескольким наборам данных. Результаты показывают, что модель U-Net имеет самую высокую точность сегментации и лучший эффект сегментации в этой исследовательской среде.

Архитектура U-Net демонстрирует свое превосходство в сегментации медицинских изображений¹². Первоначально разработанный для сегментации изображений 2D-ячеек, алгоритм U-Net получил дальнейшее развитие путем замены его 2D-модуля 3D-модулем. Эта модификация усилила его способность обрабатывать 3D-изображения, такие как магнитно-резонансная томография (МРТ), компьютерная томография (КТ) и трехмерные (3D) ультразвуковые изображения. Сегментируя медицинские изображения на органы, ткани и поражения, можно получить ценные клинические данные. Усовершенствованный алгоритм U-Net представляет собой эффективный инструмент для последующего обследования и лечения. В медицинской диагностике классификация изображений является важной частью многих диагностических процессов. Традиционная медицина основана на наблюдении за всеми видимыми признаками, включая язык, кожу и выражение лица. Появление и развитие технологии сегментации медицинских изображений имеют большое значение в медицинской диагностике. В ТКМ анализ изображений лица и языка требует использования различных алгоритмов глубокого обучения для классификации извлечения признаков. С другой стороны, алгоритмы сегментации изображений широко используются в западной медицине, обеспечивая основу для клинической диагностики и патологии¹³.

Исследовательский процесс этого исследования включает в себя критические этапы, включая предварительную обработку данных, обучение и тестирование алгоритмов, а также сравнение производительности алгоритмов. Первоначально исходные данные проходят обработку, маркировку и разделение на обучающий и тестовый наборы для облегчения последующего построения алгоритма. Затем обработанные данные поступают в нейронную сеть, и функция потерь устанавливается для определения вектора градиента через обратное распространение. Впоследствии параметры корректируются до завершения тренировочного процесса. Производительность алгоритма оценивается путем тестирования эффекта сегментации изображения с использованием нескольких индексов, таких как MIoU, MPA, точность и отзыв, для всесторонней оценки его производительности. Во время фактического процесса обучения алгоритма может произойти переподгонка, когда модель слишком тщательно изучает данные, включая характеристики данных о шуме. Это приводит к идентификации данных во время более поздних тестов, неправильной классификации данных и плохой способности к обобщению. Если происходит чрезмерная подгонка, можно увеличить тренировочные данные или повторно очистить данные. В данном исследовании принят итерационный метод градиентного спуска. Чрезмерную подгонку также можно предотвратить, заранее отрезав итерацию.

Ограниченность этого исследования очевидна; Изображения были собраны с помощью стационарных приборов, и экспериментальные приборы в настоящее время не могут быть использованы в коммерческих целях. Следовательно, изображения языка в этом исследовании взяты из одной сцены и не полностью отражают клинический фон и сложные и переменные условия освещения. Поэтому необходимы дальнейшие исследования для изучения методов обработки изображений в сложных условиях и условиях плохой освещенности. Объективные исследования диагностики языка содержат богатое содержание, поэтому необходима точная сегментация тела языка. Следовательно, сравнение и верификация алгоритмов с наиболее подходящим эффектом сегментации имеет большое значение для последующих исследований. Сочетание сегментации языка с классификацией теоретически может обеспечить автоматическую оценку изображения языка и помочь в диагностике; Ученые исследовали и изучили эту тему. В здравоохранении использование Интернета вещей и технологий беспроводной связи для обработки биомедицинских изображений, а также помощи в диагностике может повысить эффективность систем. Mansour et ^al.14 разработали автоматизированное цветное изображение языка (ASDL-TCI) на основе совместного глубокого обучения и Интернета вещей. Он включает в себя сбор данных, предварительную обработку, извлечение признаков, классификацию и оптимизацию параметров. Точность, коэффициент отзыва и точность этой модели составляют 0,984, 0,973 и 0,983 соответственно, что превосходит другие методы.

Получение и предварительная обработка изображений
В процессе получения изображения интенсивность и разнообразие источников света могут напрямую влиять на качество изображения, что, в свою очередь, влияет на результаты сегментации и классификации изображений. Поэтому важно настроить источник света так, чтобы он как можно точнее имитировал эффект естественных источников света. Кроме того, такие методы, как использование стандартных источников света или использование нескольких источников света и съемка в фиксированной сцене, могут предотвратить негативное влияние света, фона и других факторов, тем самым повышая точность алгоритмической сегментации. Параметры освещения прибора, используемые для сбора изображений языка, не идентичны стандартному освещению, что влияет на эффект цветопередачи изображений языка. Таким образом, наиболее распространенным методом предварительной обработки является цветокоррекция. Cai et ^al.15 обнаружили, что для устранения несоответствия между цветовыми данными изображения языка и соответствующей цветовой цветностью языка необходимо нормализовать преобразование цветового пространства изображения языка и цветокоррекцию. Цветопередача устройства отображения также отличается от реального корпуса языка, что требует тестирования и настройки. Кроме того, размер изображения изменяется из-за различных инструментов захвата, используемых в процессе сбора изображений¹⁶. Чтобы повысить эффективность обучения и сэкономить место для хранения, сеть глубокого обучения имеет ограничения на размер входного изображения. Поэтому размер изображения должен быть стандартизирован на этапе предварительной обработки изображения. Как правило, это достигается путем равномерного изменения формы входного изображения для обучения модели, при этом обычно используемыми методами изменения формы являются интерполяция, обрезка, включение, мозаика и зеркальное отображение.

Сегментация изображения языка
Сегментацию изображений языка можно разделить на два типа: традиционные методы сегментации и методы сегментации с глубоким обучением¹⁷. Традиционные методы сегментации изображений языка состоят из таких алгоритмов, как алгоритм Снейка и алгоритм Оцу. В качестве активной контурной модели алгоритм¹⁸ Снейка сначала устанавливает кривую профиля, а затем корректирует начальный профиль для превращения в истинную кривую профиля. Получение начальных контуров и эволюция контуров являются основным направлением исследований алгоритма Снейка. С другой стороны, алгоритм Otsu — это классический алгоритм пороговой сегментации, который использует один или несколько пороговых значений для вычисления значения серого на исходном изображении и сравнения значения оттенков серого каждого пикселя с пороговым значением. Основываясь на результатах сравнения, язык и фон изображены до появления методов глубокого обучения. Эти два алгоритма обычно используются при обработке изображений языка и объективизации диагностики языка.

С момента появления теории глубокого обучения многие ученые исследовали интеграцию объективации диагностики языка и глубокого обучения. Zheng et ^al.19 разработали метод обнаружения языка, основанный на сегментации изображений путем объединения различных алгоритмов и изучения метода обнаружения языка в открытой среде, что в конечном итоге привело к благоприятным результатам сегментации языка. Yuan et ^al.20 предложили метод сегментации языка, основанный на функции потери одного пикселя ассоциации областей, в которой улучшенная функция потерь учитывает корреляцию между пикселями области. Используя контролируемое обучение семантике пиксельных меток, эффективность обучения модели была повышена, о чем свидетельствует индекс MIoU, достигший 96,32%. Изображение языка показало специфические морфологические характеристики, такие как следы зубов, трещины и проколы, тесно связанные с началом заболевания. Таким образом, наблюдение за языком может помочь в диагностике развития заболевания. Wang et al²¹ предложили подход к сегментации переломов языка с глубоким обучением для небольших наборов данных выборки, который обеспечил повышенную точность и стабильность. Этот метод включал в себя сначала расщепление тела языка, а затем трещины языка, и улучшил алгоритм U-Net, включив потерю фокуса как потерю функции.

Классификация изображений языка
Классификация изображений языка в основном включает в себя определение таких характеристик, как цвет языка, шипы, трещины и цвет покрытия. Wang et ^al.22 использовали алгоритм Snake для сегментации тела языка и использовали такие методы, как взаимная регистрация информационных изображений, обнаружение краев журнала, параллельная линия и другие методы для идентификации проколов. Такой подход эффективно решил проблему автоматической идентификации и подсчета проколов, одновременно способствуя раннему выявлению и профилактике. Чтобы устранить ограничения, связанные с обучением алгоритма изображения языка, такие как большой объем данных, длительное время обучения и высокие требования к оборудованию, Yang et ^al.23предложили полностью связанную нейронную сеть, основанную на трансферном обучении. Этот метод использует хорошо обученные Inception_v3 для извлечения признаков и объединения их с полностью подключенной нейронной сетью (FCN), достигая точности более 90%. Этот подход решил проблему глубокого обучения в небольших выборках и множественных классификациях. Song et ^al.24 использовали каскадный классификатор для поиска изображений в GoogLe-Net и Res-Net для переноса обучения, обучения и применения глубокого обучения для автоматической классификации трех признаков изображения языка: следов зубов, трещин и толщины покрытия языка. Средняя точность результатов классификации превысила 94%. Тем не менее, алгоритм классификации изображений языка очень чувствителен к помехам от других несвязанных частей лица, что напрямую влияет на точность классификации²⁵.

Zhai et ^al.26 разработали многоступенчатый алгоритм классификации изображений языка с использованием механизмов внимания. Этот метод повышает точность идентификации областей языка за счет извлечения признаков из различных перцептивных полей зрения, которые сливаются во время фазы локализации языка. Кроме того, модуль механизма внимания повышает точность классификации изображений языка, что подавляет помехи от загрязнений языка. Столкнувшись с проблемой классификации языковых особенностей различных заболеваний²⁷, алгоритмы глубокого обучения также могут обеспечить новые подходы. Кроме того, Shi et ^al.28 исследовали типичный метод классификации немелкоклеточного рака легкого, основанный на алгоритме дерева решений C5.0. Они определили семь правил классификации атрибутов, относящихся к сертификату дефицита Ци и классификации сертификата дефицита Инь. Точность модели составила 80,37%. Кроме того, Li et ^al.29 разработали диагностическую модель диабета с использованием алгоритма стохастического леса. Кроме того, они проанализировали текстуру и цветовые особенности изображений языка, чтобы повысить производительность модели.

Заключение
В отличие от современных диагностических подходов западной медицины, методы диагностики ТКМ малоинвазивны и влекут за собой минимальный вред. Кроме того, четыре диагностических метода: наблюдение, прослушивание или обоняние, исследование и пальпация имеют свои основы в различных аспектах ТКМ. Тем не менее, из-за сильной зависимости диагностики и лечения ТКМ от опыта практикующего врача и концепций личного лечения, может не хватать объективности и стандартизации. В результате тенденция к объективизации диагноза ТКМ возникла как направление для дальнейших исследований, которые могут способствовать развитию ТКМ.

Объективизация диагностики языка обладает потенциалом для обработки изображений и больших объемов данных с высокой эффективностью, что может значительно помочь врачам. Однако важно отметить, что диагностика языка является не только традиционным методом, но и проверена. Chen et al.30 провели исследование, в ходе которого они собрали клинические данные на изображениях языка ³⁸² пациентов с COVID-19. Они статистически проанализировали особенности изображения языка и параметры цветового рисунка лаборатории для всех групп изображений. Результаты исследования выявили корреляцию между особенностями изображений языка и типом используемой западной медицины. Кроме того, изменения в изображениях языка согласуются с общим патогенезом заболевания. Некоторые параметры изображений языка потенциально могут помочь в прогнозировании патогенных изменений COVID-19 в TCM³¹.

Объективируя традиционную медицинскую диагностику языка, многие исследователи использовали метод сегментации и классификации. Нейронные сети глубокого обучения и свертки необходимы для классификации характеристик изображения языка. Точность алгоритма сегментации изображения языка имеет решающее значение, поскольку он определяет, можно ли точно отделить язык от лица, тем самым влияя на точность последующей классификации признаков. Следовательно, повышение точности текущей модели алгоритма является важнейшим направлением исследований в этой области. На данный момент улучшение модели алгоритма и его точности является горячей точкой исследования.

В этом исследовании использовались те же данные тестового набора для сравнения производительности алгоритмов U-Net, Seg-Net, DeeplabV3 и PSPNet4. Эта мера была принята для обеспечения согласованности качества используемых данных. В экспериментальной среде, использованной в этом исследовании, алгоритм U-Net значительно превзошел три других алгоритма по точности сегментации. MIoU — это аннотационная мера алгоритма семантической сегментации³², наиболее важного индекса, используемого для оценки производительности алгоритма. Значение MIoU алгоритма U-Net было на 3,91% выше, чем у алгоритма Seg-Net, на 23,32% выше, чем у DeeplabV3, и на 16,2% выше, чем у PSPNet. Это свидетельствует о том, что алгоритм U-Net работает лучше, чем другие алгоритмы.

Однако существуют некоторые проблемы в сегментации и классификации изображений языка с использованием алгоритмов глубокого обучения. Например, из-за конфиденциальности пациентов наборы данных медицинских изображений слишком малы по размеру по сравнению с другими семантическими сегментированными наборами данных, что ограничивает преимущества глубокого обучения в больших данных. Сегментация модели с большими параметрами подвержена проблеме подгонки. Поэтому структуру сети необходимо корректировать, выбирая соответствующие режимы улучшения. В настоящее время объективные исследования диагностики языка еще не сформировали единый стандарт сбора; Среда сбора данных и тип источника света не имеют надлежащей стандартизации. Исследователи обычно настраивают среду сбора и создают свою собственную непубличную базу данных. В то же время, хотя современные алгоритмические модели могут достичь хорошей точности, используемые данные тщательно проверяются и предварительно обрабатываются, чего трудно достичь в реальной среде диагностики и лечения, тем самым ограничивая их клиническое применение. Кроме того, дальнейшая объективизация диагностики языка будет иметь дело со сложными средами или изображениями языка, полученными различными устройствами³³. Другой тенденцией является динамическая обработка информации, в частности обработка видеоизображений, которая предоставляет более подробную информацию о языке и более полно отражает преимущества диагностики языка. Таким образом, необходимо разработать алгоритмы глубокого обучения для обработки динамических деталей. В целом, объективизация медицинской диагностики языка в сочетании с алгоритмами глубокого обучения обещает снизить субъективность в диагностике ТКМ.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

У авторов нет конфликта интересов, о котором можно было бы заявить.

Acknowledgments

Эта работа была поддержана Национальным фондом природы Китая (грант No 82004504), Национальной программой ключевых исследований и разработок Министерства науки и технологий Китая (грант No 2018YFC1707606), Управлением китайской медицины провинции Сычуань (грант No 2021MS199) и Национальным фондом природы Китая (грант No 82174236).

Materials

Name	Company	Catalog Number	Comments
CPU	Intel(R) Core(TM) i7-9700K
GPU	NVIDIA GeForce RTX 3070 Ti (8192MB)
Operating systems	Microsoft Windows 10 Professional Edition (64-bit)
Programming language	Python
RAM	16G

DOWNLOAD MATERIALS LIST

References

Jiu, G., et al. Effects of herbal therapy on intestinal microbiota and serum metabolomics in different rat models of Mongolian medicine. Evidence-Based Complementary and Alternative. 2022, 7255780 (2022).
Xi, J., Xin, Y., Teregle, Study on the correlation between the animal model of Mongolian medicine 34;Xieri disease" and serum ALT and AST. Electronic Journal of Cardiovascular Diseases in Combination of Traditional Chinese. 4 (33), 134-135 (2016).
Yin, L., et al. Study on the mechanism of serum differential protein changes in bronchial asthma based on proteomics. Chinese Journal of Traditional Chinese Medicine. 47 (22), 6227-6234 (2022).
Wang, X. H., Bao, L. Band Seed. The origin and development of tongue diagnosis in Mongolian medicine. Chinese Ethnic Folk Medicine. (1), 64-65 (2008).
Yang, S., et al. A comparative study on the feature parameters of tongue diagnosis images in five nationalities. Chinese Journal of Traditional Chinese Medicine. 36 (11), 6428-6430 (2021).
He, J. Y., et al. Efficacy and safety of Chou-Ling-Dan granules in the treatment of seasonal influenza via combining Western and traditional Chinese medicine, protocol for a multicentre, randomised controlled clinical trial. BMJ Open. 9 (4), e024800 (2019).
Wang, D. J., et al. Scientific knowledge mapping and visualization analysis in the field of Chinese medicine tongue feature objectification research. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3032-3040 (2021).
Yuan, S. M., Qian, P., Li, F. F. Research progress of color correction methods for tongue and face diagnosis in traditional Chinese Medicine. Chinese Journal of Traditional Chinese Medicine. 34 (9), 4183-4185 (2019).
Kanawong, R., et al. Tongue image analysis and its mobile app development for health diagnosis. Advances in Experimental Medicine and Biology. 1005, 99-121 (2017).
Yu, Y., et al. Semantic segmentation evaluation index and evaluation method. Computer Engineering and Application. , (2023).
Sehyung, L., Negishi, M., Urakubo, H., Kasai, H., Ishii, S. Mu-net: Multi-scale U-net for two-photon microscopy image denoising and restoration. Neural Networks. 125, 92-103 (2020).
Huang, X. M., et al. A review on the application of U-Net and its variants in medical image segmentation. Chinese Journal of Biomedical Engineering. 41 (5), 567-576 (2022).
Lu, J. H., Xu, Y. F., Wang, Y. Q., Hao, Y. M. Research overview of tongue objectification in traditional Chinese medicine based on computer image technology. World Science and Technology - Modernization of Traditional Chinese Medicine. 24 (11), 4568-4573 (2022).
Mansour, R. F., Althobaiti, M. M., Ashour, A. A. Internet of things and synergic deep learning based biomedical tongue color image analysis for disease diagnosis and classification. IEEE Access. 9, 94769-94779 (2021).
Cai, Y. H., Hu, S. B., Guan, J., Zhang, X. F. Analysis of the development and application of tongue diagnosis objectification techniques in Chinese medicine. World Science and Technology - Modernization of Chinese Medicine. 23 (7), 2447-2453 (2021).
Ghosh, S., Das, N., Nasipuri, M. Reshaping inputs for convolutional neural network: some common and uncommon methods. Pattern Recognition. 93, 79-94 (2019).
Shang, Z. M., et al. Research progress of digital acquisition and characterization of tongue diagnosis information. Chinese Journal of Traditional Chinese Medicine. 36 (10), 6010-6013 (2021).
Ning, J., Zhang, D., Wu, C., Yue, F. Automatic tongue image segmentation based on gradient vector flow and region merging. Neural Computing and Applications. 21, 1819-1826 (2012).
Zheng, F., Huang, X. Y., Wang, B. L., Wang, Y. H. A method for tongue detection based on image segmentation. Journal of Xiamen University. 55 (6), 895-900 (2016).
Li, Y. T., Luo, Y. S., Zhu, Z. M. Deep learning-based tongue feature analysis. Computer Science. 47 (11), 148-158 (2020).
Wang, Y. D., Sun, C. H., Cui, J. L., Wu, X. R., Qin, Y. X. Research on deep learning-based tongue fissure segmentation algorithm. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3065-3073 (2021).
Wang, X. M., Wang, R. Y., Guo, D., Lu, S. Z., Zhou, P. Research on the identification method of tongue punctures based on auxiliary light source. Journal of Sensing Technology. 29 (10), 1553-1559 (2016).
Yang, J. D., Zhang, P. A fully connected neural network based on migration learning for tongue image classification. Journal of the Second Military Medical University. 39 (8), 897-902 (2018).
Song, C., Wang, B., Xu, J. T. Research on tongue feature classification method based on deep migration learning. Computer Engineering and Science. 43 (8), 1488-1496 (2021).
Ding, H. J., He, J. C. Study on modern techniques and methods of tongue diagnosis. Shi Zhen Chinese Medicine. 21 (5), 1230-1232 (2010).
Zhai, P. B., et al. A multi-stage tongue image classification algorithm incorporating attention mechanism. Computer Engineering and Design. 42 (6), 1606-1613 (2021).
Hou, Y. S. A new clustering analysis algorithm based on deep learning. Journal of Xinxiang University. 35 (12), 4 (2018).
Shi, Y. L., et al. A decision tree algorithm for classification of non-small cell lung cancer evidence based on tongue and pulse data. World Science and Technology - Modernization of Chinese Medicine. 24 (7), 2766-2775 (2022).
Li, J., Hu, X. J., Zhou, C. L., Xu, J. T. Study on the feature analysis and diagnosis model of diabetic tongue based on random forest algorithm. Chinese Journal of Traditional Chinese Medicine. 37 (3), 1639-1643 (2022).
Chen, C. H., et al. The characteristics of the combination of the four diagnostic methods of traditional Chinese medicine from the perspective of the differences between Chinese and Western medical diagnosis methods. Journal of Guangzhou University of Traditional Chinese Medicine. 28 (3), 332-334 (2011).
Chen, R., et al. Correlation analysis of tongue image and western medicine typing in 382 patients with novel coronavirus pneumonia based on Lab colour model and imaging histology. Chinese Journal of Traditional Chinese Medicine. 36 (12), 7010-7014 (2021).
Ju, J. W., Jung, H., Lee, Y. J., Mun, S. W., Lee, J. H. Semantic segmentation dataset for AI-based quantification of clean mucosa in capsule endoscopy. Medicina. 58 (3), 397 (2022).
Wu, X., et al. A review of research on deep learning in tongue image classification. Computer Science and Exploration. , 1-23 (2022).

Medicine

Объективизация диагностики языка в традиционной медицине, анализ данных и применение в исследованиях

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.