Journal
/
/
Глубокие нейронные сети для оценки рациона питания на основе изображений
JoVE Journal
Engineering
Author Produced
This content is Free Access.
JoVE Journal Engineering
Deep Neural Networks for Image-Based Dietary Assessment

Глубокие нейронные сети для оценки рациона питания на основе изображений

8,547 Views

13:19 min

March 13, 2021

DOI:

13:19 min
March 13, 2021

18 Views
,

Transcript

Automatically generated

Из-за проблем и затрат, связанных с ручным подходом к оценке рациона питания, необходимы автоматизированные решения для облегчения и ускорения работы и повышения ее качества. Сегодня автоматизированные решения способны записывать диетическое потребление человека гораздо проще, например, путем съемки с помощью камеры смартфона. В этой статье мы сосредоточимся на таких имиджевых подходах к диетической оценке с использованием глубоких нейронных сетей, которые представляют собой современное состояние в этой области.

В частности, мы представят три решения: одно для распознавания образов продуктов питания, одно для сегментации изображений пищевых реплик, или поддельные продукты питания, и одно для сегментации изображений реальной пищи. Соберите список различных продуктов питания и напитков, которые будут выходы из модели распознавания изображений продуктов питания. Сохраните список продуктов питания и напитков в текстовом файле, например TXT или CSV.

Обратите внимание, что текстовый файл, используемый авторами этой статьи, можно найти в дополнительных файлах под точкой TXT продовольственных товаров и включает в себя список из 520 словенских продуктов питания. Напишите или загрузите скрипт Python, который использует api пользовательского поиска Google для загрузки изображений каждого элемента питания из списка и сохраняет их в отдельной папке для каждого элемента питания. Обратите внимание, что скрипт Python, используемый авторами этой статьи, можно найти в дополнительных файлах под изображениями загрузки dot pi.

Если этот скрипт используется, ключевая переменная строка ключа разработчика восемь в коде скрипта Python и пользовательский идентификатор поисковой системы ID переменной CX линии 28 в коде скрипта Python должны быть заменены значениями, специфичным для используемой учетной записи Google. Вы запустите скрипт Python из шага 1.1.3. Создайте новую версию каждого изображения из набора данных пищевого изображения, вращая его на 90 градусов, используя библиотеку CLoDSA.

Обратите внимание, что скрипт Python, содержащий все команды CLoDSA, используемые авторами этой статьи, можно найти в файле, включеном в дополнительные файлы под NutriNet, подчеркивают увеличение точки pi. Создайте новую версию каждого изображения из набора данных пищевого изображения, вращая его на 180 градусов, используя библиотеку CLoDSA. Создайте новую версию каждого изображения из набора данных пищевого изображения, вращая его на 270 градусов, используя библиотеку CLoDSA.

Создайте новую версию каждого изображения из набора данных пищевого изображения, перевернут его горизонтально, используя библиотеку CLoDSA. Создайте новую версию каждого изображения из набора данных пищевого изображения, добавив к нему случайный цветовой шум, используя библиотеку CLoDSA. Создайте новую версию каждого изображения из набора данных пищевого изображения, увеличив его на 25% с помощью библиотеки CLoDSA.

Сохраните изображения от шагов от 1.3.1 до 1.3.6 вместе с исходными изображениями в новый набор данных изображения еды. В общей сложности, семь вариантов на изображение пищи. Импорт продовольственных изображений из шага 1.3.7 в среду цифр NVIDI, разделяя набор данных на подмножества обучения, проверки и тестирования.

Копировать и вставлять текст определения архитектуры NutriNet в цифры NVIDIA. Обратите внимание, что определение архитектуры NutriNet можно найти в дополнительных файлах под NutriNet точка прото TXT. Дополнительно определите гипер-параметры обучения в цифрах NVIDIA или используйте значения по умолчанию.

Гипер-параметры, используемые авторами этой статьи, можно найти в файле, включеном в дополнительные файлы под NutriNet подчеркивают гипер-параметры точка прото TXT. Запустите обучение модели NutriNet. После завершения обучения возьмите наиболее эффективные модели NutriNet итерации.

Эта модель затем используется для проверки производительности этого подхода. Обратите внимание, что существует несколько способов определения наиболее эффективных итераций модели. Для получения более подробной информации обратитесь к текстам статей.

Получить набор данных поддельных изображений пищи. Отметим, что авторы этой статьи получили изображения поддельной пищи, которые были собраны в лабораторных условиях. Вручную аннотировать каждое изображение пищи на уровне пикселей.

Каждый пиксель на изображении должен содержать информацию о том, к какому классу продуктов питания он принадлежит. Обратите внимание, что есть много инструментов для достижения этой цели. Авторы этой статьи использовали аннотатор сегмента JavaScript.

Результатом этого шага является одно аннотация изображения для каждого изображения из набора данных пищевого изображения, где каждый пиксель представляет один из классов питания. Выполните те же шаги, что и в разделе 1.3, но только на изображениях из подмножества учебных данных, установленных на изображении пищи. Обратите внимание, что, за исключением шага 1.3.5, все шаги по увеличению данных также должны выполняться на соответствующих аннотациях изображений.

Выполните те же шаги, что и в разделе 1.4, за исключением шага 1.4.2. Вместо этого шага выполните шаги 2.3.2 и 2.3.3. Отметим, что учебные гипер-параметры, используемые авторами данной статьи, можно найти в файле, включенном в дополнительные файлы под FCN-8S, подчеркивают гипер-параметры точка прото TXT.

Копирование и вставка текста определения архитектуры FCN-8S в цифры NVIDIA. Введите предварительно обученную модель FCN-8S веса в цифры NVIDIA. Обратите внимание, что эти весы модели были предварительно обучены на наборе данных классов визуальных объектов Pascal и могут быть найдены в Интернете.

Загрузите набор данных изображений продуктов питания с веб-сайта Food Recognition Challenge. Выполните шаги от 1.3.1 до 1.3.4. Обратите внимание, что скрипт Python, содержащий все команды CLoDSA, используемые авторами этой статьи, можно найти в файле, включеном в дополнительные файлы под FRC, подчеркивают точку увеличения pi.

Создайте новую версию каждого изображения из набора данных пищевого изображения, добавив к нему гауссианское размытие с помощью библиотеки CLoDSA. Создайте новую версию каждого изображения из набора данных пищевого изображения, заострив его с помощью библиотеки CLoDSA. Создайте новую версию каждого изображения из набора данных пищевого изображения, применяя к нему гамма-коррекцию с помощью библиотеки CLoDSA.

Сохраните изображения с шагов от 3.2.1 до 3.2.4 вместе с исходными изображениями в новый набор данных пищевого изображения. В общей сложности, восемь вариантов на изображение пищи. Сохранить изображения из шагов 3.2.2 до 3.2.4 вместе с исходными изображениями в новый набор данных изображения пищи.

В общей сложности, четыре варианта на изображение пищи. Измените существующее определение архитектуры HTC ResNet 101 из библиотеки обнаружения ММ так, чтобы он принял наборы данных изображений еды из шагов 3.1.1, 3.2.5 и 3.2.6. Дополнительно измените определение архитектуры HTC ResNet 101 со шага 3.3.1, чтобы определить гипер-параметры обучения или использовать значения по умолчанию.

Обратите внимание, что модифицированное определение архитектуры HTC ResNet 101 можно найти в дополнительных файлах под HTC подчеркивают ResNet 101 точка пи. Запустите обучение модели HTC ResNet 101 на наборах данных изображений продуктов питания из шага 3.1.1 с помощью библиотеки обнаружения ММ. После завершения обучения от шага 3.3.3, возьмите наиболее эффективные HTC ResNet 101 модель итерации и тонко настроить его, проведя следующий этап обучения на пищевой набор данных изображения от шага 3.2.5.

Обратите внимание, что существует несколько способов определения наиболее эффективных итераций модели. Для получения более подробной информации обратитесь к текстам статей. Это актуально и для следующих шагов.

После завершения обучения с этапа 3.3.4 возьмите наиболее эффективные итерации модели HTC ResNet 101 и отполучат ее, проведя следующий этап обучения на наборе данных пищевого изображения из шага 3.2.6. После завершения обучения с этапа 3.3.5 возьмите наиболее эффективные htc ResNet 101 модель итерации и тонкой настройки его снова работает следующий этап обучения на пищевой набор данных изображения от шага 3.2.5. После завершения обучения на этапе 3.3.6 возьмите наиболее эффективные модели HTC ResNet 101.

Эта модель затем используется для проверки производительности этого подхода. Отметим, что шаги от 3.3.3 до 3.3.7 дали наилучшие результаты для целей, определенных авторами данной статьи. Эксперименты необходимы для каждого набора данных, чтобы найти оптимальную последовательность обучения и шагов по увеличению данных.

После тестирования трендовая модель NutriNet достигла точности классификации 86,72% на наборе данных распознавания, что было примерно на 2% выше, чем у AlexNet, и немного выше, чем у GoogLeNet, которые были популярны глубокой нейронной сетевой архитектурой того времени. Для измерения точности поддельной модели сегментации изображения продуктов питания FCN-8S использовалась мера точности пикселей. Точность обученной модели FCN-8S составила 92,18%Решение на основе ResNet для сегментации изображений пищевых продуктов было оценено с использованием точной меры, определенной в проблеме распознавания пищевых продуктов.

Используя эту меру, модель поезда достигла средней точности 59,2%, которая заняла второе место в вызове распознавания продуктов питания. В последние годы глубокие нейронные сети неоднократно были проверены в качестве подходящего решения для распознавания изображений пищи. Наша работа, представленная в этой статье, служит для дальнейшего доказательства этого.

Единый подход распознавания изображений продуктов питания прост и может быть использован для простых приложений. В то время как подход сегментации изображения еды требует больше работы в подготовке аннотированных изображений, но это гораздо более применимо к изображениям реального мира. В будущем нашей целью будет дальнейшая оценка разработанных процедур по изображениям реального мира.

Первым шагом на пути к проверке реального мира стала компания Food Recognition Challenge, которая включала набор данных о реальных изображениях продуктов питания в реальном мире. Однако необходимо проработать дальнейшую работу по проверке этого подхода в области изображений продуктов питания со всего мира и в сотрудничестве с диетологами.

Summary

Automatically generated

Целью работы, представленной в данной статье, является разработка технологии автоматического распознавания продуктов питания и напитков на основе изображений, сделанных мобильными устройствами. Технология состоит из двух различных подходов - первый выполняет распознавание образов пищи, а второй выполняет сегментацию изображения пищи.

Read Article