इस लेख में प्रस्तुत काम का लक्ष्य मोबाइल उपकरणों द्वारा ली गई छवियों से खाद्य और पेय पदार्थों की स्वचालित मान्यता के लिए प्रौद्योगिकी विकसित करना है। प्रौद्योगिकी में दो अलग-अलग दृष्टिकोण शामिल हैं – पहला खाद्य छवि मान्यता करता है जबकि दूसरा खाद्य छवि विभाजन करता है।
मैन्युअल आहार मूल्यांकन दृष्टिकोणों से जुड़े मुद्दों और लागतों के कारण, काम को कम करने और गति देने और इसकी गुणवत्ता बढ़ाने के लिए स्वचालित समाधानों की आवश्यकता होती है। आज, स्वचालित समाधान एक व्यक्ति के आहार का सेवन बहुत सरल तरीके से रिकॉर्ड करने में सक्षम हैं, जैसे कि स्मार्टफोन कैमरे के साथ एक छवि लेना। इस लेख में, हम आहार मूल्यांकन के लिए इस तरह के छवि आधारित दृष्टिकोण पर ध्यान केंद्रित करेंगे । खाद्य छवि मान्यता समस्या के लिए, गहरे तंत्रिका नेटवर्क ने हाल के वर्षों में कला की स्थिति हासिल की है, और हम इस क्षेत्र में अपना काम पेश करते हैं। विशेष रूप से, हम पहली बार एक गहरे तंत्रिका नेटवर्क वास्तुकला का उपयोग करके खाद्य और पेय छवि मान्यता के लिए विधि का वर्णन करते हैं, जिसे न्यूट्रीनेट कहा जाता है। यह विधि, गहरे सीखने-आधारित खाद्य छवि मान्यता के शुरुआती दिनों में किए गए अधिकांश शोध की तरह, प्रति छवि एक उत्पादन तक सीमित है, और इसलिए कई खाद्य या पेय पदार्थों वाली छवियों के लिए अनुपयुक्त है। यही कारण है कि खाद्य छवि विभाजन करने वाले दृष्टिकोण काफी अधिक मजबूत होते हैं, क्योंकि वे छवि में किसी भी संख्या में खाद्य या पेय पदार्थों की पहचान करने में सक्षम होते हैं। इसलिए हम खाद्य छवि विभाजन के लिए दो तरीके भी पेश करते हैं – एक पूरी तरह से कन्वोल्युशनल नेटवर्क (एफसीएन) पर आधारित है, और दूसरा गहरे अवशिष्ट नेटवर्क (ResNet) पर।
आहार मूल्यांकन एक व्यक्ति के आहार के कार्रवाई योग्य क्षेत्रों का निर्धारण करने में एक महत्वपूर्ण कदम है। हालांकि, पारंपरिक रूप से मैनुअल दृष्टिकोण का उपयोग करके आहार मूल्यांकन करना काफी लागतों से जुड़ा हुआ है। ये दृष्टिकोण त्रुटियों से भी ग्रस्त होते हैं क्योंकि वे अक्सर व्यक्ति द्वारा आत्म-रिपोर्टिंग पर भरोसा करते हैं। स्वचालित आहार मूल्यांकन भोजन के सेवन की मात्रा निर्धारित करने और अर्हता प्राप्त करने के लिए एक सरल तरीका प्रदान करके इन मुद्दों को संबोधित करता है। इस तरह के दृष्टिकोण से मैनुअल दृष्टिकोणों में मौजूद कुछ त्रुटियों को भी कम किया जा सकता है, जैसे छूटे हुए भोजन, भोजन की मात्रा का सही आकलन करने में असमर्थता आदि। इसलिए, विभिन्न खाद्य पदार्थों और पेय पदार्थों की पहचान करने वाले समाधानों को विकसित करके आहार मूल्यांकन को स्वचालित करने के लिए स्पष्ट लाभ हैं और भोजन के सेवन की मात्रा निर्धारित करते हैं1। इन समाधानों का उपयोग खाद्य और पेय पदार्थों (अब से ‘खाद्य वस्तुओं’ के पोषण मूल्यों का अनुमान लगाने में सक्षम बनाने के लिए भी किया जा सकता है।) नतीजतन, स्वचालित आहार मूल्यांकन कई अनुप्रयोगों के लिए उपयोगी है – कड़ाई से चिकित्सा उपयोगों से, जैसे आहार विशेषज्ञों को सामान्य आबादी पर लक्षित अच्छी तरह से किए गए ऐप्स के अंदर उपयोग करने के लिए अधिक आसानी से और सटीक रूप से ट्रैक करने और उनके रोगियों के आहार का विश्लेषण करने की अनुमति देना।
स्वचालित रूप से छवियों से खाद्य पदार्थों को पहचानने एक चुनौतीपूर्ण कंप्यूटर दृष्टि समस्या है । यह खाद्य पदार्थों के आम तौर पर विकृत वस्तुओं के कारण होता है, और इस तथ्य के कारण कि इसकी तैयारी के दौरान बड़ी मात्रा में खाद्य पदार्थ की दृश्य जानकारी खो सकती है। इसके अतिरिक्त, विभिन्न खाद्य पदार्थ एक दूसरे के समान दिखाई दे सकते हैं, और एक ही भोजन कई छवियों पर काफी अलग दिखाई दे सकता है2। इसके अलावा, मान्यता सटीकता कई और कारकों पर निर्भर करती है, जैसे कि छवि की गुणवत्ता, चाहे खाद्य पदार्थ किसी अन्य आइटम द्वारा बाधित हो, जिस दूरी से छवि ली गई थी, आदि। पेय पदार्थों को पहचानना चुनौतियों का अपना सेट प्रस्तुत करता है, मुख्य एक छवि में उपलब्ध दृश्य जानकारी की सीमित मात्रा में होता है। यह जानकारी पेय रंग, पेय कंटेनर रंग और संरचना हो सकती है, और, इष्टतम छवि स्थितियों के तहत, पेय घनत्व2।
छवियों से खाद्य पदार्थों को सफलतापूर्वक पहचानने के लिए, प्रत्येक खाद्य और पेय वर्ग की विशेषताओं को सीखना आवश्यक है। यह पारंपरिक रूप से मैन्युअल रूप सेपरिभाषित फीचर एक्सट्रैक्टर्स3,4,5, 6का उपयोग करके कियाजाता था जो विशिष्ट आइटम सुविधाओं जैसे रंग, बनावट, आकार, आदि या इन सुविधाओं के संयोजन के आधार पर मान्यता देते हैं। इन फीचर एक्सट्रैक्टर्स के उदाहरणों में मल्टीपल गिरी लर्निंग4,पेयरवाइज लोकल फीचर्स5 और बैग-ऑफ-फीचर्स मॉडल6शामिल हैं । खाद्य छवियों की जटिलता के कारण, इन दृष्टिकोणों ने ज्यादातर कम वर्गीकरण सटीकता हासिल की – 10% और 40%3,4,5केबीच। इसका कारण यह है कि मैन्युअल दृष्टिकोण पर्याप्त रूप से सटीक होने के लिए पर्याप्त मजबूत नहीं है। क्योंकि एक खाद्य पदार्थ दिखने में काफी भिन्न हो सकता है, इसलिए इन सभी विचरणों को मैन्युअल रूप से शामिल करना संभव नहीं है। उच्च वर्गीकरण सटीकता मैन्युअल रूप से परिभाषित सुविधा चिमटा के साथ प्राप्त किया जा सकता है जब या तो खाद्य वर्गों की संख्या5कम हो जाती है, या विभिन्न छवि सुविधाओं को 6 संयुक्त कियाजाताहै, इस प्रकार यह दर्शाता है कि इस समस्या के अधिक जटिल समाधानों की आवश्यकता है।
यही कारण है कि डीप लर्निंग फूड इमेज रिकग्निशन प्रॉब्लम के लिए इतनी कारगर साबित हुई । डीप लर्निंग, या डीप न्यूरल नेटवर्क, जैविक दिमाग से प्रेरित थे, और कई प्रसंस्करण परतों से बने कम्प्यूटेशनल मॉडल को इनपुट छवियों7, 8के एक सेट पर प्रशिक्षण के माध्यम से स्वचालित रूप से सुविधाओं को सीखने की अनुमतिदेताहै। इस वजह से, गहरी शिक्षा ने विभिन्न प्रकार के अनुसंधान क्षेत्रों में कला की स्थिति में काफी सुधार कियाहै,कंप्यूटर दृष्टि के साथ, और बाद में खाद्य छवि मान्यता, उनमें से एक होने के नाते2।
विशेष रूप से, गहरे जटिल तंत्रिका नेटवर्क (डीसीएनएनएस) खाद्य छवि मान्यता के लिए सबसे लोकप्रिय हैं – ये नेटवर्क जानवरों की दृश्य प्रणाली से प्रेरित हैं, जहां व्यक्तिगत न्यूरॉन्स दृश्य क्षेत्र9में ओवरलैपिंग क्षेत्रों पर प्रतिक्रिया देकर दृश्य इनपुट की समझ हासिल करने की कोशिश करते हैं। एक जटिल तंत्रिका नेटवर्क इनपुट छवि लेता है और नेटवर्क परतों में से प्रत्येक में संचालन की एक श्रृंखला करता है, जिनमें से सबसे आम जटिल, पूरी तरह से जुड़े और पूलिंग परतें हैं। कन्वोलुशनल लेयर्स में सीखने योग्य फिल्टर होते हैं जो इनपुट डेटा में कुछ सुविधाओं का जवाब देते हैं, जबकि पूरी तरह से कनेक्टेड परतें इससे उच्च स्तरीय ज्ञान हासिल करने के लिए अन्य परतों से आउटपुट डेटा की रचना करती हैं। परतों को पूल करने का लक्ष्य इनपुट डेटा2को डाउन-सैंपल करना है। डीप लर्निंग मॉडल का उपयोग करने के दो दृष्टिकोण हैं जो लोकप्रिय साबित हुए: मौजूदा गहरे तंत्रिका नेटवर्क परिभाषा10,11को लेना, जिसे इस लेख में एक गहरी सीखने की वास्तुकला के रूप में जाना जाता है, या एक नई गहरी सीखने की वास्तुकला12,13को परिभाषित करना, और इनमें से किसी एक को खाद्य छवि डेटासेट पर प्रशिक्षण देना। दोनों दृष्टिकोणों के लिए ताकत और कमजोरियां हैं – मौजूदा डीप लर्निंग आर्किटेक्चर का उपयोग करते समय, एक वास्तुकला जो अन्य समस्याओं के लिए अच्छा प्रदर्शन करती है, को वांछित समस्या के लिए चुना और ठीक-ठाक किया जा सकता है, इस प्रकार समय की बचत होती है और यह सुनिश्चित करता है कि एक मान्य वास्तुकला चुना गया है। दूसरी ओर, एक नई गहरी सीखने की वास्तुकला को परिभाषित करना अधिक समय-गहन है, लेकिन वास्तुकला के विकास की अनुमति देता है जो विशेष रूप से किसी समस्या की बारीकियों को ध्यान में रखने के लिए बनाए जाते हैं और इस प्रकार सैद्धांतिक रूप से उस समस्या के लिए बेहतर प्रदर्शन करते हैं।
इस लेख में, हम दोनों दृष्टिकोण प्रस्तुत करते हैं। खाद्य छवि मान्यता समस्या के लिए, हमने न्यूट्रीनेट2नामक एक उपन्यास डीसीएनएन आर्किटेक्चर विकसित किया, जो प्रसिद्ध एलेक्सनेट आर्किटेक्चर14का संशोधन है। एलेक्सनेट की तुलना में दो मुख्य अंतर हैं: न्यूट्रीनेट इनपुट के रूप में 512×512-पिक्सेल छवियों को स्वीकार करता है (एलेक्सनेट के लिए 256×256-पिक्सेल छवियों के विपरीत), और न्यूट्रीनेट में तंत्रिका नेटवर्क की शुरुआत में एक अतिरिक्त कॉन्वोलुशनल परत है। इन दो परिवर्तनों को यथासंभव मान्यता डेटासेट छवियों से अधिक जानकारी निकालने के लिए पेश किया गया था। उच्च-रिज़ॉल्यूशन छवियों का मतलब था कि छवियों पर अधिक जानकारी मौजूद है और अधिक जटिल परतें होने का मतलब है कि छवियों से अतिरिक्त ज्ञान निकाला जा सकता है। एलेक्सनेट के लगभग 60 मिलियन मापदंडों की तुलना में, न्यूट्रीनेट में कम पैरामीटर हैं: लगभग 33 मिलियन। यह अतिरिक्त जटिल परत2के कारण पहली पूरी तरह से जुड़ी परत पर आयामीता में अंतर के कारण है। चित्रा 1 में न्यूट्रीनेट वास्तुकला का एक चित्र शामिल है। न्यूट्रीनेट मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली खाद्य छवियां इंटरनेट से एकत्र की गई थीं – प्रक्रिया प्रोटोकॉल पाठ में वर्णित है।
खाद्य छवि विभाजन समस्या के लिए, हमने दो अलग-अलग मौजूदा आर्किटेक्चर का उपयोग किया: पूरी तरह से कन्वोल्यूशनल नेटवर्क (एफसीएन)15 और डीप अवशिष्ट नेटवर्क (ResNet)16,जिनमें से दोनों ने छवि विभाजन के लिए कला की स्थिति का प्रतिनिधित्व किया जब हमने उनके संबंधित खाद्य छवि विभाजन समाधान विकसित करने के लिए उनका उपयोग किया। कई एफसीएन वेरिएंट हैं जिन्हें लॉन्ग एट अल द्वारा पेश किया गया था। FCN-32s FCN की अंतिम परत द्वारा भविष्यवाणियों के आधार पर एक पिक्सेल नक्शा आउटपुट, जबकि FCN-16s संस्करण एक पहले परत द्वारा उन लोगों के साथ इन भविष्यवाणियों को जोड़ती है । FCN-8s अभी तक एक और परत की भविष्यवाणियों पर विचार करता है और इसलिए बेहतरीन अनाज है, यही वजह है कि यह खाद्य छवि मांयता के लिए उपयुक्त है पर भविष्यवाणियों बनाने में सक्षम है । एफसीएन-8एस जिसका हमने उपयोग किया था, वह पास्कल विजुअल ऑब्जेक्ट क्लासेज (पास्कल वीओसी) डेटासेट17 पर पूर्व-प्रशिक्षित था और वास्तविक भोजन के लिए उनके दृश्य समानता केकारण और पिक्सेल स्तर पर वास्तविक भोजन की एनोटेटेड छवियों की कमी के कारण भोजन प्रतिकृतियों (अब से ‘ नकली भोजन ‘) की छवियों पर प्रशिक्षित और परीक्षण किया गया था। नकली भोजन का उपयोग विभिन्न व्यवहार अध्ययनों में किया जाता है और सभी अध्ययन प्रतिभागियों से सभी व्यंजनों के लिए छवियां ली जाती हैं। क्योंकि इन छवियों के खाद्य सामग्री जाना जाता है, यह छवि डेटासेट गहरी सीखने मॉडल प्रशिक्षण के लिए उपयोगी बनाता है । प्रोटोकॉल टेक्स्ट में डेटासेट प्रोसेसिंग स्टेप्स बताए गए हैं।
ResNet आधारित समाधान खाद्य मान्यता चैलेंज (FRC)19के दायरे में विकसित किया गया था । यह एक ResNet-१०११६ रीढ़ के साथ हाइब्रिड टास्क झरना (HTC)20 विधि का उपयोग करता है । यह छवि विभाजन समस्या के लिए एक अत्याधुनिक दृष्टिकोण है जो विभिन्न फीचर चिमटा, या बैकबोन का उपयोग कर सकता है। हम अन्य बैकबोन नेटवर्क को भी मानते हैं, विशेष रूप से अन्य रेसनेट वेरिएंट जैसे रेसनेट-5016,लेकिन रेसनेट-101 इसकी गहराई और जटिल पर्याप्त तरीके से इनपुट छवियों का प्रतिनिधित्व करने की क्षमता के कारण सबसे उपयुक्त था। एचटीसी रेसनेट-101 मॉडल को प्रशिक्षण देने के लिए इस्तेमाल किया जाने वाला डेटासेट अतिरिक्त संवर्धित छवियों के साथ एफआरसी डेटासेट था। इन वृद्धि प्रोटोकॉल पाठ में प्रस्तुत कर रहे हैं।
यह लेख मशीन लर्निंग विशेषज्ञों के लिए एक संसाधन के रूप में जानकारी की तलाश में है जिसके बारे में गहरी सीखने वास्तुकला और डेटा वृद्धि कदम खाद्य छवि मान्यता और विभाजन की समस्याओं के लिए अच्छा प्रदर्शन करते हैं, साथ ही पोषण शोधकर्ताओं के लिए आहार मूल्यांकन में उपयोग के लिए खाद्य छवि मान्यता को स्वचालित करने के लिए हमारे दृष्टिकोण का उपयोग करना चाहते हैं। नीचे दिए गए पैराग्राफ में, खाद्य छवि मान्यता क्षेत्र से डीप लर्निंग समाधान और डेटासेट प्रस्तुत किए गए हैं। प्रोटोकॉल पाठ में, हम विस्तार कैसे तीन दृष्टिकोणों में से प्रत्येक का उपयोग गहरे तंत्रिका नेटवर्क मॉडल को प्रशिक्षित करने के लिए किया गया था जिसका उपयोग स्वचालित आहार मूल्यांकन के लिए किया जा सकता है। इसके अतिरिक्त, प्रत्येक प्रोटोकॉल अनुभाग में इस बात का विवरण होता है कि प्रशिक्षण और परीक्षण के लिए उपयोग किए जाने वाले खाद्य छवि डेटासेट कैसे प्राप्त किए गए और संसाधित किए गए थे।
DCNNs आम तौर पर खाद्य छवि मांयता और विभाजन के लिए अंय तरीकों की तुलना में काफी बेहतर परिणाम हासिल किया है, यही वजह है कि क्षेत्र में हाल के अनुसंधान के विशाल बहुमत इन नेटवर्कों पर आधारित है । कावानो एट अल ने21 मैनुअल दृष्टिकोणों को पूरक करने के लिए DCNNs का उपयोग किया और यूईसी-FOOD100 डेटासेट 22 पर72.26%की वर्गीकरण सटीकता हासिल की। क्रिस्टोडोलिडिस एट अल ने उन्हें विशेष रूप से स्वयं-अधिग्रहीत डेटासेट23पर 84.90% की उच्च सटीकता प्राप्त करने के लिए उपयोग किया। टैनो एट अल विकसित DeepFoodCam -खाद्य छवि मांयता के लिए एक स्मार्टफोन एप्लिकेशन है कि DCNNs24का उपयोग करता है । लियू एट अल एक प्रणाली है कि चीजों के एक इंटरनेट आधारित आहार मूल्यांकन DCNNs25का उपयोग कर प्रदर्शन प्रस्तुत किया । मार्टिनेल एट अल ने एक डीसीएनएन-आधारित दृष्टिकोण पेश किया जो खाद्य छवियों की बारीकियों का शोषण करता है26 और खाद्य-101 डेटासेट 27 पर 90.27% की सटीकता की सूचना दी। झोउ एट अल खाद्य डोमेन28में गहरी सीखने के समाधान की समीक्षा लेखक .
हाल ही में, झाओ एट अल मोबाइल अनुप्रयोगों में खाद्य छवि मान्यता के लिए विशेष रूप से एक नेटवर्क का प्रस्ताव29. यह दृष्टिकोण एक छोटे ‘छात्र’ नेटवर्क का उपयोग करता है जो एक बड़े ‘शिक्षक’ नेटवर्क से सीखता है। इसके साथ, वे UEC-FOOD25630 पर 84% की सटीकता और फूड-101 डेटासेट 27 पर 91.2% की सटीकता प्राप्त करने में कामयाब रहे। हाफिज एट अल एक पेय केवल छवि पहचान समाधान विकसित करने के लिए DCNNs का इस्तेमाल किया और ९८.५१%31की एक बहुत ही उच्च सटीकता की सूचना दी । शिमोडा एट अल. पिक्सेल वार एनोटेशन३२के उपयोग के बिना खाद्य छवियों में प्लेट क्षेत्रों का पता लगाने के लिए एक उपन्यास विधि का वर्णन किया । Ciocca एट अल 11 विभिन्न राज्यों (ठोस, कटा हुआ, मलाईदार पेस्ट, आदि) में 20 विभिन्न खाद्य वर्गों से खाद्य पदार्थों से युक्त एक नया डेटासेट पेश किया और प्रशिक्षण मान्यता मॉडल है कि खाद्य राज्य को पहचानने में सक्षम हैं के लिए अपने दृष्टिकोण प्रस्तुत किया, खाद्य वर्ग३३के अलावा । Knez एट अल मोबाइल उपकरणों के लिए खाद्य छवि मांयता समाधान का मूल्यांकन३४। अंत में, फर्टाडो एट अल ने एक अध्ययन किया कि मानव दृश्य प्रणाली डीसीएनएनएस के प्रदर्शन की तुलना कैसे करती है और पाया कि मानव मान्यता अभी भी 80% बनाम 74.5%35की सटीकता के साथ डीसीएनएन को मात देती है। लेखकों ने कहा कि खाद्य वर्गों की एक छोटी संख्या के साथ, DCNNs अच्छा प्रदर्शन करते हैं, लेकिन सैकड़ों वर्गों के साथ एक डेटासेट पर, मानव मान्यता सटीकता35अधिक है, जो समस्या की जटिलता को उजागर करता है।
इसके अत्याधुनिक परिणामों के बावजूद, डीप लर्निंग में एक बड़ी खामी है – मॉडल को प्रशिक्षित करने के लिए एक बड़े इनपुट डेटासेट की आवश्यकता होती है। खाद्य छवि मान्यता के मामले में, एक बड़े खाद्य छवि डेटासेट की आवश्यकता होती है, और इस डेटासेट को यथासंभव कई अलग-अलग वास्तविक दुनिया परिदृश्यों को शामिल करने की आवश्यकता होती है। व्यवहार में इसका मतलब यह है कि प्रत्येक व्यक्ति के भोजन या पेय पदार्थ के लिए, छवियों का एक बड़ा संग्रह आवश्यक है, और डेटासेट में मौजूद होने की आवश्यकता के रूप में कई अलग-अलग वस्तुओं की आवश्यकता होती है। यदि डेटासेट में किसी विशिष्ट आइटम के लिए पर्याप्त छवियां नहीं हैं, तो उस आइटम को सफलतापूर्वक पहचाने जाने की संभावना नहीं है। दूसरी ओर, यदि केवल कम संख्या में वस्तुएं डेटासेट द्वारा कवर की जाती हैं, तो समाधान दायरे में सीमित होगा, और केवल मुट्ठी भर विभिन्न खाद्य पदार्थों और पेय पदार्थों को पहचानने में सक्षम होगा।
पूर्व में कई डेटासेट उपलब्ध कराए गए थे । पिट्सबर्ग फास्ट फूड इमेज डेटासेट (PFID)3 खाद्य छवि मांयता के क्षेत्र में और अधिक अनुसंधान को प्रोत्साहित करने के लिए पेश किया गया था । इलेक्ट्रो-कम्युनिकेशंस फूड १०० विश्वविद्यालय (UEC-FOOD100)22 और इलेक्ट्रो संचार खाद्य विश्वविद्यालय २५६ (UEC-FOOD256)30 डेटासेट जापानी व्यंजन होते हैं, UEC-FOOD256 डेटासेट के मामले में कुछ अंतरराष्ट्रीय व्यंजनों के साथ विस्तारित । फूड-१०१ डेटासेट में एक वेबसाइट27से प्राप्त लोकप्रिय व्यंजन शामिल हैं । फूड-५०३६ और वीडियो रिट्रीवल ग्रुप फूड १७२ (VireoFood-१७२)३७ डेटासेट खाद्य छवियों के चीनी आधारित संग्रह हैं । मिलानो-बिकोका विश्वविद्यालय 2016 (UNIMIB2016) डेटासेट एक इतालवी कैंटीन38से खाद्य ट्रे की छवियों से बना है। Recipe1M खाना पकाने के व्यंजनों और खाद्य छवियों39का एक बड़े पैमाने पर डेटासेट है। फूड-475 डेटासेट40 पहले प्रकाशित चार खाद्य छवि डेटासेट27,30,36,37 को एक में एकत्र करता है। बीजिंग टेक्नोलॉजी एंड बिजनेस यूनिवर्सिटी फूड ६० (BTBUFood-६०) फूड डिटेक्शन४१के लिए बनी छवियों का एक डेटासेट है । हाल ही में आइसीआइएस फूड-500 डाटासेट42 विविध खाद्य चित्र उपलब्ध कराए गए थे। अन्य सार्वजनिक रूप से उपलब्ध खाद्य छवि डेटासेट की तुलना में, इसमें बड़ी संख्या में छवियां शामिल हैं, जिन्हें 500 खाद्य कक्षाओं में विभाजित किया गया है, और मल्टीमीडिया खाद्य मान्यता समाधान42के विकास को आगे बढ़ाने के लिए है।
हाल के वर्षों में, खाद्य छवियों 10 ,11, 12, 21, 23,25,26,29,31,33को पहचानने के लिए एक उपयुक्त समाधान के रूप में गहरे तंत्रिका नेटवर्क को कई बार मान्य किया गया है। इस लेख में प्रस्तुत हमारा कार्य इस1,2को और साबित करने का कार्य करता है । एकल-आउटपुट खाद्य छवि मान्यता दृष्टिकोण सीधा है और इसका उपयोग सरल अनुप्रयोगों के लिए किया जा सकता है जहां केवल एक खाद्य या पेय पदार्थ वाली छवियां2की उम्मीद हैं।
खाद्य छवि विभाजन दृष्टिकोण सामान्य रूप से खाद्य छवियों को पहचानने के लिए विशेष रूप से उपयुक्त लगता है, खाद्य पदार्थों की संख्या पर किसी भी प्रतिबंध के बिना1। क्योंकि यह छवि के प्रत्येक व्यक्तिगत पिक्सेल को वर्गीकृत करके काम करता है, यह न केवल छवि में खाद्य पदार्थों की किसी भी संख्या को पहचानने में सक्षम है, बल्कि यह भी निर्दिष्ट करता है कि एक खाद्य पदार्थ कहां स्थित है, साथ ही यह कितना बड़ा है। उत्तरार्द्ध का उपयोग खाद्य वजन अनुमान लगाने के लिए किया जा सकता है, खासकर यदि या तो संदर्भ वस्तु या एक निश्चित दूरी के कैमरे के साथ उपयोग किया जाता है।
खाद्य छवि डेटासेट 3,22, 27,30, 36,37,38,39,40,41,42कीउपलब्धता के संबंध में कुछ काम किया गया है, और हमें उम्मीद है कि भविष्य में और अधिक किया जाएगा, खासकर जब यह दुनिया भर के विभिन्न क्षेत्रों से खाद्य छवि डेटासेट एकत्र करने के लिए आता है, जो और अधिक मजबूत समाधान विकसित करने में सक्षम होगा। वर्तमान में, स्वचालित खाद्य छवि मान्यता समाधानों की सटीकता अभी तक मानव स्तर की सटीकता35तक नहीं पहुंची है, और अपर्याप्त आकार और गुणवत्ता के खाद्य छवि डेटासेट के उपयोग के कारण बड़े हिस्से में यह संभावना है।
भविष्य में, हमारा लक्ष्य वास्तविक दुनिया की छवियों पर विकसित प्रक्रियाओं का मूल्यांकन करना होगा। सामान्य तौर पर, इस फ़ील्ड में डेटासेट में अक्सर नियंत्रित वातावरण या छवियों में ली गई छवियां होती हैं जिन्हें मान्यता के लिए मैन्युअल रूप से अनुकूलित किया जाता था। यही कारण है कि सभी विभिन्न खाद्य और पेय वस्तुओं को शामिल करने के लिए एक बड़ी और विविध वास्तविक दुनिया खाद्य छवि डेटासेट इकट्ठा करना महत्वपूर्ण है जिसे व्यक्ति पहचानना चाहते हैं। इस दिशा में पहला कदम खाद्य मान्यता चैलेंज द्वारा प्रदान किया गया था, जिसमें वास्तविक दुनिया की खाद्य छवियों19का एक डेटासेट शामिल था, लेकिन दुनिया भर से और आहार विशेषज्ञों के सहयोग से खाद्य छवियों पर इस दृष्टिकोण को मान्य करने के लिए आगे काम करने की जरूरत है ।
The authors have nothing to disclose.
लेखक नकली-खाद्य छवि डेटासेट प्रदान करने के लिए ऑस्ट्रेलिया के न्यूकैसल विश्वविद्यालय से तमारा बुचर का शुक्रिया अदा करना चाहते हैं । इस काम को यूरोपीय संघ के क्षितिज 2020 अनुसंधान और नवाचार कार्यक्रमों (अनुदान संख्या 863059 – एफएनएस-क्लाउड, 769661 – एसएएएम) द्वारा समर्थित किया गया था; और स्लोवेनियाई अनुसंधान एजेंसी (अनुदान संख्या P2-0098) । यूरोपीय संघ और स्लोवेनियाई अनुसंधान एजेंसी के डिजाइन, विश्लेषण या इस लेख के लेखन में कोई भूमिका नहीं थी ।
HARDWARE | |||
NVIDIA GPU | NVIDIA | N/A | An NVIDIA GPU is needed as some of the software frameworks below will not work otherwise. https://www.nvidia.com |
SOFTWARE | |||
Caffe | Berkeley AI Research | N/A | Caffe is a deep learning framework. https://caffe.berkeleyvision.org |
CLoDSA | Jónathan Heras | N/A | CLoDSA is a Python image augmentation library. https://github.com/joheras/CLoDSA |
Google API Client | N/A | Google API Client is a Python client library for Google's discovery based APIs. https://github.com/googleapis/google-api-python-client | |
JavaScript Segment Annotator | Kota Yamaguchi | N/A | JavaScript Segment Annotator is a JavaScript image annotation tool. https://github.com/kyamagu/js-segment-annotator |
MMDetection | Multimedia Laboratory, CUHK | N/A | MMDetection is an object detection toolbox based on PyTorch. https://github.com/open-mmlab/mmdetection |
NVIDIA DIGITS | NVIDIA | N/A | NVIDIA DIGITS is a wrapper for Caffe that provides a graphical web interface. https://developer.nvidia.com/digits |
OpenCV | Intel | N/A | OpenCV is a library for computer vision. https://opencv.org |
Python | Python Software Foundation | N/A | Python is a programming language. https://www.python.org |
PyTorch | Facebook AI Research | N/A | PyTorch is a machine learning framework. https://pytorch.org |
Ubuntu OS | Canonical | N/A | Ubuntu 14.04 is the OS used by the authors and offers compatibility with all of the software frameworks and tools above. https://ubuntu.com |