$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
الشرط الأول للطريقة المقترحة هو نظام لتتبع موضع كائنات 3D واليدين بدقة. يظهر الإعداد المحدد في الشكل 1A ويستخدم الأجهزة والبرامج التي تنتجها شركة التقاط الحركة Qualisys. نضع طاولة عمل داخل حجم تتبع (100 سم × 100 سم × 100 سم) ، والتي يتم تصويرها من زوايا متعددة بواسطة ثماني كاميرات تتبع وست كاميرات فيديو مرتبة على إطار مكعب يحيط بمساحة العمل. تتعقب كاميرات التتبع موضع 3D للعلامات العاكسة داخل حجم التتبع عند 180 إطارا / ثانية وبدقة مكانية ثلاثية الأبعاد دون المليمتر. نحن نستخدم علامات عاكسة 4 مم ، والتي يتم تثبيتها على الأشياء واليدين باستخدام شريط لاصق على الوجهين صديق للبشرة. تتم معالجة مواقف علامة 3D بواسطة برنامج التقاط الحركة. يستعرض قسم المناقشة أيضا أنظمة التقاط الحركة البديلة التي يمكن استخدامها مع الطريقة المقترحة.
للحصول على إعادة بناء 3D دقيقة للأشياء الحقيقية التي يتم فهمها والتلاعب بها ، نقترح خيارين. الأول ، وهو الذي تم تبنيه هنا ، هو البدء من نموذج كائن 3D افتراضي في شكل شبكة مضلعة. يمكن إنشاء هذه النماذج ثلاثية الأبعاد باستخدام البرامج المناسبة (على سبيل المثال ، Blender 3D44) ثم طباعتها ثلاثية الأبعاد (الشكل 1B). الخيار الثاني هو أخذ كائن ثلاثي الأبعاد حقيقي موجود واستخدام تقنية المسح الضوئي ثلاثية الأبعاد لإنشاء نسخة طبق الأصل من نموذج شبكي للكائن. أيا كانت الاستراتيجية ، فإن الهدف النهائي هو الحصول على كل من كائن 3D حقيقي ونموذج شبكة كائن 3D الظاهري المقابل. تجدر الإشارة إلى أن النهج الموصوف هنا يعمل فقط مع الكائنات الصلبة (أي غير القابلة للتشوه).
بمجرد توفر السطح ثلاثي الأبعاد لكائن ما كنموذج شبكي ، يجب تتبع موضعه وتسجيله بشكل مشترك (الشكل 1C). للقيام بذلك ، يتم إرفاق أربع علامات عاكسة غير مستوية بسطح الكائن الحقيقي ، ويتم وضع الكائن داخل حجم التتبع. ثم يتم التقاط مواقف 3D من علامات الكائن لفترة وجيزة. يستخدم هذا الالتقاط لإنشاء المراسلات بين العلامات الأربعة والرؤوس الأربعة لنموذج شبكة الكائن. يتم ذلك باستخدام مسار برنامج مخصص بسيط مكتوب في واجهة برمجة تطبيقات Python الخاصة ب Blender. ضمن Blender's Viewport ، يقدم البرنامج الكائن الافتراضي مع مواضع العلامة التي يتم تمثيلها ككائن شبكي واحد يتكون من كرة واحدة لكل علامة. يمكن للمستخدم بعد ذلك تدوير وترجمة الكائن و / أو العلامات لمواءمتها بحيث تتماشى مع العلامات الحقيقية الموضوعة على الكائن الحقيقي. سيقوم البرنامج بتسجيل الدورات والترجمة التي يتم تطبيقها لحساب ترجمة روتو واحدة يتم تطبيقها أخيرا على شبكة الكائن الأصلية ، مما يوفر شبكة كائن مسجلة بشكل مشترك مع تعريف الجسم الصلب في QTM.
بعد إنشاء المراسلات ، كلما تم نقل الكائن الحقيقي داخل حجم التتبع ، يمكن وضع الكائن الافتراضي في الموضع الجديد عن طريق حساب ترجمة روتو بين العلامات المتعقبة ورؤوس الشبكة الأربعة المقابلة. لتسجيل ديناميكيات الإمساك بدلا من ذلك ، يتم إرفاق ما مجموعه 24 علامة عاكسة كروية على معالم مختلفة من اليد باستخدام شريط على الوجهين (الشكل 1D والشكل 2).
في بداية التجربة (الشكل 1E) ، يضع أحد المشاركين يده بشكل مسطح على طاولة العمل مع توجيه راحة اليد لأسفل ويغلق عينيه. يضع المجرب كائنا مستهدفا على طاولة العمل أمام المشارك. بعد ذلك ، تشير إشارة سمعية إلى المشارك لفتح أعينهم وتنفيذ القبضة. في عروضنا التوضيحية ، تتمثل المهمة في الوصول إلى الكائن المستهدف والإمساك به ، ورفعه عموديا بمقدار 10 سم تقريبا ، ووضعه لأسفل ، وإعادة اليد إلى موضع البداية. يتحكم البرنامج النصي المكتوب في Python 3.7 في التجربة. في كل تجربة، يقوم البرنامج النصي بتحديد إعدادات الحالة الحالية وإبلاغها إلى المجرب (على سبيل المثال، هوية الكائن وتحديد الموضع). يتحكم البرنامج النصي أيضا في توقيت المحاكمة ، بما في ذلك الإشارات السمعية وبدء وإيقاف تسجيلات التقاط الحركة.
لا تتميز الأطراف فقط بموقعها في مساحة 3D ولكن أيضا بوضعها. وبالتالي ، للحصول على إعادة بناء ثلاثية الأبعاد كاملة ليد بشرية تنفذ قبضة حقيقية ، فإننا لا نطلب فقط مواضع كل مفصل في الفضاء ثلاثي الأبعاد ولكن أيضا الوضع النسبي (الترجمة والدوران) لكل مفصل فيما يتعلق بالمفصل الأم (الشكل 1F). يمكن استنتاج مواضع واتجاهات المفاصل الهيكلية من مواضع العلامات باستخدام الحركية العكسية. للقيام بذلك ، نستخدم هنا أداة حل الهيكل العظمي التي يوفرها برنامج QTM. لكي يعمل الحل ، يجب علينا أولا تقديم تعريف هيكلي يربط موضع واتجاه كل مفصل بمواضع علامات متعددة. وبالتالي ، يتم إنشاء تعريف الهيكل العظمي ، ويتم ربط جهاز الهيكل العظمي ببيانات العلامة باستخدام المكون الإضافي QTM Connect لمايا. نقوم بإنشاء تعريفات هيكلية مخصصة لكل مشارك لزيادة دقة الهيكل العظمي المناسب لبيانات العلامة. لكل مشارك ، نقوم يدويا بتركيب هيكل عظمي لليد في إطار واحد من بيانات التقاط الحركة. بعد الحصول على تعريف الهيكل العظمي الخاص بالمشاركين، نقوم بعد ذلك بتشغيل أداة حل الهيكل العظمي لتقدير أوضاع المفصل الهيكلي لكل إطار من كل تجربة في التجربة.
لكل إطار من كل تجربة في التجربة ، نقوم بإنشاء شبكة يدوية تعيد بناء الوضع اليدوي الحالي باستخدام أداة إنشاء شبكة يدوية مفتوحة المصدر ومدربة مسبقا ، DeepHandMesh28 (الشكل 1G). DeepHandMesh هي شبكة فك تشفير عميقة تقوم بإنشاء شبكات يدوية مخصصة من الصور. أولا ، يقدر المشفر وضع اليد داخل الصورة (أي زوايا أويلر المشتركة). بعد ذلك ، يتم إدخال وضع اليد المقدر ومتجه معرف مخصص إلى وحدة فك التشفير ، والتي تقدر مجموعة من ثلاثة تصحيحات مضافة لشبكة قالب مزورة. أخيرا ، يتم تشويه شبكة القالب وفقا لوضعية اليد المقدرة والتصحيحات باستخدام سلخ المزيج الخطي. التصحيحي الأول هو تصحيح هيكل عظمي يعتمد على الهوية يتم من خلاله ضبط الجهاز الهيكلي لدمج أوضاع المفاصل الخاصة بالشخص. التصحيحان الآخران عبارة عن تصحيحات شبكية يتم من خلالها ضبط رؤوس الشبكة لتمثيل سطح اليد للمشارك بشكل أفضل. أحد تصحيحات الشبكة هو تصحيح شبكي يعتمد على الهوية والذي يمثل البنية السطحية ليد المشارك الفردي. بدلا من ذلك ، فإن الشبكة التصحيحية النهائية هي تصحيح قمة يعتمد على الوضع والذي يفسر تشوهات سطح اليد بسبب وضع اليد الحالي.
يتم تدريب DeepHandMesh باستخدام إشراف ضعيف مع نقاط رئيسية مشتركة 2D وخرائط عمق المشهد. هنا ، نستخدم فقط وحدة فك ترميز DeepHandMesh المدربة مسبقا لإنشاء عمليات إعادة بناء شبكة يدوية ، معدلة بالطرق التالية (الشكل 3). أولا ، نظرا لأن الشبكة غير مدربة على مشاركين محددين ، يتم استخدام الشبكة التصحيحية العامة المعتمدة على الهوية المقدمة مع النموذج المدرب مسبقا (الشكل 3 أ). علاوة على ذلك ، يتم اشتقاق تصحيح الهيكل العظمي المعتمد على الهوية باستخدام حل الهيكل العظمي QTM كما هو موضح أعلاه (الشكل 3B). يفترض القياس النسبي لليد مع طول الهيكل العظمي ، ويتم قياس سمك الشبكة بشكل موحد بواسطة عامل مشتق من القياس النسبي للهيكل العظمي بحيث تقارب الشبكة بشكل أفضل حجم يد المشارك (الشكل 3C). هذه الشبكة المعدلة هي إدخال إلى وحدة فك التشفير ، جنبا إلى جنب مع وضع اليد الحالي (المستمد من بيانات العلامة) وموضع 3D واتجاه المعصم. وبالتالي ، فإن وحدة فك التشفير تحسب التصحيحية الحالية المعتمدة على الوضع ، وتطبق جميع التصحيحات والترجمات الروتو ، وتخرج إعادة بناء شبكة يدوية ثلاثية الأبعاد لليد الحالية في نفس إطار الإحداثيات مثل شبكة الكائن المجنزرة ثلاثية الأبعاد (الشكل 3D).

الشكل 3: تعديلات على وحدة فك ترميز DeepHandMesh المدربة مسبقا . (أ) شبكة تصحيحية ثابتة وعامة تعتمد على الهوية. (ب) تصحيح الهيكل العظمي المعتمد على الهوية المشتق من خلال الحركية العكسية في الخطوة 10. (ج) حجم شبكة اليد متدرج بنفس معامل المفاصل الهيكلية. (د) إعادة بناء شبكة اليد 3D النهائية من وضع اليد الحالية. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
بعد إعادة بناء نماذج شبكة 3D لكل من يد المشارك وجسم ممسوك ، يمكن تقدير مناطق الاتصال بين اليد والجسم عن طريق حساب التقاطع بين شبكات اليد والجسم (الشكل 1H). الافتراض الكامن وراء ذلك هو أن اليد الحقيقية مشوهة عن طريق ملامستها للسطح ، مما يعني أن الهيكل العظمي يمكن أن يقترب من السطح أكثر مما لو كانت اليد صلبة ، مما يسمح لأجزاء من شبكة اليد بالمرور عبر شبكة الجسم. نتيجة لذلك ، يمكن تقريب مناطق التلامس كمناطق تداخل بين الشبكتين.
على وجه التحديد ، لحساب مناطق التداخل هذه ، نحدد رؤوس شبكة الكائن الموجودة في حجم 3D لشبكة اليد على أنها ملامسة لليد. يتم تحديد هذه الرؤوس باستخدام نهج تتبع الأشعة القياسي45. لكل قمة من شبكة الكائن ، يتم إلقاء شعاع من هذا الرأس إلى نقطة 3D تعسفية خارج شبكة اليد. ثم نقيم عدد التقاطعات التي تحدث بين الشعاع المصبوب والمثلثات المكونة لسطح اليد. إذا كان عدد التقاطعات فرديا ، احتواء رأس الكائن داخل شبكة اليد. إذا كان عدد التقاطعات متساويا ، فإن رأس الكائن يكون خارج شبكة اليد. وبالتالي ، يمكن تقريب مناطق التلامس على سطح الجسم على أنها مجموعة من وجوه المثلث التي توجد رؤوسها جميعا داخل شبكة اليد. يمكننا تطبيق نفس الأساس المنطقي على رؤوس شبكة اليد الموجودة في حجم 3D لشبكة الكائن لتقدير مناطق التلامس على سطح اليد. والجدير بالذكر أنه يمكن أيضا استخدام مناهج أكثر تقدما لعمليات الشبكة المنطقية31.
يعرض الفيديو 1 مقطع فيديو ليد ونقاط متعقبة وشبكة مسجلة بشكل مشترك تتحرك جميعها جنبا إلى جنب أثناء الإمساك بواحد على تمثال قطة مطبوع بتقنية 3D. يوضح الشكل 4 أ بدلا من ذلك إطارا واحدا في وقت ملامسة اليد والجسم من قبضة إلى كرواسون مطبوع ثلاثي الأبعاد ، جنبا إلى جنب مع إعادة بناء شبكة اليد والجسم (الشكل 4 ب) ومناطق الاتصال المقدرة على سطح الكرواسون (الشكل 4 ج).

الشكل 4: مناطق الاتصال المقدرة بين اليد والجسم. ( أ) اليد والجسم المجنزران الذي ينظر إليه من إحدى كاميرات التتبع أثناء الإمساك به. (ب) شبكة يدوية أعيد بناؤها وشبكة جسم مجنزرة مقدمة من نفس وجهة نظر كاميرا التتبع. (ج) مناطق التماس على سطح الجسم التي ترى من وجهات نظر متعددة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
فيديو 1: إعادة بناء شبكة اليد والجسم. رسوم متحركة Gif لليد وعلامات مجنزرة وإعادة بناء شبكة اليد والكائن أثناء قبضة واحدة يتم عرضها من نفس وجهة نظر الكاميرا. الرجاء الضغط هنا لتنزيل هذا الفيديو.