Summary
物体をつかむとき、指と手の複数の領域は通常、物体の表面に接触します。このような接触領域の再構築は困難です。本稿では,マーカベースのモーションキャプチャと既存の深層学習を用いたハンドメッシュ再構成を組み合わせることで,接触領域を近似推定する手法を提示する.
Abstract
物体をうまくつかむには、物体の表面に対する手に適した接触領域を選択する必要があります。ただし、そのような地域を特定することは困難です。本稿では、マーカーベースのトラッキングデータから接触領域を推定するワークフローについて述べる。参加者は実際の物体をつかみ、指の関節を含む物体と手の両方の3D位置を追跡します。まず、手の甲に配置された追跡マーカーの選択から関節オイラー角を決定します。次に、最先端のハンドメッシュ再構成アルゴリズムを使用して、現在のポーズと3D位置での参加者の手のメッシュモデルを生成します。
3Dプリントまたは3Dスキャンされたオブジェクトを使用して、実際のオブジェクトとメッシュデータの両方として利用できるため、手とオブジェクトのメッシュを共同登録できます。これにより、ハンドメッシュと共同登録された3Dオブジェクトメッシュとの交点を計算することにより、おおよその接触領域を推定できます。この方法は、さまざまな条件下で人間がどこでどのように物体をつかむかを推定するために使用できます。したがって、この方法は、視覚および触覚知覚、運動制御、仮想現実および拡張現実における人間とコンピュータの相互作用、およびロボット工学を研究する研究者にとって興味深いものになる可能性があります。
Introduction
物体をつかんで操作する能力は、人間が自分の欲求やニーズに合わせて環境を再形成できるようにする重要な能力です。しかし、多関節の手を効果的に制御することは、高度な制御システムを必要とする困難な作業です。このモータ制御システムは、いくつかの形態の感覚入力によって導かれますが、その中で視覚が最も重要です。視覚を通じて、個人は環境内の物体を識別し、それらの位置と物理的特性を推定し、それらの物体に簡単に到達、把握、操作することができます。網膜の入力と手を制御する運動指令を結びつける複雑なシステムを理解することは、感覚運動神経科学の重要な課題です。このシステムがどのように機能するかをモデル化、予測、および理解するには、まずそれを詳細に研究できる必要があります。これには、視覚入力とハンドモーター出力の両方の忠実度の高い測定が必要です。
過去のモーショントラッキング技術は、人間の把握の研究に多くの制限を課してきました。たとえば、参加者の手1,2にケーブルを接続する必要があるシステムでは、指の動きの範囲が制限される傾向があり、把持動作や測定値自体が変更される可能性があります。このような限界にもかかわらず、以前の研究では、視覚誘導把握に影響を与えるいくつかの要因を特定することができました。これらの要因のいくつかは、物体形状3、4、5、6、表面粗さ7、8、9、または手4、8、10に対する物体の向きを含む。しかし、以前の技術的限界を克服するために、この先行研究の大部分は単純な刺激と高度に制約されたタスクを採用しており、したがって、主に個々の要因3、4、6、7、10、2桁の精密グリップ3、4、6、9、11、12、 13、14、15、16、17、18、単一のオブジェクト19、または非常に単純な2D形状20、21。以前の発見が、そのような減少した人工的な実験室条件を超えてどのように一般化されるかは不明です。さらに、手と物体の接触の測定は、しばしば、数字の接触点22の推定に還元される。この単純化は、指先のみが物体と接触している把持の小さなサブセットを記述するのに適切であり得る。ただし、現実世界の把握の大部分では、指と手のひらの広範な領域がオブジェクトに接触します。さらに、最近の研究23は、触覚手袋を使用して、物体がそれらの表面が手にどのように衝突するかによって認識できることを実証した。これは、物体と指先との間の接触点だけでなく、手と把持される物体との間の拡張接触領域を研究することの重要性を強調する22。
モーションキャプチャと3Dハンドモデリングの最近の進歩により、以前の制限を超えて、その完全な複雑さで把握を研究することができました。パッシブマーカーベースのモーショントラッキングは、関節の動きを追跡するために参加者の手の甲に取り付けることができるミリメートルサイズのマーカーで利用可能になりました24。さらに、パッシブマーカシステムのための自動マーカ識別アルゴリズムは、マーカーデータの広範な手動後処理の必要性をほぼ排除するのに十分堅牢である25、26、27。マーカーレスソリューションは、ビデオ28で動物の体の部分を追跡する際にも印象的なレベルのパフォーマンスに達しています。したがって、これらのモーショントラッキング方法は、最終的に、複雑な複数桁の手の動きの信頼性の高い非侵襲的な測定を可能にする24。このような測定は、関節運動学について私たちに知らせ、手と物体の間の接触点を推定することを可能にします。さらに、近年、コンピュータビジョンコミュニティは、物体把持中および手の部分間の自己接触中にも軟組織の変形を再現できる人間の手のモデルを構築するという問題に取り組んでいる29,30,31,32。このような3Dメッシュ再構成は、ビデオ映像33、34、骨格関節(マーカベース35またはマーカレストラッキング36から導出)、および深度画像37などの異なるタイプのデータから導出することができる。このドメインにおける最初の重要な進歩は、さまざまなポーズの31人の被験者からの1,000を超えるハンドスキャンからパラメトリックハンドモデル(MANO)を導き出したRomeroら38によって提供されました。モデルには、手のポーズと形状の両方のパラメーターが含まれており、さまざまなデータソースから完全な手の再構築への回帰を容易にします。最近のDeepHandMesh29ソリューションは、ディープラーニングを通じてパラメータ化されたモデルを構築し、ハンドパーツ間の物理的な相互作用をより正確に再現する侵入回避を追加することで、このアプローチに基づいています。このようなハンドメッシュ再構成と3次元トラッキングオブジェクトメッシュを組み合わせることで、物体32の表面だけでなく、手の表面の接触領域を推定することが可能となった。
ここでは、オブジェクトと手の関節の忠実度の高い3D追跡と新しいハンドメッシュ再構成アルゴリズムを組み合わせたワークフローを提案します。この方法は、手と物体の接触面の詳細なマップを生成します。これらの測定は、感覚運動神経科学者が人間の視覚誘導把握の理論的理解を拡大するのに役立ちます。さらに、この方法は、隣接する分野の研究者にとって有用である可能性があります。たとえば、ヒューマンファクターの研究者は、この方法を使用して、仮想現実および拡張現実でより優れたヒューマンマシンインターフェイスシステムを構築することができます18。人間の把持行動の高忠実度測定は、ロボット工学者が対話的知覚の原理に基づいて人間に触発されたロボット把持システムを設計するのにも役立ちます39,40,41,42,43。したがって、この手法が、高度に制約されたタスクのまばらな記述から、複雑なオブジェクトや実世界のタスクでの自然主義的な把持行動のより完全な特徴付けまで、神経科学および工学分野にわたる把握研究を前進させるのに役立つと期待しています。全体的なアプローチの概要を図 1 に示します。
図1:提案手法の主なステップ 。 (A)モーションキャプチャカメラは、作業台を複数の角度から撮像します。(B)刺激オブジェクトは、三角メッシュモデルから3Dプリントされます。(C)4つの球面反射マーカーが実物体の表面に接着されています。半自動手順では、メッシュ オブジェクトの表面上の 4 つの対応する点を識別します。この対応により、メッシュモデルを実際のオブジェクトの3D追跡位置に回転変換できます。(D)反射マーカーは、両面テープを使用して参加者の手の甲のさまざまなランドマークに取り付けられます。(E)モーションキャプチャシステムは、1回の試行中に追跡対象物とハンドマーカーの3D空間内の軌跡を取得します。(F)参加者固有のハンドスケルトンは、3Dコンピュータグラフィックスソフトウェアを使用して構築されます。次に、骨格関節のポーズは、逆運動学による実験の各試行の各フレームについて推定されます。(G)関節ポーズはDeepHandMesh29の修正版に入力され、現在の3Dポーズと位置で推定された3Dハンドメッシュを出力します。(H)最後に、メッシュ交差を使用して、手とオブジェクトの接触領域を計算します。 この図の拡大版を表示するには、ここをクリックしてください。
Protocol
実験を開始する前に、参加者は機関のガイドラインとヘルシンキ宣言に従ってインフォームドコンセントを提供する必要があります。ここに記載されているすべてのプロトコルは、ユストゥスリービッヒ大学ギーセン(LEK-FB06)の地域倫理委員会によって承認されています。
1.必要なすべてのソフトウェアのインストール
- 「データおよびコード リポジトリ」でプロジェクト リポジトリをダウンロードします。
- 材料表に記載されているソフトウェアをインストールします(ソフトウェアのバージョンをメモし、購入オプションと手順についてはリンクに従ってください)。
- データおよびコード リポジトリ内で、コマンド ウィンドウを開き、次のコマンドを実行します。
conda env create -f environment.yml - 事前トレーニング済みの DeepHandMesh29 インスタンシエーションをダウンロードし、https://github.com/facebookresearch/DeepHandMesh に記載されている手順に従ってインストールします。
- ディープハンドメッシュをデータおよびコードリポジトリの「ディープハンドメッシュ」フォルダに配置します。ファイル "main/model.py" を、データおよびコード リポジトリに含まれる model.py ファイルに置き換えます。
2. モーションキャプチャシステムの準備
- ワークスペースを囲むフレームに配置されたモーショントラッキングカメラによって複数の角度から画像化されたトラッキングボリューム内にワークベンチを配置します(図1A)。各マーカーのベースに両面粘着テープを貼り付けて、反射マーカーを準備します。
- クオリシストラックマネージャー(QTM)を管理者として実行します。
注: Python SDK が QTM インターフェイスを制御するには、管理者として QTM を実行する必要があります。常に管理者としてQTMを実行することをお勧めします。
3.カメラのキャリブレーション
- L字型のキャリブレーションオブジェクトをトラッキングボリューム内に配置します。
- QTM内で、[キャプチャ]メニューの[キャリブレーション]をクリックするか、[キャプチャ]ツールバーの杖アイコンを押します。キャリブレーションウィンドウが開くまで待ちます。キャリブレーションの期間を選択し、[OK]を押します。
- キャリブレーションの間、トラッキングボリューム全体で キャリブレーションワンド を振ってください。 Export ボタンを押して、キャリブレーションをテキストファイルとしてエクスポートするファイルパスを指定します。 OKを押してキャリブレーションを受け入れます。
4.刺激オブジェクトの作成
- 仮想3Dオブジェクトモデルをポリゴンメッシュの形で構築します。3D プリンターを使用して、オブジェクト モデルの物理レプリカを作成します。
注: 手順 1.1 のデータ リポジトリには、STL および Wavefront OBJ ファイル形式のサンプル オブジェクトが用意されています。STL形式のオブジェクトは多様で、3D印刷の準備ができています。
5. 刺激オブジェクトの準備
- 4つの非平面反射マーカーを実際のオブジェクトの表面に取り付けます。トラッキングボリューム内にオブジェクトを配置します。
- プロジェクト リポジトリで、Python スクリプト "Acquire_Object.py" を実行します。スクリプトの指示に従って、オブジェクト マーカーの 3D 位置を 1 秒間キャプチャします。
- リジッド ボディのすべてのマーカーを選択します。右クリックして[ リジッド ボディを定義(6DOF)]を選択します。 |現在のフレーム。リジッド ボディの名前を入力し、[ OK]を押します。
- [ファイル] メニューで、[エクスポート |TSVに。新しいウィンドウで、[データ型]設定の[3D]、[6D]、および[スケルトン]チェックボックスをオンにします。[一般]設定のすべてのチェックボックスをオンにします。[OK] を押し、[保存] をクリックします。
6. 刺激オブジェクトの実モデルバージョンとメッシュモデルバージョンの同時登録
- Blender を開き、スクリプトワークスペースに移動します。ファイル "Object_CoRegistration.py" を開き、[実行] を押します。レイアウトワークスペースに移動し、n を押してサイドバーを切り替えます。サイドバー内で、[カスタム]タブに移動します。
- 共同登録する .obj ファイルを選択し、[ オブジェクトの読み込み ] ボタンを押します。
- 手順 3.3 で書き出した軌跡ファイルを選択し、剛体オブジェクトにアタッチされているマーカーの名前をセミコロンで区切って指定します。 [マーカー] ヘッダーで、データの列名を含む軌道ファイルの行を指定します (カウントは 0 から始まります)。
- 対応するリジッド ボディ ファイルに接尾辞 6D を付けて選択し、手順 4.1 で定義したリジッド ボディの名前を指定します。 6D ヘッダーで、データの列名を含む剛体ファイルの行を指定します。
- [マーカーの読み込み]を押します。マーカーオブジェクトやオブジェクトオブジェクトを移動および回転して、それらを整列させます。メッシュ出力ファイルを指定し、[共登録を実行]を押します。これにより、共登録された刺激メッシュを含む.objファイルが出力されます。
7.手にマーカーを設定する
- 両面テープを使用して、参加者の手のさまざまなランドマークに24個の球面反射マーカーを取り付けます。
メモ: マーカーの具体的な位置を 図 2 に示します。- マーカーをそれぞれの指先、および人差し指、中指、薬指、小指の遠位指節間関節、近位指節間関節、中手指節関節の中央に配置します。
- 親指の場合は、指先と基底手根中手関節にそれぞれ1つのマーカーを配置し、中手指節と指節間関節にそれぞれマーカーのペアを配置します。
注意: これらのマーカーペアは、親指の主軸に垂直な反対方向に変位する必要があり、親指の向きを推定するために必要です。 - 最後に、手首の中央と舟状舟状関節にマーカーを配置します。
図2:参加者の手のマーカーの配置。 略語:RH =右手。 この図の拡大版を表示するには、ここをクリックしてください。
8. 単一トライアルの取得
- 参加者に、手のひらを下に向けて作業台に手を平らに置き、目を閉じるように依頼します。刺激オブジェクトを参加者の前のワークベンチに置きます。
- QTM の実行中に、プロジェクト リポジトリで Python スクリプト "Single_Trial_Acquisition.py" を実行します。スクリプトの指示に従って、刺激オブジェクトを把持している参加者の単一の試行をキャプチャします。
注: スクリプトは聴覚的な合図を生成します。これにより、参加者に目を開けて把握を実行するように合図します。デモンストレーションでは、対象物に手を伸ばしてつかみ、垂直に約10cm持ち上げて置き、手を元の位置に戻す作業です。
9. マーカーのラベル付け
- QTM 内で、個々のマーカーの軌跡を [未確認 の軌跡] から [ラベル付き 軌跡] にドラッグ アンド ドロップし、 図 2 の命名規則に従ってラベルを付けます。
- 手に接続されているすべてのマーカーを選択し、右クリックして [選択範囲からAIMモデルを生成]を選択します。新しいウィンドウで、[ 既存のAIMモデルからのマーカー接続に基づいて新しいモデルを作成 ]を選択し、[ 次へ ]ボタンを押します。
- RH_FHモデル定義を選択し、[開く]を押します。[次へ]を押し、AIMモデルの名前を入力して、[OK]を押します。最後に、Finishを押して参加者の手のAIMモデルを作成し、同じ参加者からの連続した試行でマーカーを自動的に識別するために使用されます。
10. 参加者用にパーソナライズされたスケルトン定義を作成する
- QTM で、[再生] メニューに移動し、[リアルタイム出力で再生] を選択します。
- Maya を開きます。[QTM 接続] シェルフに移動し、[QTM に接続] アイコンを押します。新しいウィンドウで、[マーカー] をオンにして、[接続] を押します。次に、QTMコネクトシェルフの再生アイコンを押します。
- Shift キーを押しながらすべてのハンドマーカーを選択し、 ウォッシュロケーター アイコンを押します。 洗った ハンドマーカーを選択し、 Ctrl + Gを押します。これにより、 グループ ノードが作成されます。グループに 「マーカー」という名前を付けます。
- すべてのハンドマーカーを選択します。[ 変更 ] メニューで、[ 名前の検索と置換] をクリックします。 RH_ プレフィックスを検索し、マーカーのプレフィックスを削除します。
- [QTM 接続]シェルフの[ソルバーをインポート]アイコンを押します。スケルトン定義 "RH_FH.xml" を読み込みます。
- [ウィンドウ] メニューで、[一般エディター] |名前空間エディター。新しいウィンドウ内で:(root)をクリックし、[新規]を押して新しい名前空間RHを作成します。RH 名前空間をクリックし、[新規] を押して、新しい名前空間に ModelPose という名前を付けます。
- すべてのマーカーを選択し、 RH 名前空間をクリックし、[ 選択項目の追加 ] を押してマーカーを RH 名前空間に追加します。
- スケルトンボーンを選択し、 ModelPose 名前空間をクリックし、[ 選択項目を追加 ]を押してスケルトンボーンを ModelPose 名前空間に追加します。
- マーカーデータに合わせてスケルトンを回転、平行移動、および拡大縮小します。次に、スケルトンジョイントごとに個別に、Shift + スケルトンジョイントとそれに関連するマーカーを選択し、 アタッチメントの追加 アイコンを押します。最後に、[ ソルバーのエクスポート] アイコンを押して、新しいスケルトン定義をQTMにロードできるXMLファイルにエクスポートします(次の手順を参照)。
注: この手順は厳密には必要ではありませんが、マーカー データへのスケルトン フィットの精度を高めるのに役立ちます。詳細については、https://github.com/qualisys/QTM-Connect-For-Maya のQSolverクイックスタートガイドをお読みください。
11.関節骨格関節のポーズを再構築します
- QTM内で、歯車アイコンを押してプロジェクト設定を開きます。サイドバーで[スケルトン ソルバー]に移動し、[ロード]を押してスケルトン定義ファイルを選択します。[スケール係数]を 100% に調整し、[適用]を押します。
- [TSV エクスポート] に移動し、[データ タイプ] 設定の [3D]、[6D]、および [スケルトン] チェックボックスをオンにします。[一般]設定のすべてのチェックボックスをオンにします。[適用] を押して、プロジェクト設定を閉じます。
- [再処理]アイコンを押し、[スケルトンを解決してTSVファイルにエクスポート]チェックボックスをオンにして、[OK]を押します。
12. ハンドメッシュ再構成の生成
- プロジェクトリポジトリでコマンドウィンドウを開き、次のコマンドを実行してconda環境をアクティブ化します。
conda 連絡先領域のアクティブ化 - 次に、次のコマンドを実行し、スクリプトの指示に従って、トライアルの各フレームに対して、現在の手のポーズを再構築するハンドメッシュを生成します。
パイソン Hand_Mesh_Reconstruction.py --GPU 0 --test_epoch 4
注: これらのメッシュ再構成は、オープンソースで事前トレーニング済みのハンドメッシュ生成ツールである DeepHandMesh29 の修正バージョンを使用して自動的に生成されます。
13. 手と物体の接触領域推定値の生成
- プロジェクトリポジトリでコマンドウィンドウを開き、次のコマンドを実行し、スクリプトの指示に従って、手とオブジェクトのメッシュの交点を計算して、手とオブジェクトの接触領域の推定値を生成します。
ブレンダー - バックグラウンド - パイソン "Contact_Region_Estimation.py"
Representative Results
提案手法の第一の要件は,3次元物体と手の位置を正確に追跡するシステムである.具体的なセットアップは 図1A に示されており、モーションキャプチャ会社Qualisysが製造したハードウェアとソフトウェアを使用しています。作業台をトラッキングボリューム(100 cm x 100 cm x 100 cm)内に配置し、ワークスペースを囲む立方体のフレームに配置された8台のトラッキングカメラと6台のビデオカメラによって複数の角度から画像化します。トラッキングカメラは、トラッキングボリューム内の反射マーカーの3D位置を180フレーム/秒でサブミリメートルの3D空間分解能で追跡します。4mmの反射マーカーを採用し、肌に優しい両面粘着テープで対象物や手に貼り付けます。3Dマーカ位置は、モーションキャプチャソフトウェアによって処理される。ディスカッションセクションでは、提案された方法で採用できる代替モーションキャプチャシステムについても説明します。
把持・操作されている実物体の正確な3次元再構成を得るために、我々は2つの選択肢を提案する。ここで採用されている1つ目は、ポリゴンメッシュ形式の仮想3Dオブジェクトモデルから開始することです。このような3Dモデルは、適切なソフトウェア(Blender 3D44など)を使用して構築し、3Dプリントすることができます(図1B)。2番目のオプションは、既存の実際の3Dオブジェクトを取得し、3Dスキャンテクノロジーを使用してオブジェクトのメッシュモデルのレプリカを構築することです。どちらの戦略であっても、最終目標は、実際の3Dオブジェクトと対応する仮想3Dオブジェクトメッシュモデルの両方を取得することです。ここで説明するアプローチは、剛体(つまり、変形不可能な)オブジェクトでのみ機能します。
オブジェクトの3Dサーフェスがメッシュモデルとして利用可能になったら、その位置を追跡して共同登録する必要があります(図1C)。そのために、4つの非平面反射マーカーが実際のオブジェクトの表面に取り付けられ、オブジェクトがトラッキングボリューム内に配置されます。次に、オブジェクト マーカーの 3D 位置が簡単にキャプチャされます。このキャプチャは、オブジェクト メッシュ モデルの 4 つのマーカーと 4 つの頂点の間の対応を確立するために使用されます。これは、BlenderのPython APIで記述された単純なアドホックソフトウェアルートを使用して行われます。Blenderのビューポート内では、プログラムは仮想オブジェクトとマーカー位置を、マーカーごとに1つの球体で構成される単一のメッシュオブジェクトとして表します。その後、ユーザーは、オブジェクトおよび/またはマーカーを回転および平行移動して、実際のオブジェクトに配置された実際のマーカーと整列するようにそれらを整列させることができます。プログラムは、元のオブジェクト メッシュに最終的に適用される単一の回転移動を計算するために適用される回転と平行移動を登録し、QTMの剛体定義と共登録されるオブジェクト メッシュを提供します。
対応が確立されると、実際のオブジェクトがトラッキングボリューム内を移動するたびに、トラッキングされたマーカと4つの対応するメッシュ頂点との間のロト移動を計算することによって、仮想オブジェクトを新しい位置に配置できます。代わりに握りのダイナミクスを記録するために、合計24個の球面反射マーカーが両面テープを使用して手のさまざまなランドマークに取り付けられています(図1D および 図2)。
トライアルの開始時(図1E)、参加者は手のひらを下に向けてワークベンチに手を平らに置き、目を閉じます。実験者は、参加者の前のワークベンチにターゲットオブジェクトを置きます。次に、聴覚キューが参加者に目を開けて握りを実行するように合図します。デモンストレーションでは、対象物に手を伸ばしてつかみ、垂直に約10cm持ち上げて置き、手を元の位置に戻す作業です。Python 3.7 で記述されたスクリプトが実験を制御します。各試行で、スクリプトは現在の条件設定(オブジェクトの同一性や配置など)を選択して実験者に伝えます。スクリプトは、聴覚の合図やモーションキャプチャの記録の開始と停止など、トライアルのタイミングも制御します。
手足は、3D空間での位置だけでなく、ポーズによっても特徴付けられます。したがって、実際の把持を実行する人間の手の完全な3D再構成を得るためには、3D空間における各関節の位置だけでなく、親関節に対する各関節の相対的な姿勢(並進および回転)も必要になります(図1F)。骨格関節の位置と向きは、逆運動学を使用してマーカー位置から推測できます。そのために、ここではQTMソフトウェアが提供するスケルトンソルバーを使用します。ソルバーが機能するには、まず、各ジョイントの位置と向きを複数のマーカー位置にリンクするスケルトン定義を提供する必要があります。スケルトン定義が構築され、スケルトン リグは Maya 用 QTM Connect プラグインを使用してマーカー データにリンクされます。マーカーデータへのスケルトンフィットの精度を最大化するために、参加者ごとにパーソナライズされたスケルトン定義を作成します。参加者ごとに、手のスケルトンをモーションキャプチャデータの1つのフレームに手動でフィットさせます。参加者固有のスケルトン定義を取得したら、スケルトンソルバーを実行して、実験の各試行の各フレームの骨格関節のポーズを推定します。
実験の各試行のフレームごとに、オープンソースの事前トレーニング済みハンドメッシュ生成ツールであるDeepHandMesh28 を使用して、現在の手のポーズを再構築するハンドメッシュを生成します(図1G)。DeepHandMeshは、画像からパーソナライズされたハンドメッシュを生成するディープエンコーダーデコーダーネットワークです。まず、エンコーダーは画像内の手のポーズ(つまり、関節オイラー角)を推定します。次に、推定された手のポーズとパーソナライズされたIDベクトルがデコーダーに入力され、デコーダーは、リギングされたテンプレートメッシュに対する3つの加法修正のセットを推定します。最後に、テンプレートメッシュは、推定された手のポーズに従って変形され、線形ブレンドスキニングを使用して修正されます。最初の矯正は、ID依存のスケルトン矯正で、スケルタルリグを調整して、人固有の関節位置を組み込むことができます。他の 2 つの補正はメッシュ補正で、参加者の手の表面をより適切に表すようにメッシュ頂点を調整します。メッシュ矯正の 1 つは、個々の参加者の手の表面構造を説明する ID 依存のメッシュ矯正です。代わりに、最終的なメッシュ修正は、現在の手のポーズによる手の表面の変形を説明するポーズ依存の頂点修正です。
DeepHandMeshは、2Dジョイントキーポイントとシーン深度マップを使用した弱い監視を使用してトレーニングされます。ここでは、事前トレーニング済みのDeepHandMeshデコーダーのみを使用して、次の方法で変更されたハンドメッシュ再構成を生成します(図3)。まず、ネットワークは特定の参加者に対してトレーニングされていないため、事前トレーニング済みモデルで提供される一般的なID依存メッシュ修正が使用されます(図3A)。また、ID依存のスケルトン補正は、上述したようにQTMスケルトンソルバーを用いて導出される(図3B)。スケルトンの長さに対する手の比例スケーリングが想定され、メッシュの厚さは、メッシュが参加者の手のサイズによりよく近似するように、スケルトンの相対スケーリングから導出される係数によって均一にスケーリングされます(図3C)。この変更されたメッシュは、現在の手のポーズ (マーカー データから派生) と手首の 3D 位置と向きと共にデコーダーに入力されます。したがって、デコーダーは、現在のポーズ依存の修正を計算し、すべての修正とロト平行移動を適用し、3Dトラッキングオブジェクトメッシュと同じ座標フレーム内の現在のハンドポーズの3Dハンドメッシュ再構成を出力します(図3D)。
図 3: 事前トレーニング済みの DeepHandMesh デコーダーに対する変更 。 (A) 固定された、一般的な ID 依存のメッシュ修正。(B)ステップ10のインバースキネマティクスによって導出されたID依存スケルトン補正。(C)ハンドメッシュのサイズは、骨格関節と同じ係数でスケーリングされます。(D)現在の手のポーズの最終的な3Dハンドメッシュの再構築。 この図の拡大版を表示するには、ここをクリックしてください。
参加者の手と把持対象物の両方の3Dメッシュモデルを再構築し、手と物体のメッシュの交点を計算することで、手と物体の接触領域を推定できます(図1H)。この背後にある仮定は、実際の手が表面との接触によって変形することを意味し、手が剛体である場合よりもスケルトンが表面に近づくことができ、手のメッシュの一部がオブジェクトのメッシュを通過できるようにすることです。その結果、接触領域は、2 つのメッシュ間のオーバーラップ領域として近似できます。
具体的には、これらのオーバーラップ領域を計算するために、ハンドメッシュの3Dボリューム内に含まれるオブジェクトメッシュ頂点をハンドと接触しているものとして定義します。これらの頂点は、標準的なレイトレーシング手法45を用いて識別される。オブジェクト メッシュの各頂点について、その頂点からハンド メッシュの外側の任意の 3D ポイントに光線がキャストされます。次に、キャスト光線と手の表面を構成する三角形との間に発生する交点の数を評価します。交点の数が奇数の場合、オブジェクトの頂点はハンドメッシュ内に含まれます。交点の数が偶数の場合、オブジェクトの頂点はハンドメッシュの外側にあります。したがって、オブジェクトの表面上の接触領域は、頂点がすべてハンドメッシュ内に含まれる三角形の面のセットとして近似できます。オブジェクトメッシュの3Dボリュームに含まれるハンドメッシュの頂点に同じ理論的根拠を適用して、ハンドの表面上の接触領域を推定できます。特に、ブールメッシュ操作へのより高度なアプローチも使用できます31。
ビデオ 1 は、手、追跡されたポイント、および共同登録されたメッシュがすべて、3D プリントされた猫の置物に向かって 1 回の把持中に並んで移動するビデオを示しています。代わりに、図4Aは、手と物体が接触したときの1つのフレームを、手と物体のメッシュ再構成(図4B)およびクロワッサンの表面の推定接触領域(図4C)とともに示しています。
図4:推定された手と物体の接触領域。 (A)把持中に追跡カメラの1つから見た追跡された手と物体。(B)トラッキングカメラと同じ視点からレンダリングされたハンドメッシュとトラッキングオブジェクトメッシュを再構築しました。(C)複数の視点から見た物体表面の接触領域。 この図の拡大版を表示するには、ここをクリックしてください。
ビデオ1:手と物体のメッシュ再構成。 同じカメラの視点から見た、手、追跡されたマーカー、および手とオブジェクトのメッシュの再構成を、同じカメラの視点から見た単一の把持中に再構成するGIFアニメーション。 このビデオをダウンロードするには、ここをクリックしてください。
Discussion
本研究では,多桁把持時の手と物体の相互作用の接触領域を推定できる手法を提案する.手の表面全体を完全に追跡することは現在困難であるため、手のまばらなキーポイントによってポーズが決定されるハンドメッシュの再構成を使用することを提案します。これらのまばらなキーポイントを追跡するために、当社のソリューションは、パッシブマーカートラッキングに基づく研究グレードのモーションキャプチャシステムを採用しています。もちろん、提案手法では、十分に正確な3次元位置データが得られるため、他のモーションキャプチャシステムを採用することもできます。アクティブマーカーモーションキャプチャシステム(人気があるが廃止されたOptotrak Certusなど)は、参加者の手にケーブルや電子機器を取り付ける必要があり、参加者が自分の手のポーズをより意識的に認識するようになると、動きが制限されたり、少なくとも典型的な把握が少なくなったりする可能性があるため、お勧めしません。慣性測定ユニットを使用したモーショントラッキンググローブは、これらのシステムがドリフトに悩まされることが知られており、手の動きを制限し、手の表面が物体の表面に完全かつ直接接触することを許さない可能性がある。市販のマーカーレスハンドトラッキングソリューション(Leap Motion46,47,48など)も可能かもしれませんが、これらのシステムだけではオブジェクトの位置を追跡できない場合があります。研究グレードのモーションキャプチャシステムに代わる最も有望な選択肢は、オープンソースのマーカーレストラッキングソリューション(Mathis et al.28など)です。複数の共登録カメラ49と共に使用される場合、そのようなシステムは、マーカー、手袋、またはケーブルを必要とせずに、手関節位置および物体位置を3Dで追跡できる可能性がある。ただし、これらのソリューションとこのマーカーベースのシステムは、オクルージョンによるデータ損失の問題に悩まされる可能性があります。
制限と今後の方向性
この方法で得られた手の再構成は完全に正確ではないため、この方法を使用する実験の種類にはいくつかの制限があります。グラウンドトゥルースからのハンドメッシュ再構成の偏差は、推定された手と物体の接触領域の偏差として現れます。したがって、この方法を適用して絶対測度を導出するには、接触領域の推定値の忠実度を評価する必要があります。ただし、近似推定値であっても、この方法の潜在的な偏りが参加者内のさまざまな実験条件に同様の方法で影響を与える可能性があるため、参加者内の実験計画では依然として有用です。したがって、統計分析と推論は、効果の方向がそれぞれのグラウンドトゥルースと相関する条件間の接触面積の違いなどの測定に対してのみ実行する必要があります。今後の研究では、例えば、接触領域の推定値をサーモクロミック塗料で覆われた物体の熱指紋と比較するなど、私たちのアプローチをさらに検証する予定です。
データ収集から最終的な接触領域推定までのほとんどの処理ステップは完全に自動化されているため、手と物体の接触領域推定の標準化された手順に重要な貢献をします。ただし、個別化されたスケルトンをトラッキングされたマーカーの 3D 位置に最初にフィットさせるには、各参加者のスケルトン定義を取得するために手動で実行する必要があります。実験の参加者の数が増えると、手動調整の数も増えますが、これは現在、この手順の中で最も時間のかかる手順であり、Autodesk Maya ソフトウェアの手動リギングについてある程度精通している必要があります。将来的には、自動スケルトンキャリブレーション手順を追加することで、手順への人的影響を回避するために、このステップを自動化することを目指しています。
ここで説明するワークフローは、Qualisysのハードウェアとソフトウェア(QTMスケルトンソルバーなど)に依存しています。これにより、現在、同様のセットアップを持つラボへのメソッドのアクセシビリティが制限されています。しかしながら、原理的には、この方法は、モーションキャプチャデータの任意のソースに適用することができる。アクセシビリティを拡大するために、進行中の作業では、ワークフローを一般化し、特定のハードウェアおよびソフトウェアライセンスへの依存度を下げる代替案を模索しています。
この方法のもう1つの重要な制限は、現在の形式では、剛体(変形不可)オブジェクトにのみ適用できることです。将来的には、把持された物体が変形するにつれて表面形状を記録する方法を使用して、この制限を克服することができます。さらに、この方法はその近似的な性質のために、現在、非常に小さいまたは薄い物体にはあまり適していません。
結論として、最先端のモーショントラッキングと忠実度の高い手の表面モデリングを統合することにより、把持および操作中の手と物体の接触領域を推定する手法を提供します。今後の研究では、この手法をヒトの視覚誘導把持行動の調査・モデル化に展開していく予定です16。さらに、これらのツールをアイトラッキング46,50,51,52および仮想/拡張現実システム53,54,55と統合して、現実および仮想の自然主義的環境における視覚誘導された手と眼球運動の運動制御を調査することを計画しています18,46,56,57.これらの理由から、提案された方法は、仮想現実および拡張現実における触覚知覚58、運動制御、および人間とコンピュータの相互作用を研究する研究者にとって興味深いものになる可能性があります。最後に、人間の把持能力の正確な測定は、対話的知覚39,40,41,42,43の原理に基づく堅牢なロボットシステムの設計に情報を提供する可能性があり、上肢義肢の並訳アプリケーションを有する可能性がある。
Disclosures
著者らは、競合する利益は存在しないと宣言しています。
Acknowledgments
この研究は、ドイツ科学研究財団(DFG、ドイツ研究財団:プロジェクト番号222641018-SFB/TRR 135 TP C1およびIRTG-1901「行動中の脳」)と、ヘッセン高等教育科学研究芸術省のエクセレンスプログラムによって資金提供された研究クラスター「適応マインド」によって資金提供されました。著者らは、Mathias BankayとJeffrey Thingvoldを含むQualisysサポートチームに、私たちのメソッドの開発を支援してくれたことに感謝します。著者はまた、手のモデルを装ってくれたミカエラ・イェシュケにも感謝しています。原稿に提示された方法と結果を再現するためのすべてのデータと分析スクリプトは、Zenodo(doi:10.5281/zenodo.7458911)で入手できます。
Materials
Name | Company | Catalog Number | Comments |
Anaconda Python distribution | (Anaconda 5.3.1 or later); https://repo.anaconda.com/archive/ | scripts and functions were generated in Python version 3.7 | |
Autodesk Maya | Autodesk, Inc. | Maya2022; https://www.autodesk.com/products/maya/overview | 3D computer graphics application. |
Blender | Blender Foundation | Blender 2.92; https://download.blender.org/release/ | 3D computer graphics application. |
Computer Workstation | N/A | N/A | OS: Windows 10 or higher. |
DeepHandMesh | Meta Platforms, Inc. (Meta Open Source) | https://github.com/facebookresearch/DeepHandMesh | Pre-trained hand mesh generation tool. |
Miqus M5 | Qualisys Ab | https://www.qualisys.com/cameras/miqus/ | Passive marker motion tracking camera (8 units). |
Miqus video camera | Qualisys Ab | https://www.qualisys.com/cameras/miqus-video/ | Color video camera, synchronized with Miquis M5 tracking cameras (6 units). |
Project repository | N/A | Data and Code Repository | Data and code to replicate the current project. The repository is currently under construction, but we provide a private link where reviewers can download the current and most up-to-date version of the repository. The final repository will be made publicly available upon acceptance. |
Python 3 | Python Software Foundation | Python Version 3.7 | Python3 and associated built-in libraries. |
QTM Connect for Maya | Qualisys Ab | https://github.com/qualisys/QTM-Connect-For-Maya | Stream skeleton, rigid bodies and marker data from QTM to Maya |
QTM Qualisys Track Manager | Qualisys Ab | Qualisys Track Manager 2021.2; https://www.qualisys.com/software/qualisys-track-manager/ | Motion capture software |
Qualisys SDK for Python | Qualisys Ab | https://github.com/qualisys/qualisys_python_sdk | Implements communication between QTM and Python |
References
- Derzsi, Z., Volcic, R. MOTOM toolbox: MOtion Tracking via Optotrak and Matlab. Journal of Neuroscience Methods. 308, 129-134 (2018).
- Franz, V. H. Optotrak Toolbox. The Optotrak Toolbox: Control your Optotrak from within Matlab. , Available from: http://www.ecogsci.cs.uni-tuebingen.de/OptotrakToolbox/ (2004).
- Eloka, O., Franz, V. H. Effects of object shape on the visual guidance of action. Vision Research. 51 (8), 925-931 (2011).
- Lederman, S. J., Wing, A. M. Perceptual judgement, grasp point selection and object symmetry. Experimental Brain Research. 152 (2), 156-165 (2003).
- Schettino, L. F., Adamovich, S. V., Poizner, H. Effects of object shape and visual feedback on hand configuration during grasping. Experimental Brain Research. 151 (2), 158-166 (2003).
- Chen, Z., Saunders, J. A. Online processing of shape information for control of grasping. Experimental Brain Research. 233 (11), 3109-3124 (2015).
- Burstedt, M. K., Flanagan, J. R., Johansson, R. S. Control of grasp stability in humans under different frictional conditions during multidigit manipulation. Journal of Neurophysiology. 82 (5), 2393-2405 (1999).
- Paulun, V. C., Gegenfurtner, K. R., Goodale, M. A., Fleming, R. W. Effects of material properties and object orientation on precision grip kinematics. Experimental Brain Research. 234 (8), 2253-2265 (2016).
- Klein, L. K., Maiello, G., Fleming, R. W., Voudouris, D. Friction is preferred over grasp configuration in precision grip grasping. Journal of Neurophysiology. 125 (4), 1330-1338 (2021).
- Mamassian, P. Prehension of objects oriented in three-dimensional space. Experimental Brain Research. 114 (2), 235-245 (1997).
- Paulun, V. C., Kleinholdermann, U., Gegenfurtner, K. R., Smeets, J. B. J., Brenner, E. Center or side: biases in selecting grasp points on small bars. Experimental Brain Research. 232 (7), 2061-2072 (2014).
- Goodale, M. A., et al. Separate neural pathways for the visual analysis of object shape in perception and prehension. Current Biology. 4 (7), 604-610 (1994).
- Kleinholdermann, U., Franz, V. H., Gegenfurtner, K. R.
Human grasp point selection. Journal of Vision. 13 (8), 23 (2013). - Maiello, G., Paulun, V. C., Klein, L. K., Fleming, R. W. Object visibility, not energy expenditure, accounts for spatial biases in human grasp selection. i-Perception. 10 (1), 204166951982760-20 (2019).
- Maiello, G., Schepko, M., Klein, L. K., Paulun, V. C., Fleming, R. W. Humans can visually judge grasp quality and refine their judgments through visual and haptic feedback. Frontiers in Neuroscience. 14, 591898 (2021).
- Klein, L. K., Maiello, G., Paulun, V. C., Fleming, R. W. Predicting precision grip grasp locations on three-dimensional objects. PLoS Computational Biology. 16 (8), 1008081 (2020).
- Maiello, G., Paulun, V. C., Klein, L. K., Fleming, R. W.
The sequential-weight illusion. i-Perception. 9 (4), 204166951879027 (2018). - Chessa, M., Maiello, G., Klein, L. K., Paulun, V. C., Solari, F. Grasping objects in immersive Virtual Reality. 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR). , 1749-1754 (2019).
- Crajé, C., Lukos, J. R., Ansuini, C., Gordon, A. M., Santello, M. The effects of task and content on digit placement on a bottle). Experimental Brain Research. 212 (1), 119-124 (2011).
- Lukos, J., Ansuini, C., Santello, M. Choice of contact points during multidigit grasping: Effect of predictability of object center of mass location. Journal of Neuroscience. 27 (14), 3894-3903 (2007).
- Gilster, R., Hesse, C., Deubel, H. Contact points during multidigit grasping of geometric objects. Experimental Brain Research. 217 (1), 137-151 (2012).
- Schot, W. D., Brenner, E., Smeets, J. B. J. Robust movement segmentation by combining multiple sources of information. Journal of Neuroscience Methods. 187 (2), 147-155 (2010).
- Sundaram, S., et al. Learning the signatures of the human grasp using a scalable tactile glove. Nature. 569 (7758), 698-702 (2019).
- Yan, Y., Goodman, J. M., Moore, D. D., Solla, S. A., Bensmaia, S. J. Unexpected complexity of everyday manual behaviors. Nature Communications. 11 (1), 3564 (2020).
- Han, S., et al. Online optical marker-based hand tracking with deep labels. ACM Transactions on Graphics. 37 (4), 1-10 (2018).
- Clouthier, A. L., et al. Development and validation of a deep learning algorithm and open-source platform for the automatic labelling of motion capture markers. IEEE Access. 9, 36444-36454 (2021).
- Qualisys AB Qualisys Track Manager User Manual (Version 2022.1). , Available from: https://www.qualisys.com/ (2022).
- Mathis, A., et al. DeepLabCut: Markerless pose estimation of user-defined body parts with deep learning. Nature Neuroscience. 21 (9), 1281-1289 (2018).
- Moon, G., Shiratori, T., Lee, K. M. DeepHandMesh: A weakly-supervised deep encoder-decoder framework for high-fidelity hand mesh modeling. ECCV 2020. , (2020).
- Smith, B., et al. Constraining dense hand surface tracking with elasticity. ACM Transactions on Graphics. 39 (6), 219 (2020).
- Taheri, O., Ghorbani, N., Black, M. J., Tzionas, D. GRAB: A dataset of whole-body human grasping of objects. Computer Vision - ECCV 2020: 16th European Conference. , Glasgow, UK. 581-600 (2020).
- Brahmbhatt, S., Tang, C., Twigg, C. D., Kemp, C. C., Hays, J. ContactPose: A dataset of grasps with object contact and hand pose. Computer Vision - ECCV 2020. , 361-378 (2020).
- Wang, J., et al. RGB2Hands: Real-time tracking of 3D hand interactions from monocular RGB video. ACM Transactions on Graphics. 39 (6), 218 (2020).
- Zhang, X., Li, Q., Mo, H., Zhang, W., Zheng, W. End-to-end hand mesh recovery from a monocular RGB image. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). , 2354-2364 (2019).
- Endo, Y., Tada, M., Mochimaru, M. Reconstructing individual hand models from motion capture data). Journal of Computational Design and Engineering. 1 (1), 1-12 (2014).
- Mueller, F., et al. GANerated hands for real-time 3D hand tracking from monocular RGB. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. , 49-59 (2018).
- Mueller, F., et al. Real-time pose and shape reconstruction of two interacting hands with a single depth camera. ACM Transactions on Graphics. 38 (4), 49 (2019).
- Romero, J., Tzionas, D., Black, M. J. Embodied hands: Modeling and capturing hands and bodies together. ACM Transactions on Graphics. 36 (6), 245 (2017).
- Kappler, D., Bohg, J., Schaal, S. Leveraging big data for grasp planning. 2015 IEEE International Conference on Robotics and Automation (ICRA). , 4304-4311 (2015).
- Kokic, M., Kragic, D., Bohg, J. Learning task-oriented grasping from human activity datasets). IEEE Robotics and Automation Letters. 5 (2), 3352-3359 (2020).
- Shao, L., et al. UniGrasp: Learning a unified model to grasp with multifingered robotic hands. IEEE Robotics and Automation Letters. 5 (2), 2286-2293 (2020).
- Shao, L., Migimatsu, T., Zhang, Q., Yang, K., Bohg, J. Concept2Robot: Learning manipulation concepts from instructions and human demonstrations. Robotics: Science and Systems XVI. , (2020).
- Bohg, J. Interactive perception: Leveraging action in perception and perception in action. IEEE Transactions on Robotics. 33 (6), 1273-1291 (2017).
- Blender Foundation. , Available from: https://www.blender.org (2022).
- Roth, S. D. Ray casting for modeling solids. Computer Graphics and Image Processing. 18 (2), 109-144 (1982).
- Maiello, G., Kwon, M., Bex, P. J. Three-dimensional binocular eye-hand coordination in normal vision and with simulated visual impairment. Experimental Brain Research. 236 (3), 691-709 (2018).
- Weichert, F., Bachmann, D., Rudak, B., Fisseler, D. Analysis of the accuracy and robustness of the leap motion controller. Sensors. 13 (5), 6380-6393 (2013).
- Guna, J., Jakus, G., Pogačnik, M., Tomažič, S., Sodnik, J. An analysis of the precision and reliability of the leap motion sensor and its suitability for static and dynamic tracking. Sensors. 14 (2), 3702-3720 (2014).
- Sheshadri, S., Dann, B., Hueser, T., Scherberger, H. 3D reconstruction toolbox for behavior tracked with multiple cameras. Journal of Open Source Software. 5 (45), 1849 (2020).
- Maiello, G., Harrison, W. J., Bex, P. J. Monocular and binocular contributions to oculomotor plasticity. Scientific Reports. 6, 31861 (2016).
- Caoli, A., et al. A dichoptic feedback-based oculomotor training method to manipulate interocular alignment. Scientific Reports. 10, 15634 (2020).
- Gibaldi, A., Vanegas, M., Bex, P. J., Maiello, G. Evaluation of the Tobii EyeX eye tracking controller and Matlab toolkit for research. Behavior Research Methods. 49 (3), 923-946 (2017).
- Chessa, M., Maiello, G., Borsari, A., Bex, P. J. The Perceptual quality of the Oculus Rift for immersive virtual reality. Human-Computer Interaction. 34 (1), 51-82 (2016).
- Maiello, G., Chessa, M., Bex, P. J., Solari, F. Near-optimal combination of disparity across a log-polar scaled visual field. PLoS Computational Biology. 16 (4), 1007699 (2020).
- Maiello, G., Chessa, M., Solari, F., Bex, P. J. The (in)effectiveness of simulated blur for depth perception in naturalistic images. PLoS One. 10 (10), 0140230 (2015).
- Maiello, G., Chessa, M., Solari, F., Bex, P. J. Simulated disparity and peripheral blur interact during binocular fusion. Journal of Vision. 14 (8), 13 (2014).
- Maiello, G., Kerber, K. L., Thorn, F., Bex, P. J., Vera-Diaz, F. A. Vergence driven accommodation with simulated disparity in myopia and emmetropia. Experimental Eye Research. 166, 96-105 (2018).
- Moscatelli, A., et al. The change in fingertip contact area as a novel proprioceptive cue. Current Biology. 26 (9), 1159-1163 (2016).