複製鏈接
請複製以下鏈接發送給好友

手勢輸入方式

鎖定
手勢輸入方式,是一種傳感控制方式。
中文名
手勢輸入方式
類    型
科技
方    式
傳感
對    象
計算機科學

手勢輸入方式引 言

在虛擬現實中,手是用户模型中十分重要的動作與感知關係模型,人的行為特徵[1 ,2 ]是人機交互的
重要研究內容。在虛擬環境中用手實現抓取、釋放物體以及飛行、漫遊、導航等三維交互任務和技術,以
往是利用人的觸摸行為和計算機的反應來獲得基於人機交互的手段,一般採用硬設備如空間球、6D 操
縱杆、6D 鼠標等來實現。但也可用人們的自然技能,通過計算機非接觸式地(如數據手套和攝象機等)
觀察用户的動作,實現人機交互,這是一種通過手勢識別來了解用户意圖的、有前途的三維交互新技術。
因為在VR 環境中抓握該環境中的物體,應與用户手在生活中的動作一致,這一切的研究都是基於運動
學、動力學以及反運動學;這一切還與使用手掌、拇指和每個手指的位置在抓握物體時運用自然、可信的
幾何和物理特徵有關;同時還要使用户能感知手抓握的作用力。顯然這是一項十分艱鉅的研究工作,但
它在人機交互困難的領域(如虛擬現實環境、遙控機器人和電信會議、啞語手勢等) 使用户不需要訓練就
可用人類自然技能,充分發揮手在交互過程中的自然性、靈活性和適應性。
國內外科學家對手勢識別進行了大量研究。1994 年,Ramon M S 和Dannil T 研製了一種基於物理
約束的手抓取過程的手動作合成的控制與抓取系統[3 ] 。1995 年,Lee J intae 和Kunii Tosiyasv L 研究用
攝像機獲得手的運動圖像數據來自動分析三維手勢[4 ] ,實現三維手勢重構。1997 年,加拿大多倫多大
學的Sidney S F 研究的Glove TalkII[5 ,6 ]系統是最有影響的手勢接口系統,他採用神經網絡將用户
手勢轉換成手勢語言參數,通過語言合成器合成為語言輸出。我國高文等人,也進行了基於手勢和人的
行為動作識別的手語合成技術的研究。

手勢輸入方式手勢識別的原理

手勢輸入方式手勢的概念

手勢是指在人的意識支配下,人手作出的各類動作,如手指彎曲、伸展和手在空間的運動等,可以是
收稿日期: 2000 - 05 - 15
基金項目: 行業基金項目(院編96311)
作者簡介: 曾芬芳(1940 - ) ,女,湖南益陽人,華東船舶工業學院教授。
執行某項任務,也可以是與人的交流,以表達某種含義或意圖。基於手勢識別的三維交互輸入技術,常
用的有基於數據手套的和基於視覺(如攝象機) 的手勢識別。
人手有20 多個關節,其手勢十分複雜,在VR(Virtual Reality) 中的交互過程,需分析手勢的形成並
識別其含義。如用户以自然方式抓取環境中的物體,同時還可以對用户產生相關的感知反饋,如對具有
力反饋的手套,就能使人感知到抓取的物體的重量,對有觸覺反饋的手套,能感知到用户所碰到的物體
的質感,如毛毯有多粗糙等。所以計算機要能對人手運動的靈活、複雜的手勢進行識別是一項艱難而又
十分有意義的任務。
手勢的分類早在40 年代,心理學家Quek[7 ] . ,Pavlovic[8 ]等人從人機接口的角度對手勢進行研究,
按其功能分為:
手的運動
無意識的手運動
有意識的手運動(手勢)
交流手勢
表動作
表符號(手語)
引用手語(如表示數字)
情態手勢
執行任務(如抓握錘)

手勢輸入方式手勢識別的原理

手勢不但由骨胳肌肉驅動,而且還受人的信念、意識的驅使,它涉及到人的思維活動的高級行為。
人機交互的研究目的之一是使機器對人類用户更方便,從用户產生手勢到系統“感知”手勢的過程[9 ]如
圖1 所示。
圖1  系統“感知”手勢的過程
Fig. 1  Process of sensing gesture by the system
手的運動,是手勢的表現形式。用户的操作
意圖是用户要完成任務的內容, 即用户心理活
動(概念手勢) G ,經過運動控制(變換) ,用手勢
運動H 表達。由經感受設備(變換Thi) 將手的
運動H 變換為系統的輸入信息I ,所以從G到I
的映射過程為:
Tgh : G → H , 即H > Tgh ( G)
Thi : H → I , 即I >Thi ( H)
Tgi : G → I , 即I > Thi ( Tgh ( G) ) > Tgi ( G)
其中, Tgh 為人體運動控制傳送函數; Thi為輸入設備傳送函數。
手勢識別的任務就是從系統輸入I 推斷、確定用户意圖G ,顯然是以上映射的逆過程。即
G = T- 1
gi ( I) ( 1 )
H = T- 1
hi ( I) ( 2 )
G = T- 1
gh ( H) ( 3 )
其中, T- 1
gi , T- 1
hi , T- 1
gh 是Tgi , Thi , Tgh 的逆變換。
所以手勢識別可以採用H = T- 1
hi ( I) 時輸入信息I ,得到手的運動H ,再由G = T- 1
gh ( H) 手勢的表
示推斷用户手勢的概念意圖,也可直接從G = T- 1
gi ( I) 求得概念手勢G。
手勢識別分為靜態手勢和動態手勢的識別,研究大都是在線靜態手勢識別,如Lee 研究的就
是靜態孤立手勢[10 ] 。動態手勢識別難度大,一般採用關鍵幀方法,記錄每個手勢的始和終狀態及手勢的
運動軌跡,然後用內插算法重建幀,但仍需給予限制,如Davis研究的動態手勢識別就規定開始時手必須
朝上等。

手勢輸入方式手勢的輸入

手勢的語法信息是通過手的構形、手的運動變化來傳遞。為了
給用户提供必要的視覺反饋信息, 使其在交互過程中看到自己的手
(圖2 是用3DSMAX 繪製) ,同時也為了分析交互過程中手和虛擬對
象之間的相互作用關係,必須建立手幾何模型和運動學模型。

手勢輸入方式手關節的描述

人手是一個多肢節系統, 由27 塊骨骼組成, 可看成由4 個相鄰
手指、一個大拇指和手掌組成, 每個手指由指段和關節組成。因此手
是一種由關節相連的結構, 隨着關節運動, 手的形狀在不斷變化。這
種變化可以通過指段和關節的狀態空間位置的變化來描述[11 ] 。
每一個手指( Ⅱ - Ⅴ) 具有四個自由度,其中手指的
基部(MP) 有兩個自由度,彎曲和旋轉,手指的中間關節處(PIP)
和末端關節處(DIP) 分別各有一個自由度,主要是彎曲運動。大拇
指除了與其他四個手指一樣具有四個自由度外, 還有一個外展運
動,所以大拇指具有五個自由度(拇指和手掌之間的一節也可不考慮) 。外加手掌的前後左右運動二個自由度。所以手運動總共具有
23 個自由度,即狀態空間為23 維。
從上述的分析可知,除大拇指外每個手指都具有四個自由度,
從而可以建立一條鏈,以協調手指的機構及運動。整個手可以以手掌為基礎鏈接五個手指( Ⅰ - Ⅴ) ,在
指段MP 上鍊接指段PIP ,再鏈接指段DIP ,每條鏈可以獲取四個參數。從而五個手指以手掌為根節點構
成一個樹型結構,樹中的每一個節點代表一個關節,關節通過指段具有相互關聯的運動特性。
212  手勢的輸入
手勢的輸入是實現手勢交互的前提。它要求能夠有效地跟蹤手的運動, 又要方便用户手的運動, 既
要求準確確定手的位置、方位、手指彎曲角度,又要求對手的運動限制很少。手勢的輸入有
基於數據手套的和基於視覺(攝象機) 等兩種方式。
21211  基於數據手套的手勢輸入
基於數據手套的手勢輸入[12 ] ,是根據戴在手上的具有位置跟蹤器的數據手套利用光纖直接測量手
指彎曲和手的位置來實現手勢輸入的。本文使用5DT 公司生產的不帶位置跟蹤器的5th Glove 右手數據
手套,每個手指中間關節有一個傳感器用於測量手指的平均屈伸度,在手腕部位還有一個2 軸傾斜傳感
器測量手的轉動(繞Z 軸旋轉) 和傾斜(繞X 軸旋轉) 兩個角度,以探測手的上下襬動和旋轉。該手套共
帶有七個傳感器,因此同一時刻只能讀出七個角度值。5th Glove 還提供命令、報告數據、連續數據、模擬
鼠標等工作方式,可定義一指、二指和三指( Z 軸) 等手勢來控制虛擬手的飛行、視點、運動速度等。
5th Glove 數據手套通過串行接口與微機連接在一起,以傳送手運動信號,從而控制手動作。它能將
用户手的姿勢(手勢) 轉化為計算機可讀的數據, 因而使手去抓取或推動虛擬物體。人手在運動過程中
會碰撞物體,所以在系統中,虛擬手的交互操作除了實現抓取和釋放物體等功能外, 還需實現了碰撞的
檢測。
21212  基於視覺的手勢輸入
基於視覺的手勢輸入是採用攝象機捕獲手勢圖象,再利用計算機視覺技術對捕獲的圖象進行分析,
提取手勢圖象特徵,從而實現手勢的輸入。這種方法使用户手的運動受限制較少,同時用户還可以直接
看到手的圖象。基於視覺的輸入所輸入的原始數據是手的圖象,採用重建三維模型來構建手勢圖象,調
節模型參數如手指彎曲角度的夾角等,以合成手的三維圖形。根據手生成的圖形和已獲得的手圖象匹
配,所得到的模型參數就構成了手勢。1995 年,Lee J intae 和Kunii Tosiyasv l. 研究用立體圖像數據自動
分析三維手勢[4 ] 。它用攝像機拍攝手的運動圖像,使用輪廓提取邊界特徵進行識別的方法,成功地提
取27 個交互作用手參數,實現了三維手勢的重構。其實早在1981 年, Kroeger 採用兩個攝象機實現了
一個獲取手勢的系統,它通過用户的手在與鼠標墊一般大小的“鏡象盒”的3D 空間中來完成交互。兩
個鏡子被放在大約與前平面成45 度角的位置上,兩個鏡子代替單個鏡子產生了一個虛擬視點,加上兩
垂直平面上的兩個攝象機共三個視點相交成直角,以提供給用户一個確定的工作空間,在這個空間內允
許用户與計算機交互。

手勢輸入方式手勢識別

手勢識別作為三維輸入的實質是識別出用户通過手勢運動表達自己的意圖。顯然這是一個模式識
別問題,但又不完全相同。手勢識別的圖象分類算法很多,如Martin 採用句法模式識別方法[13 ] ,
Sun 採用模板匹配和查表的方法[14 ] ,Quek 使用貝葉斯分類器,Su 等人採用組合神經網絡[15 ] ,Huang 等
人採用Hopfield 神經網絡法,Boehm 等人使用SOM 法[16 ] ,Kin 採用模糊神經網絡識別手勢。從模式識
別的角度來看,不論是使用數據手套,還是攝像機來輸入手勢,不論手勢的表示方法如何,不論採用什麼
樣的特徵提取,都可以採用同樣方法來識別手勢。本文介紹傳統幾何學識別法和通過數據手套輸入手
勢的神經網絡識別法。

手勢輸入方式幾何識別法

傳統的幾何分類法由於算法簡單,實現的識別率可達到92 % ,與神經網絡的方法相比,幾何分類法
顯示出了高識別速度和可靠性。它允許定義一個不同手勢類別的特點的特徵集,它估計一個局部最優的
線性分辨器,根據手勢圖象中提取的大量特徵識別相應的手勢類別。已知三個視圖,每個視圖有k 個特
徵, 讓n = 2 k ,及特徵向量F = [ f 1 , …, f n ] ,手勢類別Ω1 , …,Ωm 和它們的類別權w i0 , …, win (1 ≤i ≤m) 。將下面的線性識別函數作用於特徵向量F 上,並求其最大值,得到手勢類別H( F) :
hi = w i0 + 6n
k = 1
wikf k
H( F) = { j : Pk : 1 ≤ k , j ≤ m : hk ( F) ≤ hj ( F)}
312  神經網絡識別法
31211  神經網絡識別手勢的基本過程
手指關節角之間存在非線型偶合關係,
只能從手勢的輸入近似計算得到它的表示
H。為了提高系統的響應速度, 減小計算誤
差,可直接根據輸入的數據I 來識別用户作
出的手勢G。圖4 為神經網絡離線訓練和神
經網絡在線識別靜態手勢的基本過程。
在訓練階段,使用採集到的手勢樣本對
神經網絡進行訓練,近似得逆變換T。手勢在線識別階段,神經網絡對輸入的手勢數據進行處理,並將得
到的結果送判決器,由它判決或得到手勢的類別或拒絕識別手勢,有時手勢數據也可以作為新的手勢樣
本添加到訓練樣本中,以使在適當時候對神經網絡進行重新訓練。
虛擬現實中用户是採用人的自然技能進行交互, 系統要實時在線地識別用户所作手勢及意圖。從
(1) 、(2) 、(3) 式可知,手勢識別的任務是確定未知手勢的逆映射T- 1
gi , T- 1
hi , T- 1
gh , 並運用它們識別手勢。
因此需確定合適的數學模型,對已知模式樣本進行訓練,對手勢進行分類,並將結果與已知類別比較,不
斷修改模型,直到判斷未知手勢與哪一類已知手勢相似與接近,或滿足在一參數子區間。
本文采用5th Glove 數據手套輸入手勢建立了標準手勢庫,通過所讀取的各指節彎曲角度作為神經
網絡的輸入節點值,庫中存有手勢:1 、2 、3 、4 、5 、6 、7 、8 、9 、10 、GOOD、BAD、OK 等, 這些手勢分別用1 至
13 間的整數代替手勢。然後對輸入手勢分別採用BP 神經網絡[17 ] 和模糊神經網絡方法進行了手勢識
別。以下僅介紹模糊神經網絡進行手勢識別方法。
31212  基於模糊神經網絡的手勢識別
在文獻[18 ] 中採用多輸入多輸出(MIMO) 標準模糊神經網絡模型來對手勢進行識別,其網絡結構
由五層組成:
第一層為輸入層。該層的各個節點直接與輸入向量的各分量X [ i ] 連接,它起着將輸入值x = [ x 1 ,x 2 , …, x n ] T 傳送到下一層的作用。輸入層節點數N1 = n = 7 ,即七維向量X[ n ] ,其中X [ i ] 分別為數
據手套中取出的各個角度值,值域為[ - 90 ,90 ] 。
第二層每個節點代表一個語言變量值。用於計算各輸入分量屬於各語言變量值模糊集合的隸屬度
函數。所用隸屬函數為高斯函數表示的正態分佈函數,即:
μji
= e- ( Xi- Cij)2/σ2ij其中i = 1 ,2 , …, n 是輸入量的維數, j = 1 ,2 , …, Mi 是模糊分割數; Cij ,σij 分別表示隸屬函數的中心
和寬度。該層的節點總數N2 = M1 ×M2 ×…×Mn . 系統將該層的每個輸入層的節點模糊化為3 到5 個
分支節點,故共有節點21 至35 個。
第三層是歸一層,它是一箇中間過渡性的緩衝變量,它與規則層節點一一對應。它的每個接點代表
一條模糊規則,用於匹配模糊規則前件,計算出每條規則的適用度。如果利用兩種合成算子,則有兩種適
用度,即取小求解法或連乘求解法求a[ j ] 。該層節點總數N3 = m 。系統對每條規則a[ i ] ,有一個對應
的整型數組變量存放形成它的模糊層中的節點值的下標值,以作備用。
第四層的節點數與第三層相同,即N4 = m ,它所實現的是歸一化計算,即
αj
=αj / 6m
i = 1
αi
,  ( j = 1 ,2 , …, m) ;
第五層是輸出層,它所實現的是清晰化計算———求解結果,即
yi = 6m
j =1
wij αj ,  ( i = 1 ,2 , …, r)
這裏的w [ i ] [ j ] ,相當於y [ i ] 的第j 個語言值隸屬函數的中心值,上式寫成向量形式,則為Y = Wα,
其中
Y =
y1
y2
y r
,  W =
w11 w12 … w1 m
w21 w22 … w2 m
… … … …
w r1 w r2 … w rm
, α =
α1
α2
αm
該系統的輸出層節點數據結構為十三維的向量Y[ r ] , r = 13 ,其中, Y[ i ] 分別為該節點的輸入節
點值與相應權值的乘積,標準庫輸出層的正確取值範圍為0 到1 之間。該層的節點只有當輸入層節點在
庫中有匹配時才有有效值(約為1 的值) 。所以對於每個輸入的手勢,該層中最多有一個節點值約為1 ,當
隸屬度函數小於允許誤差EPS 時近似取為0 。而接近於1 以致達到誤差允許範圍內的節點下標值,即為
所識別的手勢在標準手勢庫中對應的輸出層下標值,例如:對於某個輸入手勢,有Y[3 ] = 0. 999999 ,達
到了誤差允許範圍, 則網絡程序識別出該手勢為“3”( 圖5) ; 而對於另一個輸入手勢, 有Y[8 ]
42 華 東 船 舶 工 業 學 院 學 報2000 年
= 0. 9999998 , 則識別出該手勢為“8”(圖6) 。
圖5  手勢表示“3”
Fig. 5  Gesture of“3”
圖6  手勢表示“8”
Fig. 6  Gesture of“8”

手勢輸入方式結束語

手勢識別是VR 中三維人機交互輸入的技術,它具有廣闊的運用前景,國內外都有學者在進行研
究。自1995 年以來,筆者對手運動模型進行了分析和研究,並已設計了一個根據5th Glove 數據手套輸
入手勢,實現了一個虛擬手在虛擬環境中飛行、抓取、釋放等的三維交互操作系統,其手勢識別方法是分
別採用BP 神經網絡和模糊神經網絡,取得了較好的效果。從實驗結果來看,後者比前者收斂速度更
快,識別能力更強。筆者正在嘗試從攝象機獲得手勢並進行識別的研究。
參考文獻:
[1 ]  GREEN M , SUN H Q. Computer graphics modeling for virtual Environment [A ] . In Barfield Woodrow , Furness Ⅱ
Thomas A. : Virtual Environment and Advanced Interface Design[C] . U K: Oxford University ,1995 , 63 - 101.
[2 ]  CARROLL J M. Human2computer interaction : psychology as a science of design[J ] . International Journal of Human -
computer Studies ,1997 , 46 : 501 - 522.
[ 3 ]  RAMON M S , DANICL T. A hand control and automatic grasping system for synthetic actors[J ] . EUROGRAPHICS’
94 ,1994. 167 - 176.
[4 ]  L EE J , KUNII T L. Model2based analysis of hand posture[J ] . Computer Graphics and Applications ,1995 ,5 (5) :77 -
86.
[5 ]  FELS S S , HINTON G E. Glove2talk Ⅱ: a neural2network interface which maps gestures to parallel format speech syn2
thesizer controls[J ] . IEEETransaction on Neural Networks , 1997 , 8 (5) : 984 - 997.
[6 ]  SIDENEY F S , HINTON G E. Glove2talk Ⅱ:a neural2network interface which maps gestures to parallel format speech
synthesizer controls[J ] . IEEETransaction on Neural Networks ,Sept 1998 , 9 (9) : 205 - 212.
[7 ]  QUEK F K H. Toward a vision2based hand gesture interface[A] . Proceeding of VRST’94 :Virtual Reality Software &
Technology. River Edge[C] . NJ ,World Scientific Publishing Co. Inc ,1994 ,17 - 31.
[8 ]  PABLOVIC V I. SHARMA R , HUANG T S. Visual interpretation of hand gesttures for human2computer interaction :
a review[J ] , IEEE Transactions on Pattern analysis and Machine Intelligence , 1997 , 19 (7) : 677 - 695.
[9 ]  焦聖品. 虛擬現實中基於手勢的交互技術[D] . 上海: 上海交通大學博士論文,1999.
[10 ]  L EE J , KUNII T. Model2based analysis of hand posture[J ] , IEEE Computer Graphics and Application , 1995 , 15 (5) :
77 - 86.
[11 ]  曾芬芳. 虛擬現實技術[M] . 上海:上海交通大學出版社,1997.
[12 ]  曾芬芳,梁波林,劉 鎮,等. 基於數據手套的人機交互環境設計[J ] . 中國圖象圖形學報, 2000 ,5 (2) : 153 - 157.
[13 ]  BURDEA G, COIFFET P. Virtual Reality Technology[M] . USA : John Wiley &Son Inc. ,1994.
[14 ]  SUN H Q. Hand interface in traditional modeling and animation tasks[J ] . Journal of Computer Science and Technolo2
gy , 1996 , 11 (3) : 286 - 295.
第6 期 曾芬芳等: 一種交互輸入新技術———三維手勢識別43
[15 ]  SU M C , J EAN W F , CHANG H T. A static hand gesture recognition system using a composite neural network[J ] .
IEEE International Conference on Fuzzy Systems , Piscataway , 1996 , Part2 : 768 - 792.
[16 ]  BOEHM K, BROLL W,SOKOL EWICZ M A. Dynamics gesture recognition using neural networks : a fundament for
advanced interaction construction[A] . Proceedings of SPIE —The International Society for Optical Engineering Belling2
ham[C] . USA : Society of Photo2Optical Instrumentation Engineers , 1994 , 2177 : 336 - 346.
[17 ]  曾芬芳,王建華,別小川,等. 基於神經網絡的手勢識別[J ] . 機器人,1999 ,1 ,40 - 44.
[18 ]  曾芬芳,黃國建. 基於模糊神經網絡的手勢識別[J ] . 小型微型計算機系統,2000 (7) ,706 - 709.
3D Gesture Recognition —A New Interactive Input Technology
ZEN G Fen2f ang ,  S U Yong ,  CHEN Jie
(Dept . of Electronics and Information , East China Shipbuilding Institute , Zhenjiang Jiangsu 212003 , China)
Abstract : Int roduces a new 3D interactive input technique based on digital glove and video input gesture
picked up by a camera. This technique analyses images with computer and recognizes input 3D images with
neural networks and geomet ry method. It is a new technique with broad application perspective.
Key words : virtual reality ; gesture recognition ; 3D interaction ; neural networks