酷游九州用于分割手势的方法和设备pdf
一种手势分割方法,它可以在识别手势将手势自动分割成单词或由多个单词构成的可理解单元,无需用户指出在哪里分割。预先存储包含过渡动作之特征的过渡特征数据,其中在表示单词的动作期间,不会观察到过渡动作,但从一个动作过渡到另一个时,可以观察到过渡动作。然后,检测与观察到过渡动作的身体部位相对应的图像的运动,将检测到的图像运动与过渡特征数据比较,并确定观察到过渡动作的时间位置,以便对手势进行分割。
1: 一种手势分割方法,用于当识别用户手势时,将用户手势自动分割成 单词或由多个单词构成的可理解单元,其特征在于,所述方法包括以下步骤: 预先存储包含过渡动作之特征的过渡特征数据,在表示单词的动作期间, 不会在用户身体上观察到所述过渡动作,但从一个动作过渡到另一个动作时, 可以观察到所述过渡动作; 对用户摄像,并且存储其图像数据; 从所述图像数据中抽取与观察到所述过渡动作的身体部分对应的图像; 检测与观察到所述过渡动作的身体部分对应的图像的运动;并 通过比较所述图像的运动和所述过渡特征数据,然后求出观察到所述过渡 动作的时间位置,来分割所述手势,其中所述图像与观察到所述过渡动作的身 体部分相对应。
2: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 眨眼。
3: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 点头。
4: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 闭嘴。
5: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 停止手的运动。
6: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 停止身体的运动。
7: 如权利要求1所述的手势分割方法,其特征在于,所述过渡动作包括 用手敷面。
8: 如权利要求1所述的手势分割方法,其特征在于,还包括在用户周围 设置无意义手区域的步骤,即使在该区域中观察到用户的手,也认为手势无 效,其中 所述过渡动作包括手进出所述无意义手区域。
9: 如权利要求1所述的手势分割方法,其特征在于,在分割所述手势的 步骤中,测量所述过渡手势的持续时间,然后根据所述持续时间,对手势进行 分割。
10: 如权利要求1所述的手势分割方法,其特征在于,还包括以下步骤: 预先存储包含非过渡动作之特征的非过渡特征数据,从表示一个单词的动 作过渡到另一个时,不能在用户身体上观察到所述非过渡动作,但在表示一个 单词的动作期间,可以观察到所述非过渡动作; 从所述图像数据中抽取与观察到所述非过渡动作的身体部分对应的图 像; 检测与观察到所述非过渡动作的身体部分对应的图像的运动;并 将所述图像的运动与所述非过渡特征数据进行比较,求出观察到所述非过 渡动作的时间位置,其中所述图像与观察到所述非过渡动作的身体部分相对 应,并且 在分割所述手势的步骤中,不在观察到所述非过渡动作的时间位置处分割 所述手势。
11: 如权利要求10所述的手势分割方法,其特征在于,所述非过渡动作 包括使手彼此合拢,手的间距小于一预值。
12: 如权利要求10所述的手势分割方法,其特征在于,所述非过渡动作 包括改变嘴形。
13: 如权利要求10所述的手势分割方法,其特征在于,所述非过渡动作 包括对称于左手移动右手的运动,以及反之移动左手的运动。
14: 如权利要求13所述的手势分割方法,其特征在于,在对所述用户摄 像并存储其图像数据的所述步骤中,对用户进行立体摄像,并存储其三维图像 数据; 在所述抽取步骤中,从所述三维图像数据中抽取与观察到所述非过渡动作 的身体部分相对应的三维图像; 在所述检测步骤中,检测所述三维图像的运动;以及 在求时间位置的所述步骤中, 根据所述三维图像的运动,检测在右手动作平面和左手动作平面内的变 化;并且 当两个动作平面都不改变时,判定观察到非过渡动作,然后求其时间位 置。
15: 如权利要求14所述的手势分割方法,其特征在于,在求时间位置的 所述步骤中,根据动作平面法线矢量的变化,检测右手动作平面和左手动作平 面内的变化。
16: 如权利要求14所述的手势分割方法,其特征在于,对于与改变方向 的三维矢量相对应的多个三维动作代码,还包括预先生成单一运动平面表的步 骤,在所述单一运动平面表中,包括在单一平面内求得的三维运动代码的组 合;和 将所述三维图像的运动转换成由所述多个三维运动代码表示的三维运动 代码串的步骤,其中 在求时间位置的所述步骤中,根据所述单一运动平面表,检测右手动作平 面和左手动作平面内的变化。
17: 如权利要求1所述的手势分割方法,其特征在于,还包括以下步骤: 预先存储表示所述过渡动作的动画的图像数据; 检测所述非过渡动作的检测状态和所述手势的识别状态;并且 就所述过渡动作的检测状态和所述手势的识别状态,向用户视觉显示表示 所述过渡动作的动画。
18: 如权利要求17所述的手势分割方法,其特征在于,在所述显示动画 步骤中,根据所述手势的识别状态,改变动画的速度。
19: 一种记录媒体,用于存储将在计算机设备中执行的程序,所述程序包 括将用户手势自动分割成单词或由多个单词构成的可理解单元的方法,其特征 在于,用于实现一操作环境的所述程序包括以下步骤: 预先存储包含过渡动作之特征的过渡特征数据,在表示单词的动作期间, 不会在用户身体上观察到所述过渡动作,但从一个动作过渡到另一个动作时, 可以观察到所述过渡动作; 对用户摄像,并且存储其图像数据; 从所述图像数据中抽取与观察到所述过渡动作的身体部分对应的图像; 检测与观察到所述过渡动作的身体部分对应的图像的运动;并 通过比较所述图像的运动和所述过渡特征数据,然后求出观察到所述过渡 动作的时间位置,来分割所述手势,其中所述图像与观察到所述过渡动作的身 体部分相对应。
20: 如权利要求19所述的记录媒体,其特征在于,所述程序还包括以下 步骤: 预先存储包含非过渡动作之特征的非过渡特征数据,从表示一个单词的动 作过渡到另一个时,不能在用户身体上观察到所述非过渡动作,但在表示一个 单词的动作期间,可以观察到所述非过渡动作; 从所述图像数据中抽取与观察到所述非过渡动作的身体部分对应的图 像; 检测与观察到所述非过渡动作的身体部分对应的图像的运动;并 将所述图像的运动与所述非过渡特征数据进行比较,求出观察到所述非过 渡动作的时间位置,其中所述图像与观察到所述非过渡动作的身体部分相对 应,并且 在分割所述手势的步骤中,不在观察到所述非过渡动作的时间位置处分割 所述手势。
21: 如权利要求19所述的记录媒体,其特征在于,所述程序还包括以下 步骤: 预先存储表示所述过渡动作的动画的图像数据; 检测所述非过渡动作的检测状态和所述手势的识别状态;并且 就所述过渡动作的检测状态和所述手势的识别状态,向用户视觉显示表示 所述过渡动作的动画。
22: 一种手势分割设备,用于当识别用户手势时,将用户手势自动分割成 单词或由多个单词构成的可理解单元,其特征在于,所述设备包括: 用于存储包含过渡动作之特征的过渡特征数据的装置,在表示单词的动作 期间,不会在用户身体上观察到所述过渡动作,但从一个动作过渡到另一个动 作时,可以观察到所述过渡动作; 用于对用户摄像并存储其图像数据的装置; 用于从所述图像数据中抽取与观察到所述过渡动作的身体部分对应的图 像的装置; 用于检测与观察到所述过渡动作的身体部分对应的图像之运动的装置;以 及 通过比较所述图像的运动和所述过渡特征数据,然后求出观察到所述过渡 动作的时间位置,来分割所述手势的装置,其中所述图像与观察到所述过渡动 作的身体部分相对应。
23: 如权利要求22所述的手势分割设备,其特征在于,还包括: 用于存储包含非过渡动作之特征的非过渡特征数据的装置,从表示一个单 词的动作过渡到另一个时,不能在用户身体上观察到所述非过渡动作,但在表 示一个单词的动作期间,可以观察到所述非过渡动作; 用于从所述图像数据中抽取与观察到所述非过渡动作的身体部分对应的 图像的装置; 用于检测与观察到所述非过渡动作的身体部分对应的图像之运动的装 置;并 用于将所述图像的运动与所述非过渡特征数据进行比较,求出观察到所述 非过渡动作的时间位置的装置,其中所述图像与观察到所述非过渡动作的身体 部分相对应,并且 用于分割所述手势的所述装置不对观察到所述非过渡动作的时间位置处 的手势进行分割。
24: 一种运动诱导设备,该设备包括在用于识别用户手势的手势识别设备 中,并且包括在用于将手势自动分割成单词或由多个单词构成的可理解单元的 手势分割设备中,以便在视觉上诱导用户做出预定的动作, 所述手势分割设备能够检测过渡动作并对手势进行分割,其中在表示单词 的动作期间,不会在用户身体上观察到所述过渡动作,但从一个动作过渡到另 一个动作时,可以观察到所述过渡动作,其特征在于,所述运动诱导设备包括; 用于预先存储表示所述过渡动作的动画之图像数据的装置; 通过检测所述手势分割设备和所述手势识别设备来检测所述非过渡动作 之检测状态和所述手势之识别状态的装置;以及 就所述过渡动作的检测状态和所述手势的识别状态,向用户视觉显示表示 所述过渡动作的动画的装置。
25: 如权利要求24所述的手势分割设备,其特征在于,所述动画显示装置 包括根据所述手势的识别状态来改变动画速度的装置。
26: 一种手势分割设备,用于当识别用户手势时,将用户手势自动分割成 单词或由多个单词构成的可理解单元,其特征在于,所述设备包括: 用于存储包含过渡动作之特征的过渡特征数据的装置,在表示单词的动作 期间,不会在用户身体上观察到所述过渡动作,但从一个动作过渡到另一个动 作时,可以观察到所述过渡动作; 用放在用户对面的摄像机对用户摄像并存储其图像数据的装置; 用于从所述图像数据中抽取与观察到所述过渡动作的身体部分对应的图 像的装置; 用于检测与观察到所述过渡动作的身体部分对应的图像之运动的装置;以 及 通过比较所述图像的运动和所述过渡特征数据,然后求出观察到所述过渡 动作的时间位置,来分割所述手势的装置,其中所述图像与观察到所述过渡动 作的身体部分相对应; 就所述过渡动作的检测状态和所述手势的识别状态,向用户视觉显示表示 所述过渡动作之动画的装置;以及 用于从用户视线中隐藏掉所述摄像机的装置。
27: 如权利要求26所述的手势分割设备,其特征在于,所述动画显示装 置包括一个面向上的监视器,该监视器放在垂直方向低于所述用户与所述摄像 机之间直线的位置上,并且 用于隐藏所述摄像机的所述装置包括一个半反射镜,它允许来自前方的光 通过,但反射来自后方的光,其中 所述半反射镜位于所述用户与所述摄像机之间的直线上,并且垂直位置高 于所述监视器,相对所述直线度角。
本发明涉及用于分割手势的方法和设备,尤其涉及一种当识别手势时将手语手势自动分割成例如单词的方法和设备。
近年来,个人计算机已允许用诸如定位设备进行输入,因此在用户中流行起来而不仅仅限于专业性使用,且不需要进行复杂的键盘操作。
另外,由于后来发展了用户语音自动识别技术,市场上出现了语音输入型个人计算机或者备有语音指示型微机的家用电器(下文将这种个人计算机或具有微机的家用电器称为计算机设备)。假设该技术有进一步的发展,那么计算机设备的输入操作大致会是一种个人间通信的方式。另外,用手操作有困难的用户很容易地访问计算机设备,这要感谢语音输入系统。
人们通过移动手或头,或者改变脸部表情以及说话来相互交流。如果计算机设备能够自动识别人体特殊部位的这些运动,那么用户就可以用一种类似于个人间通信的方法处理输入操作。另外,用语音操作有困难的用户可以用手语容易地访问计算机设备。该计算机设备还可用来翻译手语。
为了对这类需求作出响应,本发明的受让人和其他人已开发了用于识别人体特殊部位运动(包括手语手势)的计算机设备。以下是传统计算机设备中用来识别手语手势的处理过程:
首先,给用户拍照,然后将其图像存储起来。其次将一部分图像指定为手。然后,检测手的运动,并通过参照词典确定与被检测运动匹配地手语单词,其中所述词典叙述了如何做手语动作。用这种方式,计算机设备可以识别用户的手语。
每个手语单词一般由几个单位动作或其组合构成。这里,单位动作是指可分的最小动作,诸如举、降、弯。假设单位动作为A、B和C,那么手语单词可以用以下方式表示,即(A)、(B)、(C)、…、(A,B)、(A,C)、(B,C)、…(A,B,C)、…。人们通过组合这些手语单词进行手语对话。
假设手语单词(A)表示“电源”,而手语单词(B,C)表示“切断”,那么通过表达手语单词(A)和(B,C),即通过连续做单位动作A,B和C,可以完整表示“切断电源”的意思。
在面对面的手语中,当做手语的人(以下称说话人)想着手语单词(A)和(B,C)而连续做出单位动作A,B和C时,他/她的伙伴通常能凭直觉识别一系列表示手语单词(A)和(B,C)的单位动作。另一方面,当把手语输入计算机设备时,即使用户想着手语单词(A)和(B,C)而连续做出单位动作A、B和C,计算机设备也不能将一系列单位动作A、B和C识别为手语单词(A)和(B、C)。
因此,用户在手语单词(A)和(B,C)之间做一预定动作,诸如停顿(下文中,称分割动作a)。具体地说,当用户想输入“切断电源”时,他/她通过在手语单词(A)和(B,C)之间插入分割动作a,来表达所述手语单词,即首先做单位动作A,然后做分割动作a,最后做单位动作B和C。然后,计算机设备检测用户做的一系列动作,在分割动作a的前后进行分割,并获得手语单词(A)和(B,C)。
由此可见,对于计算机设备中执行的传统动作识别方法,当用户每次用手语手势将由几个单词构成的句子输入到计算机设备中时,他/她只能在对应一个单词的手势和对应另一单词的手势之间不厌其烦地插入分割动作。这是因为传统的动作识别方法不能将被检测的动作自动分割成单词。
注意,将被检测的一系列单位动作(动作代码串)分割成单词的方法可以包括,例如,用类似于一种日本字处理器的方式进行处理,在所述日本字处理器中,将字符代码串分割成单词,然后将其转换成字符。
但是,在该情况下,需参考记录单词的词典来分割动作代码串。因此,分割动作代码串的位置并不是唯一确定的。如果属这种情况,那么计算机设备必须向用户提供几种分割方式,然后用户必须选择适于其目的的最佳位置。由此,给用户带来许多麻烦,同时使输入操作很慢。
当参照计算机设备中包含的词典(词典包括手语单词(A)、(B)、(C)、…(A,B)、(A,C)、(B,C)、…(A,B,C)、…),来寻找用户因想着手语单词(A)和(B,C)而连续做出的单位动作A、B和C中的分割位置时,分割位置不会限于一个。因此,计算机设备在一些可能的位置进行分割,向用户提供几种分割方式,诸如(A)和(B,C),(A,B)和(C),或者(A,B,C)。用户对上述分割作出响应,选择一个最适合其目的的分割,然后将选中的位置通知计算机设备。
由此可见,这种基于动作代码串的分割系统不足以自动分割被检测的单位动作系列。
因此,本发明的一个目的是提供一种手势分割方法和设备,它能在识别手势时将被检测的手势自动分割成单词,不需要用户说出在哪里分割。
本发明的第一方面是一种手势分割方法,用于当识别用户手势时,将用户手势自动分割成单词或由多个单词构成的可理解单元,该方法包括以下步骤:预先存储包含过渡动作之特征的过渡特征数据,在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作;对用户摄像,并且存储其图像数据;从图像数据中抽取与观察到过渡动作的身体部分对应的图像;检测与观察到过渡动作的身体部分对应的图像的运动;并且通过比较图像的运动和过渡特征数据,然后求出观察到过渡动作的时间位置,来分割手势,其中图像与观察到过渡动作的身体部分相对应。
如上所述,在第一方面中,根据过渡动作分割手势,其中在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作。因此,可以将检测到的手势自动分割成单词或由多个单词构成的可理解单元,无需用户指出在哪里分割。
依照第八方面,在第一方面中,所述方法还包括在用户周围设置无意义手区域的步骤,即使在该区域中观察到用户的手,也认为手势无效,其中
依照第九方面,在第一方面中,在分割手势的步骤中,测量过渡手势的持续时间,然后根据持续时间,对手势进行分割。
预先存储包含非过渡动作之特征的非过渡特征数据,从表示一个单词的动作过渡到另一个时,不能在用户身体上观察到非过渡动作,但在表示一个单词的动作期间,可以观察到非过渡动作;
将图像的运动与非过渡特征数据进行比较,求出观察到非过渡动作的时间位置,其中图像与观察到非过渡动作的身体部分相对应,并且
如上所述,在第十方面,不在观察到非过渡动作的时间位置处分割手势,从表示一个单词的动作过渡到另一个时,不能在用户身体上观察到非过渡动作,但在表示一个单词的动作期间,可以观察到非过渡动作。因此,可以避免单词分割错误,从而提供分割准确度。
依照第十一方面,在第十方面中,非过渡动作包括使手彼此合拢,手的间距小于一预值。
依照第十三方面,在第十方面中,非过渡动作包括对称于左手移动右手的运动,以及反之移动左手的运动。
依照第十四方面,在第十三方面中,在对用户摄像并存储其图像数据的步骤中,对用户进行立体摄像,并存储其三维图像数据;
在抽取步骤中,从三维图像数据中抽取与观察到非过渡动作的身体部分相对应的三维图像;
依照第十五方面,在第十四方面中,在求时间位置的步骤中,根据动作平面法线矢量的变化,检测右手动作平面和左手动作平面内的变化。
依照第十六方面,在第十四方面中,对于与改变方向的三维矢量相对应的多个三维动作代码,所述方法还包括预先生成单一运动平面表的步骤,在单一运动平面表中,包括在单一平面内求得的三维运动代码的组合;和
将三维图像的运动转换成由多个三维运动代码表示的三维运动代码串的步骤,其中
在求时间位置的步骤中,根据单一运动平面表,检测右手动作平面和左手动作平面内的变化。
就过渡动作的检测状态和手势的识别状态,向用户视觉显示表示过渡动作的动画。
如上所述,在第十七方面中,当某一过渡动作的检测频率相当低时,或者即使根据检测到的过渡动作对手势进行分割也不能识别手势时,显示表示过渡动作的动画。因此,用户可以参考所显示的动画,有意识地纠正其过渡动作,并由此准确地检测过渡动作。
依照第十八方面,在第十七方面中,在动画显示步骤中,根据手势的识别状态,改变动画的速度。
如上所述,在第十八方面中,当手势识别状态不够正确时,将降低动画的显示速度。然后,诱导用户慢慢地做过渡动作。用这种方式,可以改善手势识别状态。
本发明的第十九方面是一种记录媒体,用于存储将在计算机设备中执行的程序,程序包括将用户手势自动分割成单词或由多个单词构成的可理解单元的方法,用于实现一操作环境的程序包括以下步骤:
预先存储包含过渡动作之特征的过渡特征数据,在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作;
通过比较图像的运动和过渡特征数据,然后求出观察到过渡动作的时间位置,来分割手势,其中图像与观察到过渡动作的身体部分相对应。
预先存储包含非过渡动作之特征的非过渡特征数据,从表示一个单词的动作过渡到另一个时,不能在用户身体上观察到非过渡动作,但在表示一个单词的动作期间,可以观察到非过渡动作;
将图像的运动与非过渡特征数据进行比较,求出观察到非过渡动作的时间位置,其中图像与观察到非过渡动作的身体部分相对应,并且
就过渡动作的检测状态和手势的识别状态,向用户视觉显示表示过渡动作的动画。
本发明的第二十二方面是一种手势分割设备,用于当识别用户手势时,将用户手势自动分割成单词或由多个单词构成的可理解单元,所述设备包括:
用于存储包含过渡动作之特征的过渡特征数据的装置,在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作;
通过比较图像的运动和过渡特征数据,然后求出观察到过渡动作的时间位置,来分割手势的装置,其中图像与观察到过渡动作的身体部分相对应。
用于存储包含非过渡动作之特征的非过渡特征数据的装置,从表示一个单词的动作过渡到另一个时,不能在用户身体上观察到非过渡动作,但在表示一个单词的动作期间,可以观察到非过渡动作;
用于将图像的运动与非过渡特征数据进行比较,求出观察到非过渡动作的时间位置的装置,其中图像与观察到非过渡动作的身体部分相对应,并且
本发明的第二十四方面是一种动作诱导设备,该设备包括在用于识别用户手势的手势识别设备中,并且包括在用于将手势自动分割成单词或由多个单词构成的可理解单元的手势分割设备中,以便在视觉上诱导用户做出预定的动作,
手势分割设备能够检测过渡动作并对手势进行分割,其中在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作,所述运动诱导设备包括:
通过检测手势分割设备和手势识别设备来检测非过渡动作之检测状态和手势之识别状态的装置;以及
就过渡动作的检测状态和手势的识别状态,向用户视觉显示表示过渡动作的动画的装置。
依照第二十五方面,在第二十四方面中,动画显示装置包括根据手势的识别状态来改变动画速度的装置。
本发明的第二十六方面是一种手势分割设备,用于当识别用户手势时,将用户手势自动分割成单词或由多个单词构成的可理解单元,所述设备包括:
用于存储包含过渡动作之特征的过渡特征数据的装置,在表示单词的动作期间,不会在用户身体上观察到过渡动作,但从一个动作过渡到另一个动作时,可以观察到过渡动作;
通过比较图像的运动和过渡特征数据,然后求出观察到过渡动作的时间位置,来分割手势的装置,其中图像与观察到过渡动作的身体部分相对应;
就过渡动作的检测状态和手势的识别状态,向用户视觉显示表示过渡动作之动画的装置;以及
如上所述,在第二十六方面中,用户看不见摄像机。因此,当用户做手势时,不会有意识,不会紧张。所以,可以提高分割准确度。
依照第二十七方面,在第二十六方面中,动画显示装置包括一个面向上的监视器,该监视器放在垂直方向低于用户与摄像机之间直线的位置上,并且
用于隐藏摄像机的装置包括一个半反射镜,它允许来自前方的光通过,但反射来自后方的光,其中
半反射镜位于用户与摄像机之间的直线上,并且垂直位置高于监视器,相对直线度角。
结合附图阅读以下本发明的详细描述,将更清楚本发明的这些和其它目的、特点、方面和长处。
图1是一流程图,示出了依照本发明第一实施例用一种手势分割法进行手势识别的方法。
图9示出了脸部特征运动的条件,供特征运动跟踪装置303确定特征运动代码。
图14示出了眼睛的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图16示出了嘴巴的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图18示出了身体和手区域的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图19示出了关于用手敷面之动作的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图20示出了关于手之有效性变化的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图21是一流程图,示出了在通过检测点头来分割手语手势的方法(参照图4)中,如何在考虑每个被检测手势的持续时间的同时进行分割。
图27示出了手语手势对称性的非分割特征运动条件,供特征运动跟踪装置303确定特征运动代码。
图28例示了存储在非分割元素存储装置2201中的手语手势对称性的非分割代码条件。
图30是一方框图,示出了依照本发明第四实施例的分割元素诱导装置的结构(分割元素诱导装置是未示出的手语识别设备和图3或22中手语手势分割设备的附加设备)。
图36是一方框图,示出了为图30中分割元素诱导装置提供的动画速度调节装置的结构。
图38是一示意图,例示了为图22中分割元素诱导装置提供的摄像机隐藏装置的结构。
图1是一流程图,示出了依照本发明第一实施例用一种手势分割法进行手势识别的方法。图2是一方框图,例示了用于实现图1所示方法的计算机设备的结构。
在图2中,计算机设备包括CPU201、RAM202、程序存储装置203、输入装置204、输出装置205、摄像装置206、图像存储装置207、手语手势存储装置208和过渡动作存储装置209。
图2的计算机设备首先识别用户的手语手势,然后执行预定的处理。具体地说,假设计算机设备是一个通用个人计算机系统,系统中安装了预定的程序数据,并且有一摄像机与系统相连,实现输入手语并对手语作自动翻译。计算机设备可以包括具有微机的任何家用电器,微机对用户的手势作出响应,接通/切断电源,或者选择操作模式。
图1中的手势识别方法包括手势分割处理,用于当识别用户手势时,将被检测的手势分割成单词,或者分割成由多个单词构成的可理解单元。
如在背景技术部分所描述的,为了用手语讲话,一般用几个手语单词组成句子。每个手语单词都由一个或多个单位动作组合而成。另一方面,计算机设备将用户的手势检测成一系列单位动作。因此,为了使计算机设备识别这些手势,需要用种种方式按用户原来的意愿将该单位动作系列分割成单词。
在传统的分割方法中,用户在对应一个单词的动作和对应后一个单词的动作之间作一停顿,从而当计算机设备检测该停顿时,便可分割上述单位动作系列。换句话说,需要用户指出在哪里分割。
当人们用手语面对面交谈时,单词是被连续表达的。本发明的发明人注意到,打手语的人会在对应一个单词的动作和对应后一单词的动作之间以某种方式不自觉地动作,诸如眨眼、闭嘴或点头等(在下文中,将用户在单词间不自觉作出的动作称为过渡动作)。过渡动作还包括单词之间任何自然的停顿。这种过渡动作几乎不会在对应于一种单词的手势中看到。因此,本发明的发明人建议用过渡动作来分割手势。
具体地说,在图1的方法中,计算机设备在检测用户手语手势的同时还检测过渡动作。随后,计算机设备找出观察到过渡动作的时间位置,以便将这些手势(即,一系列单位动作)分割成单词或可理解单元。因此,与传统的分割方法不同,用户不需要指出在哪里分割。
再参照图2,程序存储装置203包括用于实现图1中流程图所示之处理的程序数据。CPU 201根据存储在程序存储装置203中的程序数据执行图1所示的处理。RAM 202用于存储例如CPU 201进行处理所必需的数据,或者将在处理中产生的工作数据。
输入装置204包括键盘或鼠标器,用于响应操作员的操作,将各种类型的指令和数据输入CPU 201中。输出装置205包括一显示器或一扬声器,用于视频或音频输出CPU 201的处理结果。
摄像装置206至少包括一个摄像机,用于对用户的动作进行摄像。当对用户动作进行二维拍摄时,一个摄像机就足够了,但对于三维的情况,一个摄像机是不够的。在这种情况下,需要两个摄像机。
图像存储装置207存储由摄像装置206输出的图像,可以存储多个帧。手语手势存储装置208包括表示手语手势特征的手语特征数据。过渡动作存储装置209包括表示过渡动作特征的过渡特征数据。
以下三种方法可将程序数据存储在程序存储装置203中。第一种方法是,从预先存储着程序数据的记录媒体中读取程序数据,然后将程序数据存储在程序存储装置203中。第二种方法是,接收通过通信线路传输的程序数据,然后将其存储在程序存储装置203中。第三种方法是,在计算机设备发货之前先将程序数据存储在程序存储装置203中。
注意,可以用类似于上述第一至第三方法的方式,分别将手语特征数据和过渡特征数据存储在手语手势存储装置208和过渡动作存储装置209中。
首先,摄像装置206开始对用户摄像(步骤S101)。以预定的采样间隔(例如,1/30秒)将摄像装置206输出的图像数据存储在图像存储装置207中(步骤S102)。按时序对存储在图像存储装置207中的图像数据的个别帧进行编号(帧号)。
其次,CPU 201分别从步骤S102存储在图像存储装置207中的图像数据帧中抽取对应于用户的手的数据(步骤S103)。然后,CPU 201根据步骤S103中抽取的数据,检测用户的手的运动(步骤S104)。步骤S103和S104将在以后将更详细的描述。
然后,CPU 201从步骤S102存储在图像存储装置207中的图像数据中抽取对应于用户身体特殊部位的数据(步骤S105)。在该例中,特殊部位包括例如眼睛、嘴、脸(轮廓)和身体,在这些部位可以观察到上述过渡动作。在步骤S105,抽取至少对应于一个特殊部位的数据,最好是对应于多个部位的数据。在本例中,假设抽取对应于眼睛、嘴、脸和身体的数据。
接下来,CPU 201根据在步骤S105抽取的数据,检测各部位的运动(步骤S106)。观察手、眼睛、嘴、脸或身体的过渡动作。注意,对于手部运动,可以运用在步骤S104检测到的结果。
以下,将详细描述如何在步骤S103和S105中抽取数据,以及如何在步骤S104和S106中检测运动。
首先,CPU 201将存储在图像存储装置207中的图像数据分成多个区域,用户的身体部位分别对应于这些区域。在本例中,将图像数据分成三个区域:包括手的手区域;包括脸的脸区域;以及包括身体的身体区域。区域分割例示如下:
用户通过输入装置204将要抽取部位的颜色输入CPU 201。详细地说,在步骤S103输入手的颜色(例如,肤色),而在步骤S105输入眼白的颜色(例如,白色)、嘴唇的颜色(例如,暗红色)、脸的颜色(例如,肤色),以及衣服的颜色(例如,蓝色)。
CPU 201对输入作出响应,参考构成各区域中图像数据的多个象素数据,然后判断由象素数据表示的每种颜色是否与用户指定的颜色相同或相似,然后只选择被判肯定的象素数据。
换句线,只从属于手区域的象素数据中选出表示肤色的数据。因此,用这种方式,可以抽取对应于手的数据。
在步骤S105,只从脸区域选出表示白色的数据。因此,可以抽取对应于眼睛(其眼白)的数据。同样,由于只从脸区域选出表示暗红色的数据,所以可以抽取对应于嘴(嘴唇)的数据。另外,由于只从脸区域选出表示肤色的数据,所以可以抽取对应于脸的数据。再者,由于只从身体区域选出表示蓝色的数据,所以可以抽取对应于身体(衣服)的数据。
CPU 201比较在步骤S103中从各帧中抽取的数据,以便对各帧中手的运动进行检测。然后,CPU 201按一预定过程对检测到的运动进行编码。
由此,在步骤S104中检测到的手的运动是一个代码串,每个代码串由多个预先为手规定的动作代码组成。动作代码串暂时存储在RAM 202中。
CPU 201比较在步骤S105中从各帧中抽取的数据,以便对各帧中眼睛、嘴、脸和身体的运动进行检测。然后,CPU 201按一预定过程对检测到的运动进行编码。
由此,在步骤S106检测到的各部位(眼睛、嘴、脸和身体)的运动是一个代码串,每个代码串由多个预先为这些部位规定的动作代码组成。动作代码串暂时存储在RAM 202中。
CPU 201从过渡动作存储装置209读取过渡特征数据,以便将其与步骤S106中检测到的各部位的运动进行比较。在该阶段,用步骤S104和S106中使用的多个动作代码描述过渡特征数据,用以表示用户身体诸部位的运动。然后,CPU 201判断各部位(眼睛、嘴、脸或身体)的运动是否与过渡动作(眨眼、闭嘴、点头、或者停止手或身体的运动)相同或相似(步骤S107)。
详细地说,CPU 201对存储在RAM 202中的各部位的动作代码串进行搜索,然后判断是否有动作代码串与过渡特征数据的动作代码或动作代码串相同或相似。
当步骤S 107中的判断为肯定时,CPU 201确定将步骤S104中检测到的手势分割成单词的位置(步骤S108)。用于确定分割位置的处理执行如下。
首先,CPU 201选择各部位与过渡动作相同或相似的运动,用作可能的分割位置。具体地说,CPU 201对存储在RAM 202中的各部位的动作代码串进行搜索,检测与过渡特征数据的动作代码或动作代码串相同或相似的动作代码串,然后用帧号确定其每个时间位置。以下,将用这种方式确定的时间位置称为可能的分割位置。
接着,CPU 201用上述方式相互比较就各部位搜索到的可能分割位置,然后根据比较结果,确定在哪里分割在步骤S104检测到的手势(一系列单位动作)。
以眨眼为例,可以将垂下眼睑的瞬间(换句话说,即看不同眼白时)视作可能的分割位置。关于闭嘴运动,可以将闭嘴唇的瞬间视为可能的位置。关于点头,可以将脸部下端从下向上改变其运动的瞬间(下巴尖达到最低点时)视作可能的位置。关于停止手的运动,例如,可以将手停止运动的瞬间视作可能的位置。关于停止身体运动,例如,可以将身体停止运动的瞬间视作可能的位置。
在就各部位选取的这些可能位置作相互比较之后,当两个或多个可能的位置相同或小于预定间隔时,CPU 201确定该位置为分割位置。具体地说,当两个或多个可能的位置相同时,将该位置视作分割位置。当两个或多个可能的位置彼此靠近时,将其平均位置视作分割位置(或者将其中任何一个位置视作分割位置)。
在步骤S109,参照步骤S108中确定的分割位置,执行一翻译过程,用以翻译步骤S104中检测到的手势。
具体地说,CPU 201在步骤S108确定的分割位置对在步骤S104检测到的手势进行分割,将其与存储手语手势存储装置208中的手语特征数据进行比较,由此对获得的手语单词进行翻译。在本例中,用步骤S104中使用的多个动作代码描述手语特征数据,用以做手势。
然后,CPU 201判断是否终止操作(步骤S110),如果判断是否定的,那么重复步骤S101所执行的过程及以后的过程。如果判断是肯定的,那么终止操作。
由此可见,依照本实施例,可以根据用户身体的过渡动作来分割手势,这时用户是从表示一个单词的动作过渡到表示另一个单词的动作,而不是在表示单个单词的动作期间。因此,不用用户指示在哪里分割,计算机设备可以自动将检测到的手势分割成单词或由多个单词组成的可理解单元。
尽管在第一实施例中,将图像数据分成三个区域:包括手的手区域;包括脸的脸区域;以及包括身体的身体区域,以便从中抽取对应于用户身体各部位的数据,但是可以将图像数据分成四个区域,即附加一个无意义手区域。在本例中,无意义手区域相当于输出装置205的屏幕底部,用户的手放在该处,其手臂下垂。
只要在无意义手区域看到手,计算机设备就判定用户不在用手语交谈。相反,当手离开无意义手区域时,计算机设备判定开始作手势。用这种方式,计算机设备可以正确地识别用户何时开始作手势。另外,可以将计算机设备设置成,将手进出无意义手区域检测为过渡动作,以便用其进行分割。
尽管在第一实施例中,至少将诸如眨眼、闭嘴、点头、停止手或身体之运动等运动中的一种检测为过渡动作,用于确定在哪里分割,但是过渡动作不限于此。例如,可以将用手敷面的运动视为过渡动作。这是因为,在手语中,经常可以在单词的开头或结束时看到诸如手接近脸或手离开脸的动作。
另外,为了确定分割位置,在第一实施例中,可以考虑过渡动作的持续时间。例如,
将手不动的持续时间与一预定阈值比较。如果持续时间大于该阈值,那么将其定为过渡动作,并用它确定分割位置。如果持续时间小于阈值,那么不能将其定为过渡动作,从而忽略它。用这种方式,可以提供分割准确度。
另外,在第一实施例中,存储非过渡动作以及过渡动作,以便根据它们确定分割位置。这里,非过渡动作是指,当从表示一个单词的动作过渡到表示另一单词的动作时不会在用户身上观察到,但可以在表示一个单词的动作期间观察到的动作。非过渡动作可以包括,例如,两只彼此接近的动作,或者嘴形变化的动作。
详细地说,还可以为图2的计算机设备配备一个非过渡动作存储装置(未示出),并且将包括非过渡动作的非过渡特征数据存储其中。然后,在图1的步骤S106中,检测过渡动作和非过渡动作两者。可以用类似于过渡动作的方法,检测非过渡动作。然后在步骤S108,根据在步骤S106检测到的过渡动作和非过渡动作,对手势进行分割。
具体地说,在第一实施例中,当就各部位选出的可能分割位置进行比较,并发现有两个或多个位置相同或间距小于预定间隔时,据此确定分割位置(换句话说,将重合位置或相邻的可能位置的平均位置定为分割位置)。但是,这不适用于下述情况,即当考虑非过渡动作,并同时对其检测的情况。这意味着,在非过渡动作期间,即使检测到过渡动作,也不能进行分割。用这种方式,可以提高分割准确度。
另外,在第一实施例中,为了使计算机设备精确检测过渡动作,可以在输出装置205的屏幕上显示动画图像,用于诱导用户做正确的过渡动作(换句话说,做计算机设备可识别的过渡动作)。
详细地说,在图2的计算机设备中,预先将表示每个过渡动作的动画图像数据存储在动画存储装置(未示出)中。然后,CPU 201根据过渡动作的检测状态(例如,某个过渡动作的检测频率相当低)以及手势识别状态(根据检测到的过渡动作,是否能在分割后识别出手势)来确定应该把哪个过渡动作提供给用户。然后,CPU 201从动画存储装置中读出表示所选过渡动作的动画图像数据,以便将其输出到输出装置205。用这种方式,输出装置205的屏幕显示表示每个过渡动作的动画,并且用户通过参考所显示的动画,纠正他/她的过渡动作。(第二实施例)
在图3中,手语手势分割设备包括图像输入装置301、身体特征抽取装置302、特征运动跟踪装置303、分割位置判定装置304以及分割元素存储装置305。
例如,手语手势分割设备可以包含在手语识别设备(未示出)中。该设备还可以包含在诸如家用电路或售票机等计算机设备中。
图像输入装置301接收由诸如摄像机等图像输入设备获得的图像。在本例中,除非另作规定,讲话者的动作是二维捕获的,所以用一个图像输入设备就够了。
图像输入装置301接收讲话者的身体图像。分别为图像输入装置301输入的图像(以下称输入图像),就每一帧指派一个号码,然后,将图像传输给身体特征抽取装置302。分割元素存储装置305包括预先存储的身体特征和运动特征,它们作为分割用的元素(以下称为分割元素)。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征对应的图像。特征运动跟踪装置303根据抽取的图像,计算身体特征的运动,然后将表示计算结果的运动信息传输给分割位置判定装置304。
分割位置判定装置304根据传输的运动信息以及存储在分割元素存储装置305中的运动特征,求来分割位置,然后输出表示分割位置的帧号。
这里,可以用一个或多个计算机来实现图像输入装置301、身体特征抽取装置302、特征运动跟踪装置303以及分割位置判定装置304。可以用诸如硬盘、CD-ROM或DVD(它们与计算机相连)等存储设备来实现分割元素存储装置305。
如果有输入图像的线接收一帧的输入图像。然后,将帧号i增“1”,并将输入图像传输给身体特征抽取装置302。然后,过程进至步骤S402。
当没有输入图像时,将帧号i设为“0”,然后将判定代码号j设为“1”。然后,过程重复步骤S401。
身体特征抽取装置302根据讲话者的身体划分空间区域。例如,用类似于日本专利公开第9-44668号中“检测动作起始位置的方法”揭示的方法,划分空间区域。
具体地说,身体特征抽取装置302首先根据图像数据中背景和讲话者之间的颜色差异,检测人体区域,然后沿着检测到的人体区域的轮廓线,绕讲话者划分空间区域。然后,分别为划分获得的每个区域指派一个区域代码。
在图5中,用人体区域的轮廓线、颈线、身体右侧线以及无意义手区域决定线(空间区域)。
具体地说,身体特征抽取装置302首先参照人体区域的轮廓线,检测颈的位置,并在颈的位置,平行于X轴,画颈线。然后,身体特征抽取装置302平行于X轴画无意义手区域决定线,该线的高度等于颈线离开屏幕底部的高度乘以次手决定比的乘识。这里,次手决定比是一用于确认手有效的参数。因此,当手低于次手决定线时,判定此时进行中的手势无效,换句话说,即使手势在进行,但手不在动。在本实施例中,将次手决定比设为大约1/5。
接下来,为上述划分后获得的每个区域指派区域代码。附图中圆圈内的每个数字就是区域代码。在本实施例中,如图5所示分配区域代码。具体地说,头部外接矩形503以外、颈线以上的区域为①;头部外接矩形503以内的区域为②;颈线与次手决定线之间、身体左侧线以左的区域为③;由颈线、次手决定线、身体左侧线和身体右侧线所围成的区域为④;颈线和次手决定线之间、身体右侧线以右的区域为⑤;而次手决定线以下的区域为⑥。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征对应的图像。以下,将用这种方法抽取的图像称为被抽取的身体特征。
在图6中,分割元素数据包括身体特征601和运动特征602。身体特征601包括一个或多个身体特征。在本例中,身体特征601包括脸区域;眼睛;嘴;手区域和身体;手区域和脸区域;以及手区域。
将运动特征602设置为分别与身体特征601中的身体特征对应的运动特征。具体地说,将点头时的下巴尖设置对应于脸区域;将眨眼设置对应于眼睛;将嘴形变化设置对应于嘴;使停顿对应于手区域和身体;将用手敷脸的动作设置对应于手区域和脸区域;并将改变手之有效性的点设置对应于手区域。
身体特征抽取部分302将设置在身体特征601中的身体特征检测为被抽取的身体特征。例如,当把身体特征601设置为“脸区域”时,身体特征抽取装置302抽取脸区域,作为被抽取的身体特征。
身体特征抽取装置302首先根据RGB颜色信息,从输入图像中抽取肤域。然后,身体特征抽取装置302从肤域中取出重叠在区域代码为②的区域(头区域)上的部分,这里所述区域代码是由步骤S402中的划分而获得的,然后将该部分视为脸区域。
如图7所示,肤域包括脸的肤域702和手的肤域703。因此,由于不能区别地脸的肤域702和手的肤域703,所以根据RGB颜色信息进行抽取是不够的。因此,如图5所示,先将输入图像分为区域①至⑥,然后只从被抽取的肤域中取出重叠在头区域701(图5中的区域②)上的部分。用这种方式,便可获得脸的肤域702。
接下来,身体特征抽取装置302生成脸区域信息。这意味着,身体特征抽取装置302用被抽取脸区域的重心、面积、横向最大长度以及纵向最大长度,来设置第i个脸区域信息face[i]。
在图8中,脸区域信息包括脸区域的重心坐标801、其面积802、其横向最大长度803以及纵向最大长度804。
当帧号i为1时,过程返回步骤S401。如果不为1,则过程进至步骤S405。
特征运动跟踪装置303参考第i个脸区域信息face[i]和第(i-1)个脸区域信息face[i-1],用等式1求脸区域的特征运动代码。另外,特征运动跟踪装置303参考第i个脸区域信息face[i]的g_face[i]和第(i-1)个脸区域信息face[i-1]的重心g_face[i-1],求出第i个脸区域中的脸部运动矢量V-face[i]。
接下来,特征运动跟踪部分303参考第i个脸区域中的脸部运动矢量V-face[i],确定特征运动代码。
图9示出了脸部特征运动的条件,供特征运动跟踪装置303确定特征运动代码。
在图9中,脸部特征运动的条件包括运动代码901和条件902。运动代码901设为数字“1”至“8”,而将条件902设置为与运动代码901的各数字对应的脸部特征运动的条件。
详细地说,特征运动跟踪装置303参考图9中的条件902,然后选择与第i个脸区域中的脸部运动矢量V_face[i]相对应的脸部特征运动的条件。然后,特征运动跟踪装置303从图9的运动代码901中获得与脸部特征运动的所选条件相对应的数字,以便确定特征运动代码。
分割位置判定装置304参考存储在分割元素存储装置305中的分割元素数据(参见图6),并检查所定特征运动代码是否与运动特征602一致。为运动特征602设置一表示运动特征的参数(运动特征参数),用于确认分割。
在图10中,运动特征参数包括运动特征1001、判定代码1002、时间1003、和分割位置1004。运动特征1001表示运动特征的类型。判定代码1002是用于确定运动特征的代码串。时间1003是用来确定运动特征的时间。分割位置1004表示运动特征中的分割位置。
在判定代码1002包括的代码串中,每个代码用数字“1”至“8”表示,方法类似于图9中的运动代码901(特征运动代码),并用数字“0”表示停顿,代码用连字符连接。
例如,当代码顺序为“1”、“0”和“2”时,判定步骤S405中确定的特征运动代码与“1-0-2”代码串一致。
这里,括号中的代码表示该代码在用上述方式判定时相对不重要。例如,可以认为“7-(0)-3”代码串与“7-3”代码串是相同的。
另外,带斜杠的代码表示两者之中的任何一个代码都行。例如,当代码为“0/3”时,认为代码“0”或“3”都有效(未示出)。
为了检测点头,图6中适用的身体特征601是“脸区域”,而适用的运动特征602是“点头时的下巴尖”。在该情况下,分割位置判定装置304判断步骤S405中确定的脸部特征运动代码是否与对应于图10中“点头时的下巴尖”的代码串“7-(0)-3”一致。
手语手势分割设备判断特征运动代码是否与判定代码1002的第一个代码一致。如果一致,过程进至步骤S408。如果不一致,过程返回步骤S401。
分割位置判定装置304生成判定代码数据。这意味着,分割位置判定装置304将第一个判定代码数据Code_data[1]的代码数字设定为特征运动代码,而将其代码起始帧号设定为i。
在图11中,判定代码数据包括代码数字1101、代码起始帧号1102和代码结束帧号1103。
当用图10举例时,利用特征运动代码“7”,将第一个判定代码数据Code_data[1]的代码数字设置为“7”,而将第一个判定代码数据Code_data[1]的代码起始帧号设置为i。
判断特征运动代码是否与第(j-1)个判定代码数据Code-data[j-1]一致。如果一致,过程返回步骤S401。
分割位置判定装置304将第(j-1)个判定代码数据Code_data[j-1]的代码结束帧号设为(i-1)。然后,过程进至步骤S411。
判断判定代码1002包括的代码数是否为j或更大。如果是,过程进至步骤S412。
判断判定代码1002的第j个代码是否与特征运动代码一致。如果不一致,过程进至步骤S413。
判断判定代码1002的第j个代码是否在括号中。如果是,则过程进至步骤S414。
判断判定代码1002的第(j+1)个代码是否与特征运动代码一致。如果不一致,则过程进至步骤S415。
将第j个判定代码数据Code_data[j]的代码数字设定为特征运动代码。另外,将第j个判定代码数据Code_data[j]的代码起始帧号设置为i。然后,将j增1。然后,过程返回步骤S401。
分割位置判定装置304根据运动特征1001和分割位置1004(参照图10),求出运动特征中的分割位置。
当适用的运动特征是“点头时的下巴尖”时,相应的分割位置是Y坐标中的最低点。因此,分割位置判定装置304求得相应的帧号。
具体地说,分割位置判定装置304对适用于第1个判定代码数据Code_data[1]的代码起始号和第(j-1)个判定代码数据Code_data[j-1]的代码结束帧号之间的各帧,比较脸区域中的重心Y坐标。然后,将重心Y坐标是最小的帧的帧号(即,脸区域的重心达到最低点)设为运动特征中的分割位置。
注意,当几个帧号适用于Y坐标最低点时,将第一帧号(最小帧号)视为分割位置。
手语手势分割设备输出分割位置。然后,过程返回步骤S401,重复上述过程。
在通过检测眨眼来分割手语手势的方法中,为检测点头而在步骤S403中描述的过程(参见图4)修改如下。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征601(参见图6)对应的图像。
当检测眨眼时,将身体特征601设置为“眼睛”,并且身体特征抽取装置302抽取眼睛,作为被抽取的身体特征。
首先,用类似于步骤S403的方式抽取脸区域。然后,用以下方式,从被抽取的脸区域中抽取眼睛。
在图12中,被抽取的脸区域1201包括由眉毛1202形成的两个洞区域、由眼睛1203形成的两个洞区域,以及由嘴巴1204形成的一个洞区域(阴影区为肤域)。
首先,在脸的上下端之间,在由脸的上下分割比确定的位置处,画该脸的上下分割线。这里,脸的上下分割比是一参数,它被如此设置,使得眼睛1203形成的洞区域位于脸的上下分割线以上的区域内。在本实施例中,将脸的上下分割比设为“1/2”。
当检测到四个洞区域时,判定两个眼睛都睁着,并且位于较低部位的两个洞区域为眼睛。
当用图12举例时,有四个洞区域。因此,位于较低部位的两个洞区域是由眼睛1203形成的洞区域。
然后,身体特征抽取装置302生成眼睛区域信息。具体地说,在第i个眼睛区域信息eye[i]中设置被抽取眼睛的数目及其面积。
在图13中,眼区域信息包括眼睛的数目1301、第1个眼睛的面积1302以及第2个眼睛的面积1303。
身体特征抽取装置302首先将眼睛的数目1301设置为被抽取眼睛的数目,然后用以下方式,根据被将眼睛的数目设置眼睛的面积。
当被抽取眼睛的数目为0时,将第1个眼睛的面积1302和第2个眼睛的面积1303都设为0。
当被抽取眼睛的数目为1时,计算该眼睛的面积(由眼睛1203形成的洞区域),并将该面积设置到第1个眼睛的面积1302中。第2个眼睛的面积设置为0。
当被抽取眼睛的数目为2时,计算各眼睛的面积。将第1个眼睛的面积1302设置为左眼的面积(由左眼1203形成的洞区域),而将第2个眼睛的面积1303设置为右眼的面积。
特征运动跟踪装置303参考第i个眼区域信息eye[i]和第[i-1]个眼区域信息eye[i-1],用等式2求眼睛的特征运动代码。另外,特征运动跟踪装置303参考第i个眼区域信息eye[i]中第1个眼睛的面积s1_eye[i]以及第[i-1]个眼区域信息eye[i-1]中第1个眼睛的面积s1_eye[i-1],求出第i个眼区域中第1个眼睛面积的变化d1_eye[i]。另外,特征运动跟踪装置303参考第i个眼区域信息eye[i]中第2个眼睛的面积s2_eye[i]以及第[i-1]个眼区域信息eye[i-1]中第2个眼睛的面积s2_eye[i-1],求出第i个眼区域中第2个眼睛面积的变化d2_eye[i]。
图14示出了眼睛的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
在图14中,眼睛的特征运动条件包括运动代码1401和条件1402。将运动代码1401设为数字“0”至“6”,并将条件1402设置为对应于运动代码1401各数字的眼睛特征运动条件。
条件1402中的字符α是眼睛面积的阈值,用于判断眼睛是否闭合,例如可设置为“1”。字符β是眼睛大小改变的阈值,用于判断眼睛大小是否改变,例如可设置为“5”。
换句线,并选择与第i个眼区域信息eye[i]、第i个眼区域中第1个眼睛的面积的变化d1_eye[i]及第2个眼睛的面积的变化d2_eye[i]相对应的眼睛特征运动条件。然后,特征运动跟踪装置303从图14的运动代码1401中获得与所选眼睛特征运动条件相对应的数字,然后确定特征运动代码。
例如,当两眼闭合时,条件为s1_eye[i]≤α,s2_eye[i]≤α,此时特征运动代码为0。
分割位置判定装置304根据运动特征1001和分割位置1004(参见图10),求出运动特征中的分割位置。
当适用的运动特征是“眨眼”时,相应于“眨眼”的分割位置是看不见眼区域时的位置。因此,分割位置判定装置304确定相应的帧号。
也就是说,将第2判定代码数据Code_data[2]的代码起始帧号定为分割位置。
在该情况下,就通过检测眨眼来分割手语手势的方法而描述的S403修改如下。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征601(参见图6)对应的图像。
当检测嘴形变化(闭嘴)时,将身体特征设置为“嘴”,然后身体特征抽取装置302抽取嘴巴,作为被抽取的身体特征。
首先,用类似于步骤S403的方式抽取脸区域。其次,用以下方式,从被抽取的脸区域中抽取嘴巴。
在图12中,与步骤S403一样,画脸的上下分割线。然后,检测脸区域中位于脸的上下分割线以下的洞区域。
当检测到两个或多个洞区域时,将这种的洞区域视为嘴巴,该洞区域离开脸较低端的距离最接近于人嘴平均位置与脸的较低端之间的距离条件,所述条件是一个参数。在本实施例中,将条件设置为“10”。
当用图12举例时,在脸的上下分割线以下,只有一个洞区域。所以该洞区域就是嘴巴形成的洞区域1204。
接下来,身体特征抽取装置302生成嘴区域信息。具体地说,将被抽取的嘴的面积及其纵向最大长度设置到第i个嘴区域信息mouth[i]中。
身体特征抽取装置302计算被抽取的嘴的面积,并将计算结果设置在嘴面积1501中。另外,身体特征抽取装置302计算嘴的纵向最大长度,然后将计算得到的长度设置在嘴的纵向最大长度1502中。
在通过检测嘴形变化来分割手语手势的方法中,步骤S405中的过程修改如下。
图16示出了嘴巴的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
在图16中,嘴巴的特征运动条件包括运动代码1601和条件1602。将运动代码1601设为数字“0”和“1”,并将条件1602设置为对应于运动代码1601各数字的嘴巴特征运动条件。
条件1602中的字符γ是嘴面积变化的阈值,用于判断嘴形是否变化,例如在本实施例中,将其设置为“5”。字符λ是嘴的纵向长度变化的阈值,例如可设置为“3”。
具体地说,特征运动跟踪装置303参考图16中的条件1602,然后选择与第i个嘴区域中嘴面积的变化d_mouth[i]以及第第i个嘴区域中嘴长度的纵向最大长度h_mouth[i]相对应的嘴巴特征运动条件。然后,特征运动跟踪装置303从图16的运动代码1601中获得与所选嘴巴特征运动条件相对应的数字,然后确定特征运动代码。
例如,当嘴巴闭合时,条件为s_mouth[i]≤γ,此时的特征运动代码为“0”。
在通过检测嘴形变化来分割手语手势的方法中,步骤S417中的过程修改如下。
分割位置判定装置304根据运动特征1001和分割位置1004(参见图10),求出运动特征中的分割位置。
当适用的运动特征是“改变嘴形”时,相应的分割位置是变化的起点和终点。因此,分割位置判定装置304分别求出相应的帧号。
详细地说,分割位置判定装置304输出第2判定代码数据Code_data[2]的代码起始帧号及其代码结束帧号,作为分割位置。
在该情况下,就通过检测眨眼来分割手语手势的方法而描述的步骤S403中的过程作如下修改。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征601(参见图6)对应的图像。
当检测到手或身体停止运动时,将身体特征601设置为“手区域,身体”,然后身体特征抽取装置302抽取手区域和身体,作为被抽取的身体特征。
首先,用类似于上述步骤S403的方式抽取手区域。也就是说,身体特征抽取装置302从输入图像中抽取肤域,然后从被抽取肤域中取出不重叠在头区域上的部分,并将该部位视作手区域。
当用图7举例时,从肤域中抽取手区域不重叠在头区域上的区域,即手区域703。
其次,身体特征抽取装置302生成手区域信息。具体地说,将第i个手区域信息hand[i]设置为被抽取手区域的重心、面积、横向最大长度和纵向最大长度。然后,将第i个身体信息body[i]设置为被抽取身体的重心、面积、横向最大长度和纵向最大长度。
在图17中,手区域信息包括手的数目1701、第1只手的重心坐标1702、第1只手的面积1703、第2只手的重心坐标1704、以及第2只手的面积1705。
身体特征抽取装置302首先将被抽取手的数目设置到手的数目1701中,然后用以下方式,根据被抽取手的数目,设置手的重心坐标以及手的面积。
当被抽取手的数目1701为“0”时,将第1只手的重心坐标1702和第2只手的重心坐标1704设置为(0,0),并将第1只手的面积1703和第2只手的面积1704设置为0。
当被抽取手的数目1701为“1”时,计算手区域的重心坐标和面积,以便分别将计算结果设置到第1只手的重心坐标1702和第1只手的面积1703中。然后,将第2只手的重心坐标1704设置为(0,0),并将第2只手的面积设置为0。
当被抽取手的数目1701为“2”时,计算左侧手区域的重心坐标和面积,以便分别将计算结果设置为第1只手的重心坐标1702和第1只手的面积1703。另外,计算右侧手区域的重心坐标和面积,以便分别将计算结果设置为第2只手的重心坐标1704和第2只手的面积1705。
与脸区域信息face[i]一样,可以用图8的结构实现身体信息body[i]。
在通过检测手或身体停止运动来分割手语手势的方法中,步骤S405中的过程修改如下。
特征运动跟踪装置303参考第i个手区域信息hand[i]、第[i-1]个手区域信息hand[i-1]、第i个身体信息body[i]和第i-1个身体信息body[i-1],用等式5求手区域和身体的特征运动代码。另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第1只手的重心g1_hand[i]以及第[i-1]个手区域信息hand[i-1]中第1只手的重心g1_hand[i-1],求出第i个手区域中第1只手的移动量m1_hand[i]。另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第2只手的重心g2_hand[i]以及第[i-1]个手区域信息hand[i-1]中第2只手的重心g2_hand[i-1],求出第i个手区域中第2只手的移动量m2_hand[i]。
在图18中,身体和手区域的特征运动条件包括运动代码1801和条件1802。将运动代码1801设为数字“0”和“1”,并将条件1802设置为对应于运动代码1801各数字的身体和手区域特征运动条件。
条件1802中的字符χ是一阈值,用于判断手区域是否停止,例如在本实施例中,将其设置为“5”。字符δ是一阈值,用于判断手区域的形状是否改变,例如可设置为“10”。字符ε是一阈值,用于判断身体是否停止,例如可设为“5”。
具体地说,特征运动跟踪装置303参考图18中的条件1802,然后选择与第i个手区域中第1只手的移动量m1_hand[i]、第i个手区域中第2只手的移动量m2_hand[i]、第i个手区域中第1只手的面积变化d1_hand[i]、第i个手区域中第2只手的面积变化d2_hand[i]、以及第i个身体的移动量m_body[i]。然后,特征运动跟踪装置303从图18的运动代码1801中获得与所选手区域和身体的特征运动条件相对应的数字,然后确定特征运动代码。
例如,当手从左到右移动或反向移动时,第i个手区域中的移动量条件为m_hand[i]>χ,此时的特征运动代码为“1”。
在通过检测手或身体停止运动来分割手语手势的方法中,步骤S417中的过程修改如下。
分割位置判定装置304根据运动特征1001和分割位置1004(参见图10),求出运动特征中的分割位置。
当适用的运动特征是“停止”时,相应的分割位置是动作的起点和终点,因此分割位置判定装置304分别求出相应的帧号。
另一种方法是,分割位置判定装置304求出对应于其间中间点的帧号。在该情况下,首先确定第1判定代码数据Code_data[1]的代码起始帧号及其代码结束帧号,然后,计算其中间值作为分割位置。
在该情况下,就通过检测点头来分割手语手势的方法而描述的S403(参见图4)作如下修改。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征601(参见图6)对应的图像。
为了检测用手敷面的动作,将身体特征设置为“脸区域,手区域”,并且抽取脸区域和手区域,作为被抽取的身体特征。
首先,用类似于步骤S403的方式抽取脸区域,并且用类似于步骤S403c的方式抽取手区域。
接着,将第i个脸区域信息face[i]设置为被抽取脸区域的重心、面积、横向最大长度和纵向最大长度。另外,将第i个手区域信息hand[i]设置为被抽取手区域的重心、面积、横向最大长度和纵向最大长度。
在通过检测用手敷面的动作来分割手语手势的方法中,步骤S405中的过程修改如下。
特征运动跟踪装置303参考第i个手区域信息hand[i]和第i个脸区域信息face[i],用等式8求手区域和脸区域的特征运动代码。另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第1只手的重心g1_hand[i]以及第i个脸区域信息face[i]的重心g_face[i],求出第i个手区域中第1只手与脸之间的距离l1_fh[i]。另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第2只手的重心g2_hand[i]以及第i个脸区域信息face[i]的重心g_face[i-1],求出第i个手区域中第2只手与脸之间的距离l2_fh[i]。
同样,当第i个手区域信息hand[i]中第2只手的面积s2_hand[i]为0时,如果l2_fh[i-1]≤Φ,那么l2_fh[i]=0。如果l2_fh[i-1]>Φ,那么l2_fh[i]=1000。这里,Φ代表手与脸之间距离的阈值,例如在本实施例中,将其设置为“20”。
图19示出了关于用手敷面之动作的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
在图19中,关于用手敷面之动作的特征运动条件包括运动代码1901和条件1902。用数字“0”和“1”设置运动代码1901,并将条件1902设置为对应于运动代码1901各数字的关于用手敷面之动作的特征运动条件。
条件1902中的字符ω是用手区域接触脸区域的一阈值,例如在本实施例中,将其设置为“5”。
具体地说,特征运动跟踪装置303参考图19中的条件1902,然后选择与第i个手区域中第1只手和脸之间的距离l1_fh[i],以及第i个手区域l2_fh[i]中第2只手和脸之间的距离l2_fh[i]相对应的特征运动条件。然后,特征运动跟踪装置303从图19的运动代码1901中获得与所选特征运动条件相对应的数字,然后确定特征运动代码。
例如,当右手复盖在脸上时,第i个手区域中第1只手与脸之间的距离l1_fh[i]将为0,此时的特征运动代码为“0”。
在通过检测用手敷面的动作来分割手语手势的方法中,步骤S417中的过程修改如下。
分割位置判定装置304根据运动特征1001和分割位置1004(参见图10),求出运动特征中的分割位置。
当适用的运动特征是“用手敷面的动作”时,相应的分割位置是“接触的起点和终点”。因此,分割位置判定装置304分别求出与用手敷面动作之起点和终点相应的帧号。
具体地说,将第1判定代码数据Code_data[1]的代码起始帧号及其代码结束帧号视为分割位置。
在该情况下,就通过检测点头来分割手语手势的方式而在步骤S403中描述的过程作如下修改。
身体特征抽取装置302从输入图像中抽取与存储在分割元素存储装置305中的身体特征601(参见图6)对应的图像。
为了检测手之有效性的变化,将身体特征601设置为“手区域”,并且身体特征抽取装置302抽取手区域,作为被抽取的身体特征。
然后,身体特征抽取装置302用被抽取手区域的重心、面积、横向最大长度和纵向最大长度设置第i个手区域信息hand[i]。
在通过检测手之有效性的变化来分割手语手势的方法中,步骤S405中的过程修改如下。
特征运动跟踪装置303参考第i个手区域信息hand[i],用等式5求关于手之有效性和运动的特征运动代码。
另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第1只手的重心g1_hand[i],确定第1只手属于步骤S402(参见图5)中空间分割获得的几个区域中的哪一个区域,求出其区域代码,然后将其设置到第1只手的手区域空间代码sp1_hand[i]中。注意,当第i个手区域信息hand[i]中第1只手的面积s1_hand[i]为0时,将第1只手的手区域空间代码sp1_hand[i]设置为“6”。
另外,特征运动跟踪装置303参考第i个手区域信息hand[i]中第2只手的重心g2_hand[i],求区域代码,以便将其设置到第2只手的手区域空间代码sp2_hand[i]中。当第i个手区域信息hand[i]中第2只手的面积s2_hand[i]为0时,将第2只手的手区域空间代码sp2_hand[i]设置为“6”。
图20示出了关于手之有效性变化的特征运动条件,供特征运动跟踪装置303确定特征运动代码。
在图20中,关于手之有效性变化的特征运动条件包括运动代码2001和条件2002。将运动代码2001设置为数字“0”到“5”,并将条件2002设置为对应于运动代码2001各数字的关于用手敷面之动作的特征运动条件。
条件2002中的字符χ是一阈值,用于判断手区域是否停止,例如在本实施例中,将其设置为“5”。
详细地说,特征运动跟踪装置303参考图20中的条件2002,然后选择与第i个手区域中第1只手的手区域空间代码sp1_hand[i]、第i个手区域中第1只手的移动量m1_hand[i]、第i个手区域中第2只手的手区域空间代码sp2_hand[i]、以及第i个手区域中第2只手的移动量m2_hand[i]相对应的关于用手敷面之动作的特征运动条件。
例如,当右手正在移动,而左手降低到输入图像501的最低位置(参见图5)时,第i个手区域中第1只手的移动量m1_hand[i]的条件是m1_hand[i]>χ,第i个手区域中第2只手的手区域空间代码sp2_hand[i]为7,此时的特征运动代码为“2”。
在通过检测手之有效性变化来分割手语手势的方法中,步骤S417中的过程修改如下。
分割位置判定装置304根据运动特征1001和分割位置1004(参见图10),求出运动特征中的分割位置。
当适用的运动特征是“改变手之有效性的点”时,相应的分割位置是“代码改变点”,由此分割位置判定装置304求出相应相应的帧号。
具体地说,将第1判定代码数据Code_data[1]的代码起始帧号及其代码结束帧号视为分割位置。
在该方法。