基于多通道界面的控制中心大屏幕人机界面模型

2011-04-03 02:51朱全胜朱作欣李卫东

电网与清洁能源 2011年6期

朱全胜，朱作欣，李卫东

（1.河南电力试验研究院，河南郑州450052;2.大连理工大学电气工程学院，辽宁大连116024）

大屏幕显示系统已在电力系统各级控制中心被广泛使用，控制中心日渐趋于大屏幕显示系统和控制台共存的局面。控制台仍由多个小屏幕组成的多屏显示系统构成，由特定的调度员进行控制，而大屏幕则固定在控制中心较为显著的位置，方便所有调度员使用。

目前并没有为电力系统控制中心的大屏幕设计专门的人机界面，在系统开发时沿用了小屏幕的人机界面输入和输出模式。然而大屏幕有着和小屏幕截然不同的显示特点，在输出和输入两端都不宜简单照搬小屏幕的设计方式。在输出端，目前的小屏幕仍以文字和数字显示为主，而使用大屏幕显示大量的文字或者数字并不能充分发挥大屏幕的特点。大屏幕应充分结合可视化技术并利用全系统模型显示广域系统信息。而在输入端，小屏幕中普遍使用的鼠标和键盘输入方式并不适用于大屏幕[1]，有必要寻找并设计新的输入方式。

综上，有必要针对大屏幕的特点，单独开发适用于大屏幕的人机界面。

多通道界面是一种新型的人机界面，其在大屏幕显示系统中的应用前景被普遍看好，在很多应用领域都已有基于多通道界面的大屏幕人机界面的实例或模型[2-3]。本文将以多通道界面为基础，构建一个适用于电力系统控制中心的大屏幕人机界面模型。

1 多通道界面简介

计算机人机界面随着计算机软硬件技术的发展而进步，至今已经历了命令行界面和图形用户界面两个阶段。

命令行界面需要用户进行大量的训练去掌握命令，操作过程容易出错。图形用户界面虽然较之命令行界面降低了用户的认知负荷，但其界面缺少灵活性以及效率性，占用较多的屏幕空间，且难以支持非空间性的抽象信息的交互[4]。此外，两种传统的人机界面在输入上以串行性和精确性为特征，使得在很多场合下不必要地增加了用户的工作负荷，降低了交互性，且破坏了交互的自然性[5]。

为克服上述问题，一个打破传统的全新界面——多通道界面应运而生[6]。多通道界面允许用户通过语音、手势、视线等感觉通道、效应通道直接和计算机进行交互，从而达到人机交互的平衡通讯，并扩大用户的输入带宽，改进输入效率和交互自然性。

1.1 多通道界面输入技术

由于多媒体输出技术已较为成熟，多通道界面的相关研究主要集中在输入端。常用的单一输入技术如下。

1）语音识别技术。语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术[7-8]。语音识别技术的研究始于20世纪50年代，至今，大词汇量识别、连续语音识别、多人识别等关键技术已有了很大突破。在某些环境下已经可以将其实用化。

2）手势识别技术。手势是人们传达以及获取信息的一个重要途径[9]。然而在以往的人机界面中，双手的功能仅限于操作键盘、鼠标等交互工具，进而间接地和计算机交互。手势识别则是为了实现用户和计算机进行直接的手势交互。

3）视线跟踪技术。视线跟踪技术的目的在于取代鼠标的选择与点击功能。计算机追踪用户在操作时视线的移动[10]，如果在某一定点的停留时间超过限定值，计算机便会在该位置执行点击命令。与目前常用界面相比，基于视线跟踪的界面有潜力提供更快和更便捷的操作[11]。

1.2 多通道的整合案例

与图形用户界面的串行输入以及精确输入相比较，多通道界面允许用户利用多个通道进行并行输入，多个通道并行输入通常会比单一的通道更加高效、自然。这种多个通道相互协作的方式被称作多通道整合。

目前比较流行的整合方式有：语音+手势[12]，语音+视线跟踪[13]，语音+笔输入[14]。在各类模型和实例中，语音+手势的整合方式受到更多的关注。

2 多通道界面在大屏幕中的应用

多通道界面的应用范围甚广，既适用于PDA、手机等移动设备，也适用于普通的PC机，而大屏幕显示系统也是其主要的应用领域之一。其应用的第一个雏形正是基于大屏幕显示系统所作[12]。

文献[2]构建了一个城市危机管理系统的大屏幕交互系统，该系统采用地理信息图的方式在大屏幕中显示相关的信息，负责危机管理的调度员站立在大屏幕前通过手势以及自然语言与系统进行交互。文献[3]则设想了多个调度员同时和计算机进行自然的语言、手势交互的情形。采用该人机交互系统，调度员无需一直端坐在固定位置，亦无需使用鼠标艰难地操作大屏幕，或间接地在小屏幕中对大屏幕进行操控。

本文将依照电力系统的特点，以未来EMS发展目标——“用人类最容易认识的方式重建后的电力系统，实现可视化表达，动用人类各种感官，实现人和计算机的全面沟通”[15]为指导，基于多通道界面构建一个全新的大屏幕人机界面模型。该系统输入端以语音为主，手势为辅；在输出端以可视化为主，语音合成为辅。

3 多通道信息采集模块

该模块负采集有效的输入信号。依据预使用通道，分为语音信息采集和手势信息采集两部分。

3.1 语音信息采集

负责采集语音信息的麦克风有以下3种最常见的类型：

1）头戴式。麦克风距离用户非常近，采集效果很好，即使在噪音比较大的环境中也可以较好的采集信息。

2）桌上式。麦克风放置于桌上，使用时用户面对麦克风所处方向，并需保持在较近的距离之内，使用较不方便。

3）阵列式。由若干个麦克风组合而成，通常悬挂于天花板上，适合在噪音较小的环境中使用，用户在使用时较为自如。

考虑到控制中心噪音很小，同时为提高调度员操作大屏幕的自由度，阵列式麦克风是最佳选择。

3.2 手势信息采集

手势识别分为硬件识别和基于计算机视觉识别两种方式。

采用硬件识别技术，用户需配戴特殊的数据手套，输入信息通过数据手套的传感装置传达给计算机；基于计算机视觉识别技术则是通过摄像头配合特定的识别技术来进行信息采集，用户无需配戴任何设备。从使用的便利性考虑，基于计算机视觉更适合于控制中心的大屏幕人机交互。

基于计算机视觉识别技术需配备摄像头作为采集设备——用于定位、捕捉、跟随调度员头部以及手势的位置和动作。共需安装3个具有自动跟随功能的摄像头（其中一个专门负责定位、追踪调度员的头部，另外2个负责定位、追踪调度员的双手）。摄像头定位和追踪原理可利用人体肤色的特殊性，从而判断并追踪手部以及头部的位置。

4 多通道信息识别以及整合模块

采集完输入信息后，交由各通道的识别模块进行分析、识别，再通过整合算法将这些指令根据彼此之间的联系整合在一起，成为最终被电脑所接收的命令信号。

4.1 语音识别

一个完整的语音识别系统大致分为语音特征提取、声学模型与模式匹配（识别算法）、语言模型与语言处理等3个部分。而在计算机人机界面实现语音输入功能无需由设计人员重建上述识别系统，只需在软件系统中嵌入语音识别引擎，做二次开发即可。以微软的语音应用开发工具包（Speech SDK）为例，内置的语音识别引擎提供命令和控制（Command and Control）以及口述（Dictate）2种语音输入类型。命令和控制类型用于为计算机增加语音命令功能，输入精度很高；口述类型则提供文字、数字录入功能，用来取代键盘，但输入精度一般。多数情况下，大屏幕的人机交互系统只需要用语音对界面进行操作，即只需要命令和控制功能即可，因此，可以保证很高的语音识别精度。

目前为止，语音技术（包括语音识别和语音合成技术）在控制中心的应用前景已经得到了认可[16]。文献[17]对语音识别在EMS中的应用进行了探索，充分验证了语音识别在控制中心的可用性及高效性。

4.2 手势识别

手势有多种使用方式，在使用手势识别技术之前，有必要对手势在人机交互的具体功能有个明确的定位。

常用的手势可分为2类：自发的手势（Autonomous Gestures）和与语音紧密联系的手势（Gesticulation），此类手势是多通道界面中使用的手势[18]。与语音紧密联系的手势可进一步分成3类：直指式（Deictic Gestures），形象式（Iconic Gestures），隐喻以及节拍式（Metaphoric and Beat Gestures）[19]。经过试验和观察得出，后两种手势在人机交互系统中的应用很少，绝大多数多通道界面应用的是直指式的手势[19]。

在本文的研究中，手势的目的是协助语音进行输入。依照电力系统的监控特点，通常以大屏幕显示的地理图形或者电气图形进行操作，而语音识别在空间定位上有明显的使用缺陷[17]，手势识别便被用来协助语音识别进行空间定位。相对于其他类型的手势，直指式手势的识别要相对简单，只需通过所指方向结合大屏幕的显示信息判断其所指的具体对象。

动态的手势过程可被看作是基于时间-空间的随机过程，绝大多数的手势被建模为参数空间里的一条轨迹[9]。目前应用最为广泛的方法为隐马尔可夫模型（HMM）以及神经网络（NNs），最常用和最成功的识别方法基本上都是基于隐马尔可夫模型的。隐马尔可夫模型是一个双重的随机过程，其中之一是基本的随机过程（被称之为马尔科夫链），它描述状态的转移；另一个随机过程描述状态和观察值之间的统计对应关系。

4.3 多通道整合

如4.1所述，在输入过程中，语音是占据主导地位的，对命令的输入起到主要作用，特别适用于非图形命令和任务的控制。而手势更多是在语音很难表达的情况下加以辅助，特别是涉及到视觉/空间输入时，语音和手势与简单的上下文识别结合会产生更大的功效。当语音、手势结合使用时即需要多通道整合算法进行处理。

文献[5]提出了一种面向任务的多通道结构模型，并给出了相对应原形系统的整合算法。依据该算法，控制中心大屏幕人机界面所对应的输入消息内容如下。

消息类型：T为任务消息，O为对象消息，P为位置消息，U为未确定消息。

任务消息内容：显示（Display）、放大（Zoom in）、缩小（Zoom out）、断开（Open）等。

对象消息内容：为各类操作对象，包括实体以及物理参数。实体如厂站（Plant）、母线（Bus）、控制区域（Control area）等；物理参数如电压幅值（Voltage amplitude）、电压相角（Voltage phase）等。实体和物理参数对象通常可以相互组合，如组合为母线A的电压相角（Bus A，Voltage phase）。

位置消息内容：手势所指向的点、线、面，通常以二维坐标x、y来表示。

未确定消息内容：位置消息P（这里，那里），对象消息O（这个变电站，那条线路等）。

假设调度员在使用中发出以下指令：放大这个（同时用手势圈处）区域的系统潮流。“放大”为任务消息，“这个区域”为未知的对象信息，“系统潮流”为对象参数。

5 图形和语音信息反馈模块

该模块负责处理计算机执行命令后产生的数据信息，并将它们转换成图形、图像、语音等便于调度员识别的具体形式表现出来。

5.1 图形输出

由于大屏幕和EMS相连，因此它可以显示任何EMS所提供的系统信息，其所能显示的信息量是模拟盘所不能及的。目前控制中心的大屏幕在显示上与小屏幕基本保持一致，甚至是直接拷贝某些小屏幕的显示内容。然而在大屏幕中过多的显示文字、数字类型的信息不会对调度员产生太大的帮助，因此不能简单地拷贝小屏幕的显示内容。

电力系统可视化技术的发展迅速，色彩等高线、3-D可视化[18]等实用技术都已经得到实现，但在小屏幕中，由于屏幕尺寸的限制，某些可视化技术并不能在小屏幕中很好的实行。例如在使用GIS相关的可视化时，由于系统线路过多，在小屏幕中显示全部的线路显得过于拥挤，不利于调度员进行观察，通常只能显示一部分线路，即所谓的局部模型的可视化，而大屏幕却可以轻易地以全系统模型的可视化方式予以显示[1]。全系统模型显示方式所展现的信息量要远远大于局部模型的可视化，有利于显示大面积区域的信息，以及便于对系统进行全面的监控。因此在可视化技术的选择上大屏幕应该偏重于全系统模型的可视化方式。

大屏幕的视觉输出可以是一个屏幕只显示一个完整的图例，屏幕也可以分成若干个区域，以并行多窗口（并不互相重叠）的方式显示多个图例。具体使用何种方式要根据调度员的实际需要决定。

5.2 语音输出

语音合成技术（Text-To-Speech，简称TTS）又称文语转换，是指计算机把文本或其他形式的信息以语音的方式输出。

较之语音识别技术，语音合成技术更为成熟。到目前为止，合成的语音输出清晰度和可懂度很高，但是自然程度和流畅程度不够，与自然语言有较大的差距。尽管如此，但不会影响此项技术在EMS中的应用。

利用语音合成技术，可以将计算机需要展现的信息以语音形式输出。与图形输出相比，语音输出的带宽有限，但对于一些容量较小的信息而言，听觉输出能够被很快地被接收到，并且可以和视觉并行输出。

大屏幕的语音输出主要有以下作用：

1）当调度员用多通道进行输入时，输入信息有可能因为自身的错误、信息量不完整或未能整合等原因不能被计算机识别，计算机用语音形式将交互的具体情形告知调度员，从而引导调度员作正确的输入；

2）当系统出现严重事故时，将系统的简要情况以语音形式向调度员汇报；

3）与调度员进行语音对话，通过语音回答调度员一些简单的问题。

6 结语

本文在多通道界面的基础上，构造一个新型的大屏幕人机界面的模型。该系统的输入端使用语音识别+手势识别的多通道组合输入技术，调度员可以在不佩戴任何设备的情况下，使用最自然的交流手段对计算机进行操作；输出端以全系统模型的可视化和语音合成技术为主，尽量以最直观和便于理解的方式展现系统的运行状态。

[1] LAUFENBERG M J.Integration of Large-Scale Visualization Systems into a Control Center：Proceedings of IEEE Power Engineering Society General Meeting,San Francisco,USA,June 12-16,2005[C].California:IEEE,2005.

[2] SHARMAR,YEASINM,KRAHNST觟VERN,etal.Speech gesture Driven Multi modal Interfaces for Crisis M anagemen[J].Special I ssue on Multimodal Human-Computer Inte3rface,IEEE,2003,91(9):1327-1354.

[3] RAUSCHERT I,AGRAWAL P,FUHRMANN S,et al.Designing a Human-Centered Multi modal GIS Inter face to Support Emergency Management：Proceedings of 10th ACM international Symposium Advances in Geographic Information Systems,McLean,USA,November 9-10,

[4] 马卫娟，方志刚.人机交互风格及其发展趋势[J].航空计算技术，1999，29（3）：16-20.

[5] 李茂贞，戴国忠，董士海.多通道界面软件结构模型及整合算法[J].计算机学报，1998，21（2）：111-118.

[6] 董士海,陈敏,罗军,等.多通道用户界面的模型、方法及实例[J].北京大学学报：自然科学版,1998,34(2-3):231-239.

[7] 刘加,刘润生.语音识别技术及应用(上)[J].世界电子元器件,2001(11):21-23.

[8] 刘加,刘润生.语音识别技术及应用(下)[J].世界电子元器件,2001(12):23-24.

[9] 李清水,方志刚,沈模卫,等.手势识别技术及其在人机交互中的应用[J].人类工效学,2002,8(10):27-33.

[10] 方志刚.人机交互中的视线跟踪技术 [J].人类工效学,2000,6(1):42-45.

[11] JACOBRJK.What You Look atis What Youget:Eye Movement-based Interaction Techniques:Proceedings of ACMCHI′90 Human Factors in Computing Systems Conference,Washington,USA,April 2-7,1990[C].Seattle:ACM,1990.

[12] BOLT R.Put That There:Voice and Gesture at the Graphic Interface[J].Computer Graphics,1990,14(3):262-270.

[13] ZHANG Q,IMAMIYA A,MAO X,et al.A Gaze and Speech Multi modal Interface:Proceedings of the 24th International Conference on Distributed Computing Systems Workshops,Tokyo,Japan,June1-4,2004[C].Hachioji:IEEE,2004.

[14] OVIATT S.Multi modal Interfaces for Dynamic Interactive maps:Proceedings of CHI'96 Human Factors in Computing.Systems,New York,USA,November 1-5,1996[C].NY:ACM,1996.

[15] 张伯明.现代能量控制中心概念的扩展与前景展望[J].电力系统自动化,2003,27(15):1-6.

[16] HUBER K.Does Speech Technology Have a Place in the Control Room:Proceeding of PES General Meeting,San Francisco,USA,June 12-17,2005[C].CA:IEEE,2005.

[17] 朱全胜,刘娆,李卫东.语音识别技术应用于EMS人机交互初探[J].电力系统自动化,2008,32(13):45-48.

[18] OVERBYE T J,WEBER J D.Visualizing the Electric Grid[J].Spectrum,IEEE,2001,38(2):52-58.