基于HNC语义分析模型的文图转换研究

2013-08-04 02:23装甲兵工程学院科研部北京100072
计算机工程与应用 2013年11期
关键词:语块文书语句

1.装甲兵工程学院 科研部,北京 100072

2.中国科学院 声学研究所,北京 100190

1.装甲兵工程学院 科研部,北京 100072

2.中国科学院 声学研究所,北京 100190

1 引言

在信息化技术高速发展的条件下,军事领域的文书自动化分析也在走向深入。军用文书特别是作战文书处理要求能够自动地获取文书中的关键要素信息,并根据这些要素信息之间的语义关系绘制出军事要图,实现文图的自动转换。在传统作战条件下,这要参谋人员人工分析,获取文书要素信息,然后通过费时费力的手工绘制才能实现[1]。计算机技术和语言分析技术的发展使得机器自动分析军事文书并自动绘制出军事要图成为可能。李向阳等利用信息抽取技术给出了一种军用文图自动转换方案,以10篇样本测试信息点抽取的F值为93.43%[2];孙宏纲等引入了自然语言处理的分句分词技术进行了军事文书的自动标图研究,构造了总体结构和算法模型[3];鲍广宇等运用句法分析规则和机器翻译技术实现了一个军事文本标图的原型系统[4];顾晓明等甚至探讨了基于本体的军用文书理解,试图建立军事本体库,方法仍是模式匹配[5]。还有秦晓周等[6]、胡斌等[7]、杨健等[8]、姜文志等[9],都在军事文图的自动转换方面进行了研究,大大推动了自然语言分析技术在军事文书自动分析领域的应用。不过,以上所述引入的自然语言分析技术主要还是停留在词法分析、句法分析层次,有的甚至基于形式语言的编译原理,而随着自然语言语义分析技术的发展,涉及语言深层的语义模型和语义分析技术也可以应用于军事文图转换,可以进一步提高军事作战指挥的自动化水平。

本文通过概念层次网络(HNC)理论[10-12]的自然语言理解模型,实现了军事文书中时间、地点、部队番号等关键要素信息的识别和抽取,对句群文本的语句进行了语义分析,探讨了军事文书的语境单元萃取技术。运用本文提出的技术和方法对实际军事文书语料进行分析之后,获得了预期的准确率,可以为军事要图标绘提供直接的绘图信息。

2 自然语言的语义分析模型

概念是语义表示和语义理解的重要手段,HNC理论认为语言有其在大脑中对应的语言概念空间,语言概念空间是人类语言智能的基础。语言概念空间自下而上可以分为概念基元、句类、语境单元和语境四个层面。第一层面的概念基元是描述各种各样概念的基础,由一个精心设计的延伸关系明确的具有网络联系的概念符号体系构成,这些概念基元符号可以描述自然语言空间的词语所表达的概念,便于计算机的分析和计算。第二层面的句类来源于概念基元,描述了自然语言空间语句的语义类型和语义结构,通过已经实现的句类分析技术[13-14]可以对语句的句类代码、语块和语块内部构成进行分析,得到构成语块的词语概念符号以及句类中语块之间的关系,这些语块和语义关系是军事文书中部队关系和作战关系的基础。第三层面的语境单元对应于自然语言空间的句群,语境单元用领域句类表示式表示,描述了句群的领域(由概念基元定义)、情景框架(参与对象和对象之间的语义关系)和背景(时间、地点等)。第四层面的语境则对应于自然语言框架的篇章,是对短时记忆和长时记忆的描述,主要由叙述对象和内容或论述对象和内容构成。

军事文书具有叙述规范、描述准确、人理解起来无二义性等特点,因此在自然语言理解中有一些方便之处。对于军事文书中的作战文书,经过实际语料分析后可以总结出较为规范的语境单元,例如语境单元“首长决心”可以用表1表示。

表1 语境单元示例(“首长决心”)

在语境单元框架的填充过程中,既需要对句群进行整体性的分析,如获取“过程”的先后次序,也需要分析语句的句类语块构成,如获取构成部队的单位或组织,还需要对特殊的概念或概念基元(如时间、地点等)进行识别和获取。通过对有一个或多个语句构成的句群进行概念基元分析,可以获得描述作战部署的句群文本中的部队番号、时间、地点等概念;通过对句群中的语句进行句类分析,可以获得构成部队的组成单位或组织,作战任务以及任务的方式等信息;通过对句群的整体分析可以获得部队的性质、任务过程等信息。因此,对于较为独立的不依赖于整个句群的时间等概念可以首先处理和获取;对于需要通过语句语义结构和语义关系才能得到的部队编成、任务方式等需要对语句进行句类分析,然后获取相关概念或词语;而对于整体较强的任务过程、部队性质等需要结合概念分析和句类分析,通过句群整体来获得。

3 部队番号识别

军事文书中的部队番号具有其特定的命名方法,而且自成体系。部队番号最基本的命名方法是“[序]+[{数}]+<层级>”,如“第5师”。这里的“第”、数字有时省略,“师”可以替换成“军、旅、团、营、连、排”等。层级前面可以加“步兵、装甲”等军兵种信息,也可以加地区、总称、国别等信息,还可以加一些功能区别词,如“战略、战术、独立”等词语。因此,基本部队番号可以用BNF范式描述如下:

<番号>::=[<国别>|<总称>|<地区>][{<军兵种>}][<序>{<数>}]<层级用字>

<国别>::=<美|日|法|德|英|…>[军]

<总称>::=<解放军|中国人民解放军|自卫队|人民军|国防军|国民革命军|…>

<地区>::=<浦口|河北|…>

<军兵种>::=[功能]<陆军|步兵|野战|机步|摩步|骑兵|炮兵|反坦克|反坦克炮兵|二炮|战略导弹|战术导弹|工兵|舟桥|通信|装甲|坦克|装甲兵|坦克兵|海军陆战队|空降|防空|防化|海军|舰队|战舰|驱逐舰|补给舰|潜艇|航母|航母战斗群|空军|…>

<序数>::=<第><阿拉伯数字>

<数>::=<{阿拉伯数字}>

<层级>::=<兵团|军|方面军|集团军|师|旅|团|营|连|排|班>[[<分工>]<部|队|处|科|室|预备队|组|编组|群|战斗群|攻击群|…>]

<功能>::=<战略|战术|独立|…>

<分工>::=<政治|参谋|作训|科研|后勤|情报|装备…>

基本的部队番号之间可以串联,形成较为复杂的部队番号。例如“装甲第13师炮兵团第3营”,经编码后为“13ZJSPBT3Y”,供要图标绘系统使用。番号串联的特点是按层级从高到低列举,相同的<军兵种>不重复,串联时其前的<总称>等一定相同,肯定不重复。例如“中国人民解放军第一野战军第19兵团第65军”,编码为“1YZJ19BT65J”。基本的部队番号之间也可以并联,并联时同一军兵种通常是最后一个层级单位并联,不同军兵种则可能不同层级并联;并联符号为中文常用的“和”与“、”(顿号),也包括“与”、“并”、“及”。例如“步兵第8团第3连和第6连”,经编码后为“3·6L/8T”;“集团军炮兵旅第1、4、5营”,经编码后为“JTJPBU1•4•5Y”。番号并联时会出现“配属”和“欠缺”情况,通常会出现“配属”、“加强”、“欠”等词语。

在识别部队番号时,首先以层级即“军、师、旅、团、营、连、排、班、队”为激活点,然后向前寻找左边界(包括层级用字、数字、“第”字、军兵种、功能区别词)。如果遇到串联则继续寻找部队番号左边界,如果遇到并联则对顿号“、”等并联标志进行并联处理。最后向后寻找右边界(主要是括号及其中内容),识别“配属”和“欠缺”等情形。部队番号的识别算法可以用图1所示的有限状态机来描述。

图1 番号识别算法图

在军事文书中,会出现番号的指代和省略现象。指代需要对指代字词“该、各、敌、我、友”进行特殊处理(如“该师”、“我师”、“敌旅”),指代的恢复则需要从上下文中寻找。省略与整篇文书相关,一般会在文书标题中指明默认的层级名称,省略的恢复则属于篇章语境的分析理解范畴,有时在文本中也没有给出。

4 时间和地点信息的获取

时间概念有相对时间(如“明天”)和绝对时间之分,也有时间点和时间段之分,时间点如“1945年4月15日3时10分0秒”,时间段如“30分钟”。在军事文书中为保证行文的准确性一般使用绝对时间,对任务的开始时间会进行明确规定,对结束时间根据任务的不同会直接指明、用时间段描述或者不指明。

时间信息无论是时间点的信息还是时间段的信息,在需要精确描述和表达的情况下,其基本特征是“数概念+时间概念”。例如“4月15日3时10分0秒”可以拆分为“4月”、“15日”、“3时”等基本时间单位,每个基本时间单位的特征都是“数字+时间词”。数概念或数字包括阿拉伯数字和中文数字,时间词主要有:年、月、日、时、分、秒,用于描述时间段的特殊时间词主要有:天、小时、分钟。当多个时间单位连续出现时,把它们合并成一个时间信息。

军事文书中重要地点信息的特征在于有坐标,坐标一般是带括号式的二维坐标,如“120高地(xx,xx)”。地点信息的第二个特征是与地名、方向和地域等空间概念一同出现,由于地名不可能都收录到词典当中,因此地点的左边界一般是介词(如“在、于”等)或者句子中的谓语(特征语块),右边界一般是“东、西、南、北、地区、一侧”等词语。

获取地点信息的第一步是判断带括号的标号段是否是地点坐标;第二步是以带括号的地点坐标为中心,向左寻找左边界(以动词和某些介词为准);第三步是以带括号的地点坐标为中心,向右寻找右边界(如果不是方向、地域等则停止)。

有的地点信息在军事文书中第一次出现时带有括号式坐标信息,再往后出现时则不带坐标信息。对这类地点信息可用动态记忆的已识别地点库来识别不带坐标的地点信息,即把已经识别的地点存储到一个数据表中,该数据表处理完一个句子后自动更新。当识别下一个新的句子时,前面识别过的句子中的地点信息可以作为已知地点获取。

5 语句的语义分析

HNC理论认为,语句的理解或者语义分析就是正确得到语句的句类代码,这里的“句类代码”包括语句的格式、语义类别和语块构成。下面就举一些例子进行说明:

例1主力向赞皇县进攻。

分词结果:主力 向 赞 皇 县 进攻

句类代码:!111XT2b*20J=TA+TB2+XT2b

语块认定:TA:主力;TB2:<向> 赞皇县;XT2b:进攻

在例1中,“赞”和“进攻”在词语知识库中都有句类代码,但是在分词之后和句类假设之前,进行了时间地点信息的处理,“赞皇县”被识别为地名,“赞”字因地名识别而失去动词资格,全句只剩一个动词“进攻”。“进攻”的句类代码为“XT2b*20J”,按照语句基本格式为“TA+XT2b+ TB2”,即“主力+进攻+赞皇县”。在例1中,语句采用了规范格式!111,前有语块标志符“向”(l02*TB2),使得动词“进攻”落在句尾,最终认定语句的句类代码为!111XT2b*20J。

例2歼灭迂回突入我纵深和在我纵深空降之敌。

分词结果:歼灭 迂回 突入 我 纵深 和 在 我 纵深空降之敌

句类代码:!31XY10*21J=XY10+YC

语块认定:XY10:歼灭 YC:{迂回|突入我纵深和在我纵深空降之敌}

句蜕分析:!31T2bJ=T2b+TB2

句蜕内的语块认定:T2b:迂回 TB2:突入我纵深和在我纵深空降之敌

在例2中,出现了由多个动词组合而成的“歼灭迂回突入”动词团块,其后虽然还有动词“空降”,但“空降”后面的“之”字排除了它作为动词的可能。句类分析程序能正确选出“歼灭”为Eg,“迂回”为 El,但实际上“突入”与“迂回”是并列作为El。此外,对l类概念的“之、和、在、我、敌”句类分析程序未能充分理解和利用,TB2优先空间概念“纵深”这一句类知识也未体现于假设检验中,导致句类分析的部分结果仍不如人意。

句类分析程序需要词语知识库和句类知识库的支持,词语知识库给出了动词的句类代码候选,而句类知识库给出了句类代码的语块以及语块的优先概念等知识。多动词的处理是句类分析的头号难点,需要在句类分析的各个阶段进行加强和处理。

6 语境单元萃取

语境单元萃取的核心任务是填充情景框架,填充情景框架的前提是获得句群文本的领域,在领域句类表示式的指导下对情景框架进行填充,在填充的过程中需要用到前面提到的部队番号信息、时间地点信息和语句的句类分析结果。

军用文书描述的内容必然限定于军事活动这一大领域,从军事活动的作用效应链(作用、过程、转移、效应、关系、状态)来看,主要有指挥、作战、部署、训练、保障、行军、作战各方等等。具体到某一个语境单元如“作战部署”时,可以给出如表1所示的情景框架。在已经知道一个句群文本领域(参见文献[15-16])的情况下,语境单元萃取的过程就是通过句群文本的信息获取和语句的句类分析,获得情景框架中需要填充的正确概念或要素。例如下面的句群文本,其领域为“首长决心”。

例3集团军首长||决心||[#集中主要兵力兵器~||~在2号高地(XX、XX)西侧至154高地(XX、XX)东侧500米地段~||实施主要突破,+向3号高地(XX、XX)、行乐村(XX、XX)、南清河(XX、XX)方向||实施主要突击。+采取中间突破,两翼迂回,纵深打击,分割围歼的战术手段,~||首先歼灭||竹山(XX、XX)北侧、梅家庄(XX、XX)北侧、尹家庄(XX、XX)南侧地域之敌,+尔后歼灭||位昌(XX、XX)、北回车(XX、XX)、北清河(XX、XX)地域之敌,+再向赞皇县城(XX、XX)、徐乐村(XX、XX)、李家庄(XX、XX)方向||发展进攻。#]

在例3中,该句群有两个句号形成的“大句”,第一个大句中“决心”之后有逗号分隔形成的两个小句。第二个大句中,前三个逗号是辅块中表示要素并联的标志,最后的两个逗号把大句分割为三个小句。例3中用语言空间的标注符号标注了语句之间的关系,语块的类型和边界。

通过对例3的自动识别,得到的部队番号为“集团军”,由于其前后没有明确表示“敌、友”的信息,所以部队性质为“我”方;获取的地点信息是“2号高地…地段”、“3号高地…方向”、“竹山…地域”、“位昌…地域”、“赞皇县城…方向”,没有获取到时间信息;句类分析后获得的方式辅块为“集中主要兵力兵器”、“采取…的手段”,获得的句类代码有“突破”、“突击”、“歼灭”、“进攻”;再通过分析句间连接词获得顺序过程为“先”、“尔后”和“再”。因此,根据表1的框架填充该句群的情景框架如表2所示。

由此可见,首先要获得句群文本的领域,根据句群领域获得其领域句类表示式及其确定的情景框架;然后对句群文本进行句类分析和要素识别抽取,根据句类分析的结果和情景框架的要求进行填充。一般而言,时间、地点、方式、手段等辅块属于句群的背景信息,而句类中的广义对象语块属于情景框架中的要素各方,句类中的特征语块表示要执行的动作或者要素各方的关联关系。

在语句单元情景框架的填充过程中,由于可能从句群中获得多个要素,例如获得多个时间或者多个地点,此时如何取舍以及如何精炼信息是需要进一步研究的问题。对于要素各方,同样有多个要素如何取舍以及如何合并的问题,不能把所有的对象或要素都填充到框架中。

表2 句群情景框架(“作战部署”)

7 实验

依据本文提出的军事文本中句群的语义框架分析模型,以及获取部队番号、时间地点等信息的算法,运用HNC的句类分析技术,实现了一个用于军事文书到要图标绘的一个文本自动分析和标图要素获取的系统,如图2所示。

图2 基于语义分析的文图转换系统模块图

通过实际语料对本系统的测试结果表明,系统经初步测试,单纯由坐标激活的地点信息识别准确率达95.9%,召回率则为81.3%。经过调试、改进,准确率超过99.18%,召回率也能提升到98%。最重要的改进是:军事文书中的地名也不是全部标上坐标,因为上文地名已有坐标而常常不再重复,因此由坐标激活的地名识别结果形成一个动态地名库,视同已经带坐标,用于下文的地名识别。如此安排不至于提高了召回率而准确率大降,而且也引进了小小的动态记忆能力。另外,通用地名库中的地名如“河北省”、“石家庄”、“井陉县”等可能组合到机构名中(如“河北省独立第2师”),不宜直接作为地名识别。时间点信息的获取准确率达到100%,番号识别的准确率为88.42%。对于句类分析后的语块获取以及综合形成的句群文本的情景框架填充,因为需要大量的人工标注和句群划分、领域标注和情景框架填写等手工劳动,所以没有给出具体的统计数据。从一些个别具体的语境单元填充来看,具有较高的准确率可以提供要图标绘需要的信息。

8 结语

本文采用HNC理论提出的句群的语境单元语义模型,建立了获取要图标绘信息的模型和系统。提出了军事文书中部队番号的识别算法,根据军事文书时间地点信息的特殊表达方法,给出了时间地点信息的获取方法,实验表明具有99%以上的准确率。运用语句的句类分析技术可以获得语句中的特征语块、广义对象语块和方式途径等辅语块信息,这些信息经过分析整合后填充到句群的情景框架中,作为情景框架的要素可以转换为要图标绘所需要的颜色、符号和箭头等信息。

HNC理论构造了一个庞大的语言本体,类似于SUMO(Suggested Upper Merged Ontology),但远远超越了词语和概念层次,涉及句类、语境单元和文本记忆;采用的假设-检验方法,类似于模式匹配。而已有文献中的军事本体构造则属于SUMO统辖下的领域本体库,未形成统一的处理方法。

总而言之,军事文书的特点保证了语言表达的准确性和无二义性,为实现自动的文本语义分析和信息自动获取提供了一定的便利条件。通过对军事文书中句群的语义分析,可以获取其中的要素信息和语义关系,这些要素信息和语义关系被统一到句群的情景框架中,再经过情景框架要素到要图标绘信息的直接简单转换就可以实现军事文书的文图自动转换。虽然实验系统取得了较高的识别准确率和召回率,但是在实际语料的处理中还是遇到了如地名与番号混合、语句语义结构分析错误和句群领域情景框架知识规模较少等难题,这也是今后进一步研究的方向。

[1]夏仕保.实用要图标绘指南[M].北京:军事科学出版社,2004.

[2]李向阳,张亚非.一种军用文图自动转换方案[J].情报指挥控制系统与仿真技术,2004,26(5):14-18.

[3]孙宏纲,姚景顺,闫国玉.基于自然语言理解的军事自动标图系统[J].火力与指挥控制,2005,30(增刊):25-27.

[4]鲍广宇,杨飞,刘晓明.军事文本标图系统的设计与原型实现[J].解放军理工大学学报:自然科学版,2003,4(3):31-34.

[5]顾晓明,翟玉庆.一种基于本体的军用文书的理解系统设计[J].现代计算机,2006(3):69-72.

[6]秦晓周,杨天梁,刘增良.图文互生转换的实现方法[J].计算机仿真,2003,20(10):17-20.

[7]胡斌,汤伟,刘晓明.基于自然语言理解的文本标图系统设计与实现[J].解放军理工大学学报:自然科学版,2005,6(2):132-136.

[8]杨健,高文逸,王衍波.一种作战文书军事标图自动化方法[J].解放军理工大学学报:自然科学版,2006,7(6):543-547.

[9]姜文志,王迪,范洪达,等.作战指令自动生成的关键模块设计[J].指挥控制与仿真,2007,29(6):28-30.

[10]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,1998.

[11]黄曾阳.语言概念空间的基本定理和数学物理表示式[M].北京:海洋出版社,2004.

[12]苗传江.HNC理论导论[M].北京:清华大学出版社,2005.

[13]晋耀红.HNC语言理解技术及其应用[M].北京:科学出版社,2006.

[14]李颖,王侃,池毓焕.面向汉英机器翻译的语义块构成变换[M].北京:科学出版社,2009.

[15]吴晨,张全,贾宁.一种基于概念的信息检索方法[J].东南大学学报:英文版,2006,22(3):324-329.

[16]韦向峰,缪建明,张全.汉语句群领域的自动抽取研究[J].计算机工程与应用,2009,45(4):11-15.

基于HNC语义分析模型的文图转换研究

李 颖1,池毓焕2

LI Ying1,CHI Yuhuan2

1.Department of Science Research,Academy of Armored Force Engineering,Beijing 100072,China
2.Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China

Transformation from military document into corresponding map can usually involve non-trivial manual work while automatic document-map transformation system may significantly contribute to the automation of military commanding.Based on the HNC theory and its semantic model,the paper proposes and implements a system that can automatically accomplish such a transformation.By automatically retrieving the name of a troop,temporal and spatial information,together with the result of analysis of sentence category,the proposed approach can fill the contextual framework of a sentence group,whose information can then be easily transferred into map information.Extensive experiments of real military document illustrate that the proposed method can reach a higher rate of precision and recall and hence provide a reliable approach for automatic document-map transformation.

semantic analysis;analysis of sentence category;military document;map depicting;document-map transferring

军事文书转换为要图通常需要耗时费力的人工工作,文图的自动转换将大大促进军事指挥的自动化水平。基于HNC理论及其语义模型提出并实现了一个文图自动转换系统,通过对军事文书中部队番号的自动识别、时间地点要素的自动获取,以及语句的句类分析可以获得句群文本的语义情景框架,根据情景框架中的要素可以直接转换为要图标绘所需的信息。实验表明军事文书的文本自动分析系统具有较高的准确率和召回率,为实现军事文书的文图自动转换提供了一种可靠方法。

语义分析;句类分析;军事文书;要图标绘;文图转换

A

TP391

10.3778/j.issn.1002-8331.1212-0049

LI Ying,CHI Yuhuan.Research on text-map transferring based on HNC semantic model.Computer Engineering and Applications,2013,49(11):135-139.

装甲兵工程学院创新基金重点项目(No.2011CJ072)。

李颖(1964—),男,博士,副教授,研究领域为自然语言理解处理、人工智能等;池毓焕(1967—),男,博士,助理研究员,研究领域为自然语言理解处理、机器翻译等。E-mail:lypublic@hotmail.com

2012-12-05

2013-04-12

1002-8331(2013)11-0135-05

猜你喜欢
语块文书语句
太行山文书精品选(17)
重点:语句衔接
监狱执法文书规范探讨
黑水城出土《宋西北边境军政文书》中“砲”类文书再讨论
英语语块在汉英翻译中的积极作用
如何搞定语句衔接题
从语块类型看英语专业大学生语块获取能力与听力理解能力的相关性研究
语块的性质及汉语语块系统的层级关系
关于回鹘文书中几个词的探讨
诠释学视域中的语块研究