面向并购重组类公告的信息抽取

2020-05-22 12:33胜,李胜,朱
计算机工程与设计 2020年5期
关键词:字段标签实体

黄 胜,李 胜,朱 菁

(1.重庆邮电大学 通信与信息工程学院,重庆 400065;2.重庆邮电大学 光通信与网络重点实验室,重庆 400065;3.深圳证券信息有限公司 数据中心,广东 深圳 518000)

0 引 言

并购重组类公告是上市公司进行信息披露的重要组成部分。有效的信息获取可以极大促进市场监管、投融资决策、股市预测以及企业画像等领域的发展。如何精准且高效的实现并购重组类公告信息的结构化,成为金融和证券公司应用服务开发的重要一环。

随着机器学习和深度学习的不断发展,序列标注法成为当前信息抽取任务的主流方法。文献[1]针对生物医学命名实体识别任务提出了PowerBioNE生物命名实体识别系统,采用隐马尔可夫模型(hidden Markov model,HMM)识别生物医学领域实体,获得了较好的实用效果[1];文献[2]提出一种循环条件随机场(recurrent conditional random field, RCRF)模型,该模型将条件随机场的特性有效融于循环神经网络,并在语言理解领域取得了较好的应用[2]。然而传统机器学习模型无法充分利用上下文语义特征信息,不能解决长距离依赖问题。

文献[3]将双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)结合条件随机场(conditional random field,CRF)模型在i2b2/VA开放数据集中获得了0.85的F值,实验结果表明该模型对于电子病历中部分临床实体的识别具有良好的效果[3]。文献[4]将门控循环单元(gated recurrent unity,GRU)与CRF结合用于中文文本序列标注任务中,取得了较好的效果[4]。文献[5]在BiLSTM-CRF模型的基础上引入了注意力机制,通过学习全文“篇章级”信息,使该模型在药物实体识别任务中的F值提高了1.48%[5]。

在上述研究的基础上,本文结合了传统特征规则法以及序列标注法的优势,针对并购重组类公告的特征,提出了一种“篇章级”的信息抽取方案[15]。该方案能有效解决由单一规则法或深度神经网络带来的抽取效果不好等问题,为自由长文本的信息抽取任务提供一种思路。

1 并购重组类公告信息抽取方案设计

并购重组类公告是一种具有一定格式规范的自由长文本,表述形式多样且篇幅较长[6]。同一类型公告对于收购、出售、资产重组等商业行为的描述各有不同,长达500页的公告文本中包含了大量的干扰信息,为传统的信息抽取方案带来了较大的挑战[15]。

针对公告文本特点,借鉴降维思想,提出规则法和序列标注法相结合的联合抽取方案,通过方法级联可以有效提高对并购重组类公告信息抽取的准确率。该方案将整个信息抽取流程拆分为两个部分:①“句子级”抽取,公告文本中包含大量冗余信息,采用规则法,解析文本结构,编写规则以“标题定位内容”的形式从文本中抽取出关键句子集合。将“篇章级”抽取缩小为“句子级”抽取,降低冗余信息的干扰;②“字段级”抽取,采用序列标注法,训练命名实体识别联合模型,从关键句子集合中抽出所需的字段信息,实现“句子级”到“字段级”抽取[15],具体方案流程如图1所示。

图1 公告信息抽取方案

2 基于规则法的文本“句子级”抽取

2.1 规则法抽取方案设计

以领域知识为基础的规则法,对特定领域文本识别的准确率较高[7]。优先选择规则法对金融领域并购重组类公告文本进行篇章级”抽取,可以有效降低自由长文本信息抽取的复杂度。相较于直接使用序列标注法的单一文本信息抽取而言,融合了规则法优势的组合方案更加适用于特定领域的自由长文本信息抽取任务中[15]。

并购重组类公告具有一定的格式规范,文本以标题加内容的形式组成,通常包含“摘要部分”和“正文部分”。通过解析文本结构,抽象出关键字段在文本中描述形式和定位特征,针对性的提出一套规则标签体系用于约束各个字段规则模板的制定,设计规则逻辑运算抽取算法解析定位逻辑[15]。对于公告文本T,解析规则模板,以“标题定位内容”的方式从文本中获取关键句子Sj,通过预处理,最终得到关键字段所属的句子集合Pi

T={P1,P2,…,Pi}

(1)

Pi={S1,S2,…,Sj}

(2)

将Pi定义为新的文本段落,段落集合实现对公告文本T的重构,从而保留文本的“段落级”信息和“篇章级”信息。

2.2 规则标签体系设计

规则标签体系包含了整体定位逻辑,通过复杂的规则逻辑运算组合可以有效提升规则抽取的准确率,是保证“句子级”抽取准确率的关键之一。为了尽可能多的兼容各种自然语言的文本描述形式,设计了以下规则标签体系,见表1。

2.3 规则逻辑运算抽取引擎设计

规则逻辑运算抽取引擎通过解析规则模板,获取定位逻辑,从并购重组类公告文本中抽取所需的“句子级”信息用于进行序列标注,实现文本的“篇章级”抽取缩小为“句子级”抽取[15]。

整个抽取模式分为两种:模式1、“标题定位内容”的抽取形式,这要求从公告文本中剥离出完整的文本目录结构,以“树”的形式呈现,通过制定完善的标题规则获取标题间的层级关系,实现内容部分的精准定位;模式2、全文匹配,采用内容规则对全文进行无差别匹配,对于匹配的结果需要进行相应的过滤和筛选。抽取的基本元素分为:表格、段落和句子,根据不同字段的位置特征,对不同的

表1 规则标签符号说明

元素进行处理,本文主要以段落和句子的处理方式为主[15]。规则逻辑运算抽取引擎设计步骤如下,三层目录结构的设定可以覆盖当前所有抽取字段的定位特征,抽取流程如图2所示:

(1)文本预处理,加载规则,提取文本目录结构树;

(2)抽取模式判断,若为模式1,转到第(3)步,否则获取全文内容并转到第(7)步;

(3)fristLevelTitle是否为空,否则令parentT等于fristLevelTitle,并转到第(4)步,是则返回异常,结束抽取;

(4)在parentT的所有1~3级子标题中匹配,获取 secLevelTitle 并判断是否为空,否则令parentT等于 secLevelTitle,跳转至第(5)步;

(5)在parentT的所有1~3级子标题中匹配,获取thirdLevelTitle并判断是否为空,否则令parentT等于thridLevelTitle,跳转至第(6)步;

(6)以parentT为上限,获取下限标题,划定抽取范围进行第(7)步的抽取;

(7)在划定的内容部分,根据内容规则逻辑的设定抽出表格、段落、句子等基础元素,当返回lastTitle时,默认取该标题下的所有文本,转至第(8)步;

(8)对抽取的句子和段落集合进行筛选,经过处理后用于序列标注。

3 基于序列标注法的文本“字段级”抽取

3.1 BiGRU-Attention模型设计

本文采用双向门控循环单元(bidirectional gated recurrent unity,BiGRU)和注意力机制(Attention)相结合的序列标注模型,BiGRU-Attention模型主要包含:GloVe词向量层、BiGRU神经网络层、Attention层以及CRF层[15],这样的设计具有以下4个优点:①常用的词向量工具有word2vec和GolVe,后者以其对大规模语料的模型训练效率更高,更容易实现并行化,相对更加适用于当前任务[8];②GRU单元相较于常用的LSTM单元拥有更简单的结构,在保证模型识别准确率的同时能提升模型的训练效率;③注意力层的引入使得模型在学习实体上下文语义特征的同时,引入全文“篇章级”信息以及关联实体对之间的相关性特征,有效提高模型预测的准确率;④CRF层通过计算实体标签之间的转移概率,可以获取标签序列之间的相关性进而使模型得到标签预测的全局最优解[9]。

BiGRU-Attention联合模型如图3所示。其中wn为词向量,hn为BiGRU层的隐状态,M为关联实体矩阵,an为Attentio第n层分配的权重,vn为标签预测概率,B或O代表最终预测的实体标签。

图2 规则抽取流程

图3 BiGRU-Attention模型结构[15]

3.2 BiGRU模型结构

3.2.1 GRU

GRU结构相较于LSTM结构进行了简化,仅保留更新门和重置门,二者通过控制历史信息的存储量以及对当前状态的影响程度来提升对当前序列预测的准确性[10]。GRU在保证模型效果的同时,模型结构更简单、参数更少、收敛性更好[11],模型更新方式如下

rt=σ(Wr·[ht-1,xt])

(3)

zt=σ(Wz·[ht-1,xt])

(4)

(5)

(6)

3.2.2 BiGRU

双向神经网络结构可以有效学习文本的上下文语义信息,使得模型对当前时刻的预测可以结合前后时刻的相关信息,提高模型对实体预测的准确性。本文采用两个GRU单元,正向GRU单元用于捕获上文的语义特征,反向GRU单元用于捕获下文的语义特征,通过结合上下文语义信息提升模型预测的准确性[15]。

(7)

(8)

(9)

3.3 Attention机制

通过模拟人脑对注意力的分配机制,Attention模型对不同的信息分配不同的权重,实现对局部关键信息的突出[15]。注意力机制最早应用于图像领域[12],随后在NLP领域的机器翻译[13]、文本分类[14]等任务上取得了优异的表现。当前任务中,实体wi呈现以下特征:①同一个wi与关键字段所属的句子集合Pi呈一对多的关系,例如:字段“交易标的”、“收购方式”抽取的句子集合中会同时包含字段“成交金额”对应的实体信息;②句中包含wi的关联实体对,例:“采用收益法,截止至2019年8月15日,资产评估值为2160.18万元。”中“资产评估值”字段实体:“2160.18万元”和“评估方法”字段实体:“收益法”组成关联实体对。针对以上特征,在常用的BiGRU-CRF序列标注模型基础上,引入了Attention层,融合全文“篇章级”信息及关联实体对的影响,计算当前实体分配的权重概率,从而提升对关键实体标签预测的精准度[15]。

attx=softmax(f(set,elementx,W))

(10)

其中,f(·) 用于计算elementx与set中各个词汇之间的相关性,W为随模型一同训练的参数。

然后利用attx对relation中的信息进行筛选融合,可获得当前词的全文“篇章级”信息chapterx

chapterx=attx·relation

(11)

通过使用哈工大LTP平台的开源语义依存分析模型,可以有效融合与当前词汇具有语义关系的实体信息,获取句子Sx中的关联实体矩阵M, LTP中部分依存关系标注集见表2。关联实体的上下文信息dependxy

dependxy=Mxy·relation (12)

那么融合全文“篇章级”信息和实体对之间语义关联信息后,词汇最终的概率权重ax

ax=tanh(chapterx,∑ydenpendxy)

(13)

4 实验分析

4.1 数据集

实验数据通过自定义爬虫从“巨潮资讯网”上抓取2000篇上市公司并购重组类公告文本,其中训练集为1600篇、验证集和测试集分别为200篇。选取当前较为常用的BIO(begin,inside,outside)书签机制进行标注。在此基础上增加E(end)标签和S(single)标签对包含“交易标的”、“成交金额”在内的12个字段进行语料标注,以方便对标签实体的解析。标注标签及说明见表3。其中S标签表示由单个词组成的实体,O标签表示其它类型的实体,B标签表示目标实体的首个词,I标签为其中间词汇,E标签表示目标实体的最后一个词汇[15]。

表3 标注标签及说明[15]

4.2 实验评价指标

实验采用准确率(Precision,P)、召回率(Recall,R)以及F1值(F1-score,F1)作为评价指标,分别对实验结果进行测评。

4.3 实验设置

实验采用Keras的深度学习框架,底层为TensorFlow,实验选用BP(反向传播算法)来训练BiGRU-Attention联合序列标注模型,采用SGD(随机梯度下降算法)调整样本训练时的权重参数。其中词向量设定为100维,optimizer(优化器)选择“adam”,学习率设置为0.01,Batch_size设置为50,Dropout参数rate设置为0.5。参数经过多次迭代后根据准确率、召回率调整得到。

4.4 实验结果及分析

实验一:实验选取“标题定位内容”的规则抽取方案作为实验方案,选取“全文内容匹配”的规则抽取方案作为对比方案。对包含“重组类型”、“标的行业”等在内的12个字段进行“句子级”抽取。“句子级”抽取结果及对比见表4。

如表4所示,实验方案的抽取效果明显优于对比方案。由于文本表述形式多样,人工制定规则的不够完善,使得实验方案的抽取效果仍然有待提高。

表4 “句子级”抽取结果及对比(均值)[15]

实验二:实验选取基于BiGRU-Attention的序列标注法作为实验方案,选取包含CRF、LSTM、GRU等在内的多个模型为对照组进行实验,来验证当前方案的可靠性。采用实验方案的“字段级”抽取结果见表5。序列标注模型效果对比见表6。

表5 “字段级”抽取结果展示[15]

表6 序列标注模型效果对比(均值)[15]

如表5所示,模型对于关联实体对之间的识别效果较好,其中关联实体对:“交易标的”、成交金额”和“收购方式”的平均F1值达到了0.92;“评估方法”、“评估基准日”、“资产账面值”、“资产评估值”的平均F1值达到了0.94。而“配套融资金额”字段F1值只有0.86,模型识别效果较差,造成改结果主要有两个原因:①“字段级”抽取的准确率依赖于“句子级”抽取,由于人工制定的规则模板不够完善,该字段表述形式的多样性,使得“句子级”抽取效果较差。经后续规则的丰富,可以进一步提升该字段的抽取准确率;②“配套融资金额”字段不具备与之组成关联实体对的字段实体,使得模型对该字段的识别效果不佳[15]。

如表6所示,通过实验数据对照发现,融合了依存关联矩阵的BiGRU-Attention联合模型,可以较好的学习全文“篇章级”信息,并且对于关联实体对之间的识别效果较好。该方案对并购重组类公告文本中的金融实体识别准确率明显高于其它序列标注模型,相较于目前主流的BiLSTM-Attention序列标注模型的F1值提高了约3个百分点[15]。

5 结束语

上市公司并购重组类公告是一种具有一定格式规范的自由长文本,针对公告特点,借鉴降维思想,提出规则法和序列标注法相结合的联合信息抽取方案。采用规则法,设计标签体系,编写规则逻辑运算抽取引擎,将“篇章级”抽取缩小为“句子级”抽取,提出基于BiGRU-Attention的序列标注法,将句子抽取缩小为“字段级”抽取[15]。实验结果表明本方案,具有更好准确率,验证该方案在并购重组类公告以及同类文本的信息抽取任务中具有一定的可行性,目前该方法已在“深圳证券信息有限公司巨潮财经数据库和专业数据终端”中有实际应用。

在未来的工作中,笔者将继续研究对并购重组类公告的信息抽取任务,提出更优的方案以解决对文本实体之间映射关系的抽取,例如:syntaxnet等。

猜你喜欢
字段标签实体
图书馆中文图书编目外包数据质量控制分析
前海自贸区:金融服务实体
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
让衣柜摆脱“杂乱无章”的标签
科学家的标签
CNMARC304字段和314字段责任附注方式解析