浅析现代汉语法律语料库的建立及其词汇计量

2020-11-20 09:06李小亚
法制与社会 2020年31期
关键词:提取统计语料库

摘 要 法律语言学在我国出现的时间才三十多年,其注重书面语的研究,与国外法律语言学的研究相比,所研究的内容范围较窄,所使用的研究方法也比较陈旧。建立法律语料库,有利于推进法律语言学的研究。本文将首先分析法律语料库建立的原则与步骤,简要介绍法律语料库分词与词性的标注方法、法律语料库的词频统计与词表比较、法律语域基本词汇的分类分析、法律语域管用表达式的提取。

关键词 法律语言 语料库 词汇 统计 提取

基金项目:广西民族大学相思湖学院2019年度院级科研立项项目、项目编号2019YJKY25 。

作者简介:李小亚,广西民族大学相思湖学院,讲师,研究方向:语言学、应用文写作、秘书学。

中图分类号:H136 文献标识码:A DOI:10.19387/j.cnki.1009-0592.2020.11.078

一、法律语料库的建立

(一)法律语料库的定位

法律语言学研究的对象主要包括:口音识别、录音文本的生成、录音鉴定,对著作权、版权、书信等的鉴别;商标侵权、庭审语言、法庭翻译等等。这个庞大的系统中不仅有法律文书等书面语,还有询问、庭审等口语资料[1]。法律语言库并不是要研究语言发展的历史,而是要关注语言在当下社会环境中的现实意义。所以,法律语言库的定位是静态语料库。

(二)法律语料库的建立原则

1.代表性。法律语料库的建立必须要具有代表性,且具有真实性。在大数据时代,建立一个含有上亿词次的语料库已经是一件轻而易举的事。但是法律语料库的建立并不需要越多越好的语料,只需要一些具有代表性的法律语言[2]。语料还必须保证真实性,首先,必须要按照书面语的要求体现语料,使用随机抽取的方式选取语料。

2.平衡性。在建立语料库时,要注意文本之间的比例和文本的时间。在语料库中,法律法规和司法语言需各站50%。语料库中的文本必须是符合时代特性的法律语言,能够真实反映当前法律语言使用的环境[3]。

(三)法律语料库的建立步骤

1.确定体例。在建立法律语料库时,要清楚地了解法律的内部体系。

2.收集语料。在第一阶段确定的体例基础上,搜集大量的语料。

3.整理语料。将符合要求的文本提取出来,剔除掉不符合要求的文本。

二、法律语料库的分词和词性标注

(一)分词校对的问题的讨论

在分词校对时,首先使用机器对分词进行自动分类,然后人工检查进行校对。人工校对的队伍由以下几部分构成:首先是五位语言学的硕士研究生,他们负责在一个月的时间内,每人校对20万字;然后由笔者一人校对完成所有字数[4]。在校对之前,为了应对法律特殊性给校对工作带来的不便,因此制定了以下的规定:

1.把所有法律法规的名称当做一个切分单位。例如,“人口与计划生育法”,不需要切分成“人口/与/计划/生育/法”。但是法律不法规的名称不能和国家的名称合并为一个分词,例如由人大颁布的法律,应将名称切分为“中华人民共和国/刑事诉讼法”。

2.应将罪名切分成一个单位。即不能把“非法买卖枪支弹药罪”切分成“非法/买卖/枪支/弹药/罪”。

3.将立法机构、执法机构、司法机关的名称切分成一个单位,但要与其前面的行政区切分成两个单位。例如,“北京市人民检察院”分成“北京市/人民检察院”,而不是“北京市/人民/检察院”。

4.将公民的权力切分成一个单位。例如,“被选举权”不能切分成“被/选举权”,“商标专用权”不能切分成“商标/专用权”。

5.在法律意义上被认为是一个主体的人不需要切分单位。例如,“限制民事行为能力人”不需要切分成“限制/民事/行为/能力/人”。

6.针对一些由两个或两个以上短语构成的词,也不用切分,只需当做一个分词。例如“在案为证”不用切分成“在/案/为/证”。

(二)分词中其他问题的处理

1.为了保护设计诉讼的当事人的隐私,因此,在法律文书中以“张**”的形式表示当事人的姓名。切分一般按照姓名的规范,把当事人的姓和名切分成两个单位,即“张/**”。

2.法律文件中日期的分词,一般都直接按照“年/月/日”的分词方法,即“××××年/××月/××日”。

3.为了保护设计诉讼的当事人的隐私,因此,在法律文书中以“××省××市××乡××村”来标注地址,通常并不把行政区划和自然区划分成一个单位,而是分成“××/省/××/市/××/乡/××/村”。

4.校对时,还要注意机器是否将“养父母”“养子女”分词成“养/父母”“养/子女”。

(三)詞性标注的问题的讨论

在法律文书中,将此行标记成26个英文字母小写。用a表示形容词,b表示区别词,c表示连词,d表示副词,e表示叹词,f方位词,g表示语素,h表示前接成分,i成语,j简称略词,k后接成分,l习用语,m数词,n名词,o象声词,p介词,q量词,r代词,s处所词,t时间词,u助词,v动词,w标点,x表示字,y表示语气词,z表示状态词。

机器在对词性进行标注时,容易标注错误,因此需要人工校对时的二次检查。

1.表示序数词的“第”标注成前接成分(h)。

2.根据上下文的含义标注××的词性,当上下文为“第××号”时,将“××”标注成数词(m),当上下文为“××省××市××乡××村”时,将“××”标注成名词(n)。

3.当“男”和“女”后面未出现“青年”等字样,则当做名词(n),若出现“青年”等字样,则标注成区别词(b)。

三、法律语料库的词频统计与词表比较

(一)词频统计

校对工作完成对分词和词性的标注后,需要统计法律文件中的词频[5]。在展开词频统计之前还有以下工作要处理:

1.删除阿拉伯数字。这个步骤只是删除单独的阿拉伯数字,不处理与汉字或外文字母连在一起的阿拉伯数字。

2.删除标点符号。标点符号主要包括“,”、“。”、“、”、“()”、“;”、“:”、“《》”““””、“[]”、“<>”、“?”、“!”、“‘”、“——”。

3.删除汉语拼音与外文字母。校对时,需要删除代表物品名称、计算机网络域名、机构名、国名的汉语拼音和外文字母。

4.将代表词频的词条删除。

5.删除带“××”的人名或地名。

(二)词表比较及共有词汇

法律语料库是一个具有专业特性的语料库,不能孤立地看其中的词汇,要与汉语语料库进行比较,才能总结出法律词表的特性。通常来说,首先要与通用与词表进行比较,常见的比较对象是《现代汉语频率词表·表二(2)频率最高的前8000个词词表》。可以先后从该词表中选取出前200个词和后200个词进行比较校对。虽然这个比较的规模并不大,但是基本上能够将法律语料库与《现代汉语频率词表》的差异性显现。其次,要将法律语料库与《人民法院公文主题词表》进行比较,该词表编制的目的就是为了提高计算机储存和检索的效率,提高法院管理法律文书的水平。在校对时,法律词的部分我们选择基本词汇部分,主题词选择全部词。如果比对过程中出现词汇频次的较大差异,可以归结为以下几个原因:

1.覆盖面的差异。《人民法院公文主题词表》仅仅体现了一个司法系统的语言使用的频次,而法律语料库则覆盖了所有法律文件中的词汇频次。另外,《人民法院公文主题词表》只用于人民法院的日常工作中,不能全面地反应其他法律机构日常工作中使用法律词汇的频次。

2.时间的差异。随着时间的变化,法律语言中出现的主题词等必然会随之更新,《人民法院公文主题词表》从1996年开始实行,距今已经24年,必然与最新修订的法律语料库有很大的词汇使用差异。

3.在比较时,我们只选择了《人民法院公文主题词表》中的基本词汇,没有涉及低频词和罕频词。因此,也可能会造成两种语库的差别。

尽管由以上原因会造成比较出的结果具有差异性,但也不否认这种比较的意义。我们在校对时,对这两种语库进行比较的基础是:

1.《人民法院公文主题词表》是在人民法院中被广泛使用的,但是其中的词汇包括了整个司法系统的词汇。

2.《人民法院公文主题词表》体现的是书面法律文件使用的词汇频次。因此,主题词表与法律语料库都是具有法律背景的书面语,具有可比性。

四、法律语域基本词汇的分类分析

(一)法律词汇的提取和分析

法律语域根据词汇出现的频度,将词汇分成高频词、次高频词、中频词,并不考虑词汇的性质。既包括法律术语,也包括法律语域常见常用的普通词汇。

一般将词汇分成两种,A级是法律术语,B级是法律基本用语。法律基本用语包括:

1.与法律无关的意义,其通常也会被使用在非法律领域。如“解释、交待、主张”等词。

2.与法律无关的意义,其与法律语域的词汇串联在一起使用。如“剥夺政治权利”中的“剥夺”。

(二)法律语域常用普通词汇的分析

法律语域中的一些词汇,虽然不具有法律意义,但由于其经常被使用,且表达的意思具有一定的法律意义,所以体现了法律语域的特色。例如,实词和虚词。

实词,包括名词、代词、动词、数词等。名词表示在现实中实际存在的实体或对象。动词有表示判断逻辑、行为的。代词有“其”“此”。数词表示法律文件中较常出现的序数词。

虚词,包括介词、助词、叹词等。介词的界定比较复杂,因为有些介词还能够被用作动词或副词。

五、法律语域惯用表达式的提取

法律语言的明显特征是,用词清晰、谨慎、简洁、规范。所以,在建立法律语料库时,不能根据自己的主观臆断,而要遵从法律语言的规范和特征。

(一)立法语言中的惯用表达式

1.“为了……”的句式一般出现在法律的第一条,目的在于说明制定本部法律的意义和目标。

2.“本法所称……”的句式一般是解释某个或某些法律名词,防止被曲折含义。

3.“……的”具有很多类属的意义,来预见一些可能会破坏社会公平、危害社会安定的违法行为。

(二)司法语言中的惯用表达式

如“接受……的委托”“请求……驳回……”等法律语言。

六、结语

法律語言学,是基于语言学和法学之上,独立发展的一门科目。我国的法律语言学发展的历史较短,现代汉语语料库的建立也并不成熟。本文简单介绍了修订现代汉语法律语料库的一些基本要求,例如如何建立法律语料库、如何对分词或词性进行标注、如何统计法律词频。希望能对法律语言学的发展和现代汉语语料库的建设做出贡献。

参考文献:

[1] 李小亚.汉语语料库在法律语言中的构建研究[J].创新创业理论研究与实践,2019,2(22):190-191.

[2] 吕文涛,姚双云.词汇规制与立法语言的简明性[J].语言文字应用,2018(4):65-74.

[3] 姚双云.由“语义镜像法”看“而且”的并列用法[J].汉语学报,2017(3):2-8+95.

[4] 崔玉珍.从立法语言的连词“或者”看我国法律文本的可读性[J].当代修辞学,2016(2):86-94.

[5] 崔玉珍.法治在当前乡土社会中的困境——河南省巩义市社会法庭之调研[J].中国政法大学学报,2015(1):12-19+157.

猜你喜欢
提取统计语料库
《语料库翻译文体学》评介
土壤样品中农药残留前处理方法的研究进展
中学生开展DNA“细”提取的实践初探
2008—2015我国健美操科研论文的统计与分析
山东省交通运输投资计划管理信息系统的设计
浅析城市老街巷景观本土设计元素的提取与置换
虾蛄壳中甲壳素的提取工艺探究
市场经济背景下的会计统计发展探究
基于JAVAEE的维吾尔中介语语料库开发与实现
语料库语言学未来发展趋势