基于本体的产业园区价值评估模型研究

2022-05-20 01:17吴瑞龙何华贵陈朝霞李少智
科技和产业 2022年5期
关键词:区位语料本体

吴瑞龙, 何华贵, 陈朝霞, 李少智, 周 勍, 刘 洋,2

(1.广州市城市规划勘测设计研究院, 广州 510060; 2.广东省城市感知与监测预警企业重点实验室, 广州 510060)

产业是城市经济体系的基础和核心,经济与产业发展是支撑一个城市长期可持续发展的基础[1-2]。产业园区是指为促进产业发展为目标而创立的特殊区位环境,是区域经济发展、产业调整升级的重要空间聚焦形式[3],承载各类市场主体开展产业活动和创新活动的重要载体,是决定城市发展质量的基本单元,担负着聚集创新资源、培育新兴产业、推动城市化建设等一系列的重要使命[4-5]。对产业园区的价值进行评估尤为重要,可以取长补短,对于劣势的因素进行补强,可作为产业园区调整升级发展的重要决策依据,也是城市创新经济发展的必然要求[6-7]。

现有关于产业园区评估主要通过专家评分模式,没有形成规范的评估体系,一般都是针对某种特定类型的产业园区进行评估,如文献[8]中通过选取经济发展质量、创新创业活力、对外开放水平、资源配置效率、管理运营质量、环境友好质量等6个维度,43个代表性指标进行评估。这类评估对于信息采集依赖度较高,当信息完整度不高或者信息缺失时,较难支撑价值评估,同时评估方法基于传统数理统计模型,不够智能化,而且只能针对某一类产业园区进行评估,对于其他类型产业园区可复用性不强。本文将本体论相关知识应用于产业园区的价值评估,通过对产业园区以及影响其价值评估的因素进行抽象和定义,对产业园区进行本体建模,形成产业园区的知识本体,并通过构建的价值评估规则对产业园区进行价值评估,具有可复用性、方便扩展的特点。

1 本体概念及表示语言

本体(ontology)的概念包含两层含义:一层是从哲学层面,其源自哲学学科,是哲学的一个分支,主要是研究存在的本质,即对客观存在的系统或事物的解释说明,是一种描述术语及术语间关系的概念模型,本体关注的是客观现象的抽象本质;另一层意思是指将其引申应用到计算机科学领域和信息科学领域内,可作为一种“形式化的,对于共享概念体系明确而又详细的说明”,其核心内容是指一种描述由一套对象类型(概念或类)、属性以及关系所构成的整体模型[9-10]。随着人工智能的发展,在人工智能领域被赋予了新的定义,从语义网的角度来理解本体的概念,可被定义为组成领域的基本术语及其之间的关系,本体论作为语义网的重要组成部分,能够在语义信息和知识层次对系统进行描述并进行建模[11-13]。

为了使本体被计算机理解,通常采用形式化描述语言来表示本体,这种语言具有一定的推理能力,在互联网共享信息高速发展的背景下,根据本体在应用中的不同作用,本体所使用的语言也不同,本体描述语言主要是为了将本体的逻辑概念模型以文件编码的方式展现出来,使用户将领域模型进行清晰的、形式化的概念描述要求,因此对于本体描述语言需要满足以下要求:定义良好的语法和语义、有效的推理支持、充分的表述能力、表达的便利性。OWL(Web Ontology Language)是由W3C提出的标准的本体描述语言,是一种知识表示语言,对领域知识进行明确表达推理,其目的是捕获知识,有以下3个基本概念[14-15]:

1)公理(axioms):一个OWL本体表达的基本陈述。

2)实体(entities):用来指向现实世界对象的元素。

3)表达式(expressions):实体的组合,从简单的描述形成复杂的描述。

2 产业园区领域本体构建

2.1 产业园区语义描述

在对产业园区进行描述时,一般都会包含其建设时间、假设背景、发展特色、区位优势、产业优势、政策资源等众多共性因素。比如百度百科对于深圳高新技术产业开发区的描述:深圳高新技术产业开发区始建于1996年9月,深圳高新技术产业开发区位于深圳市南山区位于广东省深圳经济特区西部,行政区域东起车公庙与福田区相邻,2008年,高新区在占全市不到0.6%的土地上,实现工业总产值2 249.78亿元,同比增长17.60%,占全市工业总产值的14.19%,高新区每平方公里工业总产值196亿元、高新技术产品产值186亿元、工业增加值43亿元。再比如广州经济技术开发区的描述:广州经济技术开发区于1984年经国务院批准成立,是全国首批国家级经济技术开发区之一,地处广州市东部。与广州高新技术产业开发区广州出口加工区、广州保税区、中新广州知识城合署办公(统称“广州开发区”),实行“五区合一”的管理体制。为加速广州高新技术产业的发展,1997年广州市政府对高新区管理体制进行了调整,形成由广州科学城、天河科技园、黄花岗科技园和民营科技园组成的“一区多园”的新格局。开发区交通便利,生态环境良好,基础设施一应俱全,投资环境优越。

2.2 产业园区本体类定义

通过对产业园区的语义描述,以及其价值影响因素的语义描述分析,围绕产业园区的价值评估的目的,抽象并定义了产业园区相关的本体类和影响其价值评估因素的类,分别是区位类、活力类、创新类、成本类,对每个类的定义、对象关系、类关系、属性给出详细说明,见表1。

表1 产业园区本体类定义

表1中owl:Thing表示所有事物的父类,对象关系“has_区位”表示对象“产业园区”和对象“区位”是“has”(拥有)的关系,其他类比。

2.2.1 区位类

区位是对产业园区的地理位置的优势进行描述的表达,对于产业园区的价值评估具有普遍性意义,一般用距离值来衡量,通常在描述产业园区区位的时候主要包括3个方面,包括交通便利性、创新源邻近度、到核心城市的距离,对此本文抽象出3个子类,分别是到大型交通枢纽距离、到核心城市距离、到创新机构距离,其类的详细描述构成见表2。

表2 区位类定义

2.2.2 活力类

活力类是对产业园区的产业活跃度进行描述的表达,一定程度体现了产业园区发展的能力和潜力,对于产业园区的价值评估具有重要参考意义,可用园区内各个企业的行业类别、企业规模以及园区内就业人员等因素进行评估,为此抽象出3个类,包括企业行业、企业规模、就业人员,详细描述构成见表3。

表3 活力类定义

2.2.3 创新类

产业园区的管理模式和运营模式很大程度决定了产业园区的长远发展,尤其体现在创新管理和创新运营,对产业园区的未来发展有较大的影响,是产业园区发展和价值体现的重要因素,主要包括两个方面:高新技术企业和科技成果产出,相关类的详细描述构成见表4。

表4 创新类定义

2.2.4 成本类

成本是产业园区发展的重要制约因素,是提高产业园区建设经济效益的重要手段,如何更好地控制产业园区的运营成本,获取更大的经济效益,是众多产业园区面临的主要问题,将其作为一项重要的价值评估因素,可为产业园区的成本控制提供参考,主要包括4个方面:人工成本、租金成本、通勤成本、生活成本,其类的详细描述构成见表5。

表5 成本类定义

通过以上抽象类及其相关概念的定义,形成产业园区及其相关价值评估因素的类关系图,如图1所示。

图1 产业园区类关系图

2.3 产业园区本体构建

根据产业园区及其相关价值评估类的定义,使用Protege软件构建产业园区的本体知识模型。Protege是基于Java语言开发的开元的本体编辑和知识获取软件,是一款本体开发工具,也是基于知识的编辑器,在本体类的基础上形成产业园区本体模型的OWL文档描述,形成的本体知识类图如图2所示。

图2 产业园园区类构成图

3 产业园区价值评估计算

产业园区价值评估计算主要利用产生式规则,其结构包括前提和结论两部分:前提(或IF部分)描述状态和结论(或THEN部分)描述在前提状态存在的条件下所执行的操作,产生式规则一般指形如α→β或IFαTHENβ或其等价形式的一条规则,其中α代表产生式的前件,一般由逻辑组合或者逻辑表达式来构成,β表示产生式的后件,表示若干个结论或动作,表示在满足α先决条件情况下,推出的结论或应执行的操作,可以将产生式推理描述为“当前提条件α满足时,则可以推出结论β″。

在本文中,将正则表达式抽取的产业园区语料短语作为先决条件α,α由上一步骤中对产业园区本体OWL文档的解析得到,并作为正则表达式的匹配模板,其中语料短语是已经包含了对于某个因素评分的短语,该评分通常由外部专家综合评分打分,如“深圳高新技术产业开发区始建于1996年9月,位于深圳市南山区位于广东省深圳经济特区西部,对外交通便利综合评分85”,产业园区价值评估计算就是判断在条件α时,应该采取哪种计算规则β,构造的价值评估计算规则见表6。

表6中Num代表组成该项评分的量值,由阿拉伯数字组成,Num:(0|1|2|3|4|5|6|7|8|9|),V代表对产业园区的价值评估得分。对于输入的产业园区语料信息,利用从产业园区本体OWL解析得到的正则表达式模板提取文本中相关的语料短语,然后查询数据库所对应的计算规则,构建SWRL描述规则(SWRL-Semantic Web Rule Language是由以语义的方式呈现规则的一种语言),然后将规则读入Jena推理机进行价值评估计算,将价值评估结果返回。对抽取的产业园区语料短语构造如下SWRL计算规则:

表6 产业园区价值评估计算规则

ChanyeyuanquPhrase(?x)∧has_qw_01(?x,?qw1) ∧has_hl_01(?x,?hl1)∧has_cx_01(?x,?cx1)calculateValue(?x,RuleThen)

其中,ChanyeyuanquPhrase(?x)表示x是输入的产业园区语料短语,has_qw_01(?x,?qw1)表示x具有区位编号QW_01的得分为qw1,符号“∧”表示后续为并列条件,calculateValue(?x,RuleThen)表示可以根据RuleThen计算结果,在对时间短语x进行计算时选择RuleThen类型的计算规则。举例如下,假设有输入语料:“深圳高新技术产业开发区始建于1996年9月,位于深圳市南山区位于广东省深圳经济特区西部,对外交通便利综合评分85,综合得到企业规模评分88,2020年通过评审得到科技成果评分80”。根据规则库,可以抽取出3个产业园区价值评估规则分别是:“对外交通便利综合评分85”“企业规模评分88”“科技成果评分80”,然后根据计算规则RuleThen进行计算,V=85×0.4+88×0.3+80×0.5=100.4

4 结论与展望

本文采用本体论的相关技术,对产业园区进行本体建模,定义了产业园区本体类的相关概念和定义。围绕产业园区价值评估的一般描述进行抽象,分别定义了区位类、活力类、创新类、成本类,形成了产业园区价值评估的知识模型,形成了产业园区的价值评估的可复用知识模型,且模型具备可扩展性。依据定义的产业园区本体模型,设计了产业园区价值评估的计算规则,可以根据输入的语料信息利用正则表达式提取相关预料信息,并按照计算规则对产业园区进行价值评估,而不是传统机械的评估方式对产业园区进行价值评估,减少了数据的依赖性,形成了较为规范的产业园区价值评估体系,可以对不同类别的产业园区进行价值评估。但本文研究也存在不足,如没有建立较为全面的产业园区知识本体库,在后续研究中将结合图数据库等技术建立产业园区的知识图谱,为产业园区价值评估提供更加全面的支撑。

猜你喜欢
区位语料本体
基于归一化点向互信息的低资源平行语料过滤方法*
袁奇峰:广州南CBD,优越区位截留全城商机
眼睛是“本体”
连锁餐饮企业区位选择
连锁餐饮企业区位选择
基于本体的机械产品工艺知识表示
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
专题
Care about the virtue moral education