基于AI技术的新媒体自动采编系统设计

2022-09-14 02:30
中国新技术新产品 2022年11期
关键词:资料库分词架构

杨 昆

(辰溪县融媒体中心,湖南 怀化 419500)

0 引言

在网络快速发展的今天,新媒体的自动采编系统为媒体事业的发展奠定了坚实的技术基础。但是,由于目前的采编系统功能较为单一,缺乏完整的作品分享库,且存在权限不明确等问题,造成了工作效率低下,同时也不能保障系统资源的安全性。针对上述问题,该文提出一种基于AI技术的新型新媒体采编系统。能够实现新媒体内容的网上协同工作,以及稿件资源的共享,将业务和办公相结合,为企业的新媒体采编业务发展提供了一套完整的解决方案。在系统模块的设计上,通过层次划分,把控制层、服务层、数据层、应用层等层次进行了划分,使整个系统更加高效,更加好维护。在功能设计上,要充分考虑到新媒体的特性和不同的编辑生产要求,从而提高编辑处理系统的实用性。另外,还要考虑到系统的安全需求。从系统的可用性角度出发,针对系统的具体应用进行了测试,从功能和非功能两个方面进行了验证,结果表明该系统是可行的,满足了对采编流程优化、图片管理、绩效管理等功能性要求以及易用性、可靠性和安全性等非功能性要求。利用人工智能技术,设计出一套新媒体的自动化采编系统,实现了网上采编的全过程,以及新媒体办公的集成系统。

1 新媒体自动采编系统功能分解

1.1 系统功能设计

在基于AI技术的新媒体采编系统开发的流程中,结构设计具有重大作用。在此基础上,该文将整个采写体系的总体框架划分成五层,从底层到顶层,分别是平台层、数据层、应用层和用户层。具体内容如图1所示。

图1 系统逻辑结构图

平台级为操作系统,包括应用服务器集群、缓存服务器集群以及系统的数据库管理系统。在已有的数据架构基础上,使用MySQL数据库,并能适应当前的爬虫界面、检索界面等。整合异质的数据和信息来源,提供一个单一的接入端口,并针对不同的客户需要,为其提供相应的接口和服务。接受和检视相关的资料,并执行相关的交易。按照其对应的服务职能,将其划分成2类,即后台管理和前端系统。由于该系统是对多个服务器进行采编,因此需要对各服务器进行不同的设计,将资料整理、文章编辑和审核等部分置于内联网的状态下,服务器就是内部网路伺服器,采购者可以利用网路接入外部网路伺服器传送来自附近的突发讯息。根据新闻编辑体系结构,将外部网络的用户分成2个部分,即移动电话等平面媒体以及计算机的浏览。移动电话使用者通过移动电话或微信进行登录,而PC浏览者则可以通过计算机上所安装的浏览器进行登录。在材料收集者找到新的材料后,可以不受时间和设备的限制,将所收集的材料迅速地存储在资料库中。在内联网环境下,使用者可以利用PC上的网页,对收集到的资料进行整理、编辑和修改,并在审查后上传至相关的网站。

1.2 人工智能采编流程设计

对相关软件来说,快速检索和良好的数据处理是非常关键的。该文的应用程序采用了MySQL的数据库,该系统的数据库按以下步骤进行。1) 需求剖析。与新传媒员工进行沟通与交流,跟着工作人员深入现场,观摩从收集到发行的全流程,对企业的主要经营行为进行纪录和剖析,进而对数据库的设计需求进行深入剖析。2) 概念性架构的设计。利用此步骤建立资料的概念化模型,并对资料库的逻辑架构进行规划,反映出资料库的运作方式。3) 逻辑架构的设计。依据前一步所提的概念模型,对数据库进行逻辑架构的规划,以反映企业的业务逻辑。4) 实体架构的设计。在此基础上,根据所选取的资料库和所设计的逻辑架构来决定资料库中各个资料库的具体实施方法。5) 数据库实现。根据上述步骤所设计的逻辑与实体架构,构建一个资料库及其对应的数据库,将资料储存在资料库内,并透过执行来确认资料库的合理性,若有不符合要求的情况,则即时变更资料库与资料表的型式。6) 资料库操作与维修。上述各工作步骤完成后,资料库将正式投入使用,并要求系统管理员与维修者追踪记录资料库的运作状况,特别是在初期,出现问题后能即时处理。

2 软件设计

新媒体自动采编系统需要解决的是热点信息的收集与整理,实现对敏感热词的自动化确认、搜索、识别和采集,并经过整理后完成文稿提交。因此侦搜热点信息是新媒体自动采编的核心组成。

2.1 热词侦搜算法设计

要实现智能化的文字润色,须有包括大量优秀表达语句的语料库。对该文的研究而言,干扰信息大多是广告、作者信息和丛书信息等,这些信息本身的标签权重值就较低。因此,基于AI技术的新媒体自动采编系统热词侦搜信息算法即可满足需求,去除干扰信息的算法如公式(1)所示。

式中:为输入的新媒体文章序列;为输出的总媒体文章序列;为序列的标签;()为标签过滤函数。

标签权重在0.5及以下时,基本是属于无法为文字润色提供服务的干扰文本信息。因此,标签权重低于0.5的文章序列将被滤除。去除干扰信息之后的内容资源就可以进行资源拆分了,资源拆分主要是为了提高资源处理效率。将一篇文档拆分成多个文本片段,可以按段拆分,也可以按句拆分。拆分完成的文本片段包括的数据量大幅缩小,为后续的分词处理环节提供了便利。

分词算法的3个层级表达如下:第一个层级为“词语最大长度匹配”,它的含义为分词结果都是从词语库中能够匹配的最长词语。第二个层级为“拆分词组最少匹配方案”,它的含义为拆分后获得的词语个数最少的方案为最终选取的方案。第三个层级为“最小词方差匹配方案”。如果前2个层级都无法很好地获取到分词结果,就需要使用第三个层级的分词方案进行分词。“最小词方差匹配方案”的表达如公式(2)所示。

式中:,…,L为各种分词方案输出的不同词语序列;L为词语序列L的词语长度方差。

方差最小的分词结果即是当前方案下的输出,拆分后的文本片段通过上述分词环节能够输出大量词语,这些词语会作为基本元素存储到基础资源库中。基础资源库里存储的资源是经过分词处理之后的文本片段,要实现对用户输入内容的语义理解,还需要对这些资源进行语义处理。关键词提取功能能够提取一段内容的关键词。关键词是描述这段文字的核心信息,它可以代表这段文字的主题,根据研究本身的特征设计了如公式(3)和公式(4)所示的关键词提取算法。

式中:()为词语出现的词频;n为词语在输入文本序列中出现的次数;x为词语所在句子的标签权重;()为词语i的关键词权重值;为用一个完整标签的输入文本序列总个数;M为包括词语的用一个完整标签的文本序列总个数。

为降低某些常用词语带来的影响,在算法中引入了词频计算因子。概念扩展功能能够在提取关键词后使用关键词和语义网进行概念扩展,将多个相同的概念指向同一段文字,以丰富、扩展检索的内容。根据公式(1)~公式(5),基于AI技术的新媒体自动采编系统侦搜热点信息设计成立,可方便下一步的自动采编设计。

2.2 新闻自动采编设计

多渠道信息采集是新闻素材的来源,该体系可以采用多种方法进行收集。可以采用常规方法,将收集到的材料通过数据库进行整理和存储;也可以通过爬虫技术获取对应网站的信息,除收集工作者积极收集资料,也可由读者自行撰写,材料获取的模块框架如图2所示。

图2 素材采集功能模块图

当收集到的材料被上传时,首先将收集到的材料放在MaterailAdd.php页面中,然后在相应的页面中单击“加入”,把材料加入名为“材料管理类”的MaterailController.php中,随后材料被录入“材料表格”中。如果此资讯被成功地录制,将会传回已储存的资讯,反之,会显示储存已失效。不合格的理由是必须填好的资料或者所填资料超出了字数的限度,收集者所提供的错误资讯会被重新修改和储存。在执行检索功能时,在用户界面中键入检索关键词或选定时段进行检索,然后将所选的关键词和所选定的时段发送至材料控件,利用此类中的方式,从资料库中检索出相应的资料,并将检索的结果反馈给资料库,若检索的结果超过10条将会出现页面,如果未找到将会自动删除。

2.3 系统管理模块

系统管理员也被称为超级管理员,具备上述用户的全部功能,管理用户、部门和角色,其功能架构如图3所示。

图3 系统管理功能结构图

用户的基本资料管理主要有添加用户、删除用户和修改用户基本资料等,用户基本资料的管理有用户名称、密码、角色权限以及所属单位等。部门的信息管理功能包括新增部门、删除部门和修改部门基本资料等,部门的变化很小,将部门的属性被设定为0不会出现部门被删除的情况。管理员对部门进行管理时,可以在页面上对其进行增加、删除和修改,将操作信息发送给项目控件,利用这个模块中的方式,在类中使用相应的方式,可以增加新的栏目,可以从栏目类别中移出方法,在逻辑类别中进行调用,进而可以对条目的内容进行编辑。按照上述的步骤,对资料库的栏目表进行相应更改,并将作业后的资料反馈至系统管理员以便查看。

3 系统测试

3.1 测试准备

在此基础上,该文结合基于AI的新媒体采编系统的架构,构建了采编服务器,并初步实现了对新媒体内容的简单收集与分发。校园网的内部用户可以在ChinaNet上不需要直接进入大型站点,就可浏览到主要内容,同时还能降低中国网络的流量。在RedhatLinux7.1操作系统中,该文采用了MySQL3.23.44、Apache1.3.22、PHP4.0.6以及FastTemplate模板等软件。使用PHP、MySQL和Apache构建Web站点是目前比较受欢迎的一种方式。MySQL2是一款比其他大型数据库系统更易于操作的自由数据库服务器。Apache3是当前应用最广泛的Web服务器应用软件,其源码是自由的,可以在UnixWindows平台上运行。在Apache中将PHP4作为一个静态模块,并提供MySQL的支持,以便使用PHP功能存取MySQL数据库。

3.2 测试结果

该文采用PHP的命令方法实现了后台数据的采集,并使用Linux操作系统的Cron指令完成了采集整理。该测试将介绍如何对特定的源文件进行分析,以获取所需的新媒体信息。在一个网站上,从一个网站的HTML源文件中提取2个不同的新闻列表,就可以得到一个页面1和一个内容2的绝对网址,因此,可以将一个相对网址前后的唯一区别代码作为一个特别的识别点。由于页面的格式比较固定,收集器将网页的原始资料下载后,通过特定的识别找到相应的网页,然后与网站的网址构成绝对网址,以供下一步内容网页的下载。这种特定的识别方式应该能够识别出新媒体内容的相对地址,而内容页面的分析原理与之相似,即将新闻标题、正文和图片等从其来源文档中提取出来。收集到的消息存储到MySQL数据库,相应的表结构见表1。

表1 新媒体内容正文表

当新媒体内容发行时,会自动产生一个标题清单的javascript。每次有使用者访问时,该系统会使用FastTemplate模板来动态产生一个清单页,当使用者点击该网页时,会动态地将包括文本和图片的内容从资料库中提取出来,并使用FastTemplate模板动态地产生一个网页。同时,系统还可以通过点击来统计每天、每周的热点话题。该系统架构具有很强的扩展性,可以在基础数据采集功能的基础上对其他相关的功能进行扩充,以满足用户的各种需要。

4 结语

随着网络新媒介的日益增多,如何利用人工智能技术建立新的媒介,减少员工的工作压力并提高工作效率已成为研究重点。该文设计的新媒体采编系统架构具有很强的扩展性,可以在原有的基础数据采集基础上对其他相关功能进行扩充,以适应不同的用户需要。在此基础上开发的抓取服务器,目前仅具有基本的数据采集和动态发布功能,需要不断地改善和进步。下一步的研究重点是利用AI技术进行数据采集,以提高相关数据采集工作效率,并将各功能模块自动化,为企业的业务发展注入新的生机。以人工智能为基础的新媒体采编系统的应用领域也从局域网向手机网络延伸,进而使采编工作者摆脱了时空的限制,提高了新闻内容的时效性。

猜你喜欢
资料库分词架构
基于FPGA的RNN硬件加速架构
基于内容与协同过滤的GitHub学习资料库推荐
分词在英语教学中的妙用
功能架构在电子电气架构开发中的应用和实践
国家社科基金重大项目“‘古今字’资料库建设与相关专题研究”成果鉴定会顺利召开
施工企业技术资料库的建立与完善
结巴分词在词云中的应用
结巴分词在词云中的应用
LSN DCI EVPN VxLAN组网架构研究及实现
实现科学教材中资料库的教育价值