多媒体网络舆情语义识别的关键技术分析

2019-12-04 14:34许林全民互联科技天津有限公司
数码世界 2019年11期
关键词:舆情语义特征

许林 全民互联科技(天津)有限公司

在互联网高度发达的今天,网络环境比较复杂,管理难度大,需要借助语义识别技术对网络上舆情进行有效的监督,对净化网络环境,维护网络秩序有很大帮助。下面将针对多媒体网络信息特征、识别技术及流程展开分析。

一、语义识别特征及相应流程

(一)网络舆情语义识别特征

1.文本信息语义识别特征

在多媒体网络中,文本信息语义识别相对简单,主要针对新闻、推文、评论等文本形式对其所要表达的情感、态度进行识别。文本信息语义识别主要有两种方式:一是检索、识别关键词,在对文本信息分类上有效率优势;二是通过分析词句间的联系识别文本语义,主要用于分析文本信息所包含的情感、态度等特征。文本信息识别发展较为成熟,识别率相较后三者有显著优势。

2.声音信息语义识别特征

通常情况下,声音信息不单独存在,多作为视频信息的附属如新闻采访、自媒体视频等,由于视频录制环境的复杂性,声音信息多存在噪声,包含更多的情感因素,所以声音信息识别要通过优化识别算法实现环境噪音的滤除和情感信息识别。

3.图像信息语义识别特征

互联网中图像信息多见于文章插图、新闻配图、视频所截取的分帧图等,所包含的内容有人物、文字、背景等。为完整识别图像信息,首先要采用人脸识别技术,对图像中人脸进行定位并分析其表情,还可以深入发掘其身份信息;其次要以文字信息识别技术为基础对对图像中文字进行识别;最后还要分析图像背景信息,重点识别敏感元素和关键物件。

4.视频信息语义识别特征

由于视频既包含分帧图像还包括字幕、声音等,在进行识别时应采取降维处理的方法进行处理。首先要进行镜头分割和分帧处理,以图像信息识别方式进行分析;其次要截取适当的镜头,使字幕信息能完整显示。除视频内容识别外,视频的分类、检索也很关键,而视频指纹概念的提出,有效提高了视频检索效率。

(二)网络舆情语义识别流程

为了更好识别视频、图像、声音以及文本的语义,从而实现网络舆情的有效分析和深化应用,在掌握识别技术的同时还应符合语义识别的流程。首先进行特征识别,当获取多媒体信息后应对分析其载体形式,并采取不同的识别方法;其次要对多媒体信息的语义进行识别,多采用先进算法实现各类信息的深度分析,对信息的真实性、所表现的态度、情感、内容以及敏感内容进行识别,从而获取网络舆情的真实语义。

二、网络舆情语义识别技术

(一)文本信息语义识别技术

多媒体网络文本信息的语义识别主要针对新闻、评论、网络文章等,所采用的的识别技术有两类:一是分词技术,该技术通过将文本信息同所具备的中文词表进行比对,从而获取词句语义。但由于词语排序不同语义会发生较大变化,这就需要在分词时对语义分歧进行处理,要先确定歧义存在的位置,再利用T检验和双字耦合度的方法予以消除;二是词向量模型,主要是对文本信息进行转换,使之能够被计算机所理解,目前多采用基于神经网络的Word2vec 模型,可实现词向量的有效训练,又可分为CBOW和Skip-gram 模型,前者利用上下文对当前词进行预测,主要用于小型语料库;后者利用当前词对上下文进行预测,主要用于大型语料库。

(二)图像信息语义识别技术

由于图像信息中包含人物、背景、色彩、文字等多种特征信息,而图像特征的提取是语义识别的关键,通常采用图像分割技术来获取图像特征信息,常用方法有:阈值法、区域分割法、边缘检测法、小波法分析法、神经网络法等,各有不同的应用优势和不足,其中,神经网络法在获取图像复杂特征信息上有较高精度,但是算法较为复杂,对数据依赖性大,识别效率较低。边缘检测法主要用于具有鲜明特点、特征易分离的图像识别,虽然识别速率快,但精确度较低。

(三)声音信息语义识别技术

主要包含两类:一是声音预处理技术,这对于提高声音信息识别精度尤为关键,具体分为三步:①带通滤波,可将目标音频外的频段声音进行过滤,使信噪比提高;②预加重处理,在数字滤波器的基础上予以加重处理,使声音信号更加平缓;③分段处理,先对声音信号进行分帧处理,由于分帧后可能会造成不连贯,还要对分帧的信号进行加窗,常采用汉明窗。二是声音特征提取技术,对于声音特征的提取方法有:基于语音信号和基于非平稳信号两种。

(四)视频信息语义识别技术

由于视频中大多为渐变镜头,偶尔出现突变镜头,在视频信息处理时,像素点检测法可用于渐变和突变镜头的区分,能够将突变镜头提取出来。渐变镜头也要进行分帧处理,常用双阈值检测的方法,还要注意确保字幕的完整性,方便语义识别。此外,关键帧提取对于减少视频信息分析工作量有很大帮助。

三、结束语

综上所述,语义识别技术是实现多媒体网络舆情监控及预警的有效手段,面对复杂的网络环境,政府应加大网络监管,为人们提供安全、干净的网络环境。

猜你喜欢
舆情语义特征
真实场景水下语义分割方法及数据集
离散型随机变量的分布列与数字特征
抓特征解方程组
不忠诚的四个特征
数字舆情
数字舆情
消费舆情
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴