多媒体内容理解技术在电信行业中的应用

2012-07-01 22:20张震
电信工程技术与标准化 2012年11期
关键词:多媒体图像内容

张震

(中国移动通信集团广东有限公司深圳分公司,深圳 518048)

多媒体内容理解技术在电信行业中的应用

张震

(中国移动通信集团广东有限公司深圳分公司,深圳 518048)

本文首先对多媒体内容理解技术进行概要介绍,然后重点结合电信行业实际情况,提出该技术在电信行业的具备较高商业价值的应用,最后介绍一种创新性的基于内容理解技术的商业搜索平台。

内容理解;多媒体;电信业务

1 引言

随着信息时代的到来,尤其是21世纪过去的10年中,包括移动互联网、3G通信、多媒体技术在内的信息技术的跨越式发展,不断地推进我国信息化浪潮的前行。人们越来越感受到信息化带来的好处,移动网络高速普及,数字化内容海量增长,世界各地的人们尽情分享信息自由沟通。以图像、视频为代表的多媒体信息成为人们相互交互情感与服务的主要载体。以全球最大社交网站Facebook为例,该网站是美国排名第一的照片分享站点,每天上载超过850万张照片,这些图片以及视频汇聚成为“海量”的多媒体信息库。

以Baidu、Tencent为代表的国内互联网、移动互联网企业同样汇聚了丰富多彩的多媒体信息。而以中国移动为主导的运营商企业自3G时代以来,已经逐步向移动互联方向转型,代表举措有大力发展互联网数据中心(IDC)、建设Mobile Market(MM)平台,以及发展“无线城市”商务及惠民应用商务平台,这些举措都取得了不错的效果。然而面对业务大发展的盛景,其背后的合法性、合规性等信息安全问题以及潜在的业务发展瓶颈需要电信运营商提前深思。

首先,从合法性、合规性等信息安全角度考虑,在面向海量信息背景下,移动互联网/电信用户在获取大量有用信息的同时也会遇到许多不良信息,比如淫秽色情文字、图片、视频尤为严重。针对这些不良信息如何在3G通信中进行有效拦截是运营商必须深入思考的问题。GPRS2.5G时代的拦截技术体系已经不能满足3G甚至4G时代的要求,亟需对不良信息的拦截体系进行全梳理、全规划,采用新的拦截技术体系,以适应移动互联新时代的发展需求。

其次,从信息的价值挖掘的角度考虑,在移动互联这样一个瞬息万变的信息时代,信息即意味着财富,如何在最短时间内采用最有效的方式来从海里信息中获取用户最需要的、最有价值的信息,同样值得运营商企业深思。在2G时代运营商企业主要的角色在于“通道”,然而在3G内容为王的时代,如果运营商安于在2G的角色,毫无疑问将会遇到各种利益的挫折。这需要运营商有实力、有技术去整合无序的、分散的、潜在价值的信息,使信息价值最大化、显性化和个性化,为客户提供最优质的信息化服务。

本文针对上述问题,引入研究基于多媒体内容理解的技术[1],该技术融合了人工智能、机器学习、模式识别、信息检索等信息化技术,是当今学术界的一个研究热点,对解决运营商企业在3G时代的所提的上述部分困境有极大促进作用。

2 多媒体内容理解技术原理介绍

2.1 解析多媒体内容的含义

谈及多媒体内容理解首先得了解什么叫多媒体的“内容”。通常情况下用户习惯基于文本的方式用关键字及其组合来表达描述一个视觉概念。但词语,描述的多义性和不精确性难以足够形象和精准地描述所有事物:如“Apple”既可代表通常意义下的苹果水果,但也可以是一台苹果牌的PC。

所以,当词语难以足够精确表达人们的多媒体视觉感知的时候,人们就尝试用多媒体自身的内容属性来表述其本身,如颜色、纹理、轮廓、空间关系等等。简要介绍前两者:

(1)颜色:是描述多媒体内容最为广泛的视觉特征,颜色往往和多媒体中所包含的物体或场景十分相关。与其他的视觉特征相比,颜色特征对多媒体本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。

(2)纹理:不仅反映多媒体灰度属性值的统计信息,而且反映空间分布信息和结构信息。

上述颜色等信息通过数学表达的方式体现多媒体本质内容特征,从而避开了文字性表述的歧义性和非精确性,逐渐得到广泛应用。

2.2 多媒体内容理解技术

多媒体内容理解技术是当前科研领域的一个研究热点,诸多企业和科研单位都投入足够的资源进行相关的研究,业内代表有微软亚洲研究等企业科研机构以及哈工大等高校研究所。多媒体内容理解技术是基于多媒体内容特征进行数字化处理、变换的技术,该技术融合多种信息技术,从架构上可以分成三个阶段[1]:内容提取,内容描述,和内容操作。

2.2.1 内容提取

多媒体内容提取包括对多媒体进行预处理及视觉内容特征提取。常用的预处理方法包括拉普拉斯变换等各种数学变换、分割等。多媒体提取的内容特征通常用数学表达式进行表示:假设特征向量的维度是N,则N维度空间中,每一个多媒体(视频或者图像等)被看作是向量空间中的一个点。这个点所具有的数学属性则代表了多媒体的内容属性。

2.2.2 内容描述

依照一定的规范和要求对多媒体内容特征进行描述。如JPEG图像标准、MPEG专家组视频标准等。

2.2.3 内容操作

多媒体内容操作是依照一定的算法(模式识别算法、神经网络算法等等)和流程对多媒体内容特征进行处理。如检索、过滤、查询等。以内容检索为例,传统的检索方式主要基于文本匹配方法,实现的是点对点命中式检索。而基于内容检索是依据一定的准则进行内容的相似度计算。相似度计算可以采用不同的数学准则进行,如计算两点之间的欧式距离,根据欧式距离所表征的相似度排序,排序越靠前,相似度越高。

上述是对多媒体内容理解技术的概要介绍,更为深入的解析可参考文献[2~3]等。

3 基于多媒体内容理解技术的不良彩信拦截应用

如上所述,在移动互联时代,尤其是3G时代的到来,运营商所运营的通信渠道充斥着淫秽色情等不良图片与视频。移动通信中的不良信息传播具有多样化和隐蔽化,即时通信工具的普及让该应用成为新的传播渠道。而以实现高速数据传输为核心的3G(TD-SCDMA、WCDMA、cdma2000)数字通信网络的出现,使得图像、视频流等多种媒体形式在即时通信中得到广泛应用。通过分析图片、视频的内容,进行不良信息的精确识别与拦截,对打击不良信息的传播和保护青少年成长等方面具有积极的作用和深远的意义。

广东移动对多媒体承载的不良信息检测与拦截问题进行了有益的尝试和研究,提出了“基于内容理解的不良视频及图像快速识别算法”[4]。该算法研究如何快速的从视频中自适应提取代表语义的关键帧图像,对图像自适应识别淫秽、反动信息等不良信息,完成对不良视频及图像信息过滤与拦截。针对视频数据做到快速高效的关键帧提取以及图像数据的单帧图像提取,融合肤色区域检测、多视角人脸检测、敏感目标提取等技术手段,做到肤色区域跟踪、敏感度判断、图像信息过滤等,最终实现不良信息的提取。图1显示了该技术的总体方案。

图1 多媒体不良信息提取技术的总体方案

该项目技术应用到监控彩信的不良信息,包括彩信中的黄色信息,图片中的不良文字等,在彩信信息安全监控方面起到了较好作用,减少了不良信息对客户的影响。

4 基于内容理解的商业搜索平台Photo2Buy

深圳移动“无线城市”(wap.szicity.com)已经吸引了众多商家进驻,汇聚了大量产品的视频、图像、文字信息,形成一个分布式的海量产品数据库。如何快速准确匹配消费者需求,并整合产品信息为消费者提供优质的内容呈现,是值得包括运营商在内各相关商家认真思考的问题。针对这个问题,我们提出了基于内容理解的商业搜索平台项目。 研究从消费者的需求出发,实现有别于传统文字搜索的基于产品图像搜索的视觉搜索机制,在该机制的商业导向中,消费者主动提供或选择集中反馈其消费需求的产品图像,以该图像作为搜索的主体进行视觉内容匹配定位,从后台产品数据库中快速准确地找到客户所需要的产品信息,同时,通过主动学习的方式记录下消费者的主观消费意愿,实现客户消费习惯后台分析与跟踪。

为此,我们构建了基于内容理解技术的商业搜索平台Photo2Buy,该平台架构分为5个层面,如图2所示。

图2 基于内容理解技术的商业搜索平台架构

4.1 图像采集层

图像数据采集源有两种,一种是社区、论坛、网站类的大型图像库,例如移动139社区,其中含有共享式的类别各异的图像集合;另外一种是手机用户直接上传图像到数据库中心,例如手机用户通过“彩信”的方式上传图像到既定的图像数据中心。针对特殊商业价值的图像来源,需要与相关合作单位进行合作获取商品的最有价值的图像。

4.2 特征提取层

实现图像视觉特征的提取,如颜色特征、纹理特征,并对特征进行有效归一组合,形成对图像的唯一标识。

4.3 相似度计算层

基于相似度算法准则计算图像在视觉空间中的相似度,及对图像的内容进行计算,实现图像相似度的比较。

4.4 产品信息关联层

基于相似度比对结果与产品信息进行关联,如商品销售商场、商品销售价格、商品品质等综合商品信息。

4.5 客户信息交互层

客户与平台信息的交互,使得消费者能够快速、便捷地找到自己心仪的商品,实现轻松购物。

5 总结

本文介绍了多媒体内容理解技术在电信行业中的应用。首先对多媒体内容理解进行了介绍。重点是结合当前无线互联时代、3G时代背景下,该技术在电信行业中的实际应用,如在不良信息检测、识别,对于净化移动互联环境起到良好的作用。并提出一种创新性的基于内容理解技术的商业搜索平台,能够有效应用于移动商业环境中。不管是从信息安全角度、还是商业应用角度,多媒体内容理解技术均能与电信行业有效融合,并产生显著效益。

[1] 刘忠伟, 章毓晋. 综合利用颜色和纹理特征的图像检索[J].通信学报, 1999, 20(5): 36~40.

[2] Haralick R M, Shanmugam K, Dinstein I. Texture features for image classification. IEEE Transaction on Systems Man and Cybernetics, 1973,3(6): 610~621.

[3] Nguyen G P, Worring M, Arnold Smeulders W M. Similarity learning Via dissimilarity Space in CBIR. Proceedings of the 8th ACM international workshop on Multimedia Information Retrieval, 2006: 107~115.

[4] 广东移动. 基于内容理解的不良视频及图像快速识别算法研究验收报告.

Application of the content based multimedia understanding technology in telecommunications industry

ZHANG Zhen
(China Mobile Group Guangdong Co., Ltd. Shenzhen Branch, Shenzhen 518048, China)

This paper, firstly, gives an overview of the multimedia content understanding, and then focuses on the actual situation, combined with the telecommunications industry to put forward the technology in the telecommunications industry with high commercial value, and finally introduces an innovative understanding of technology, content-based business search platform.

content based multimedia understanding technology; multimedia; telecommunication

TN915

A

1008-5599(2012)11-0009-04

天津移动明年建成1253个TD-LTE基站

2012-09-10

作为中国移动13个启动TD-LTE扩大规模试验网建设的城市之一,天津市已经启动TD-LTE站点改造工作,预计将于明年年中完成扩大规模试验测试工作。届时,海河两岸共计75km2的区域将率先享受到4G网络带来的高速上网体验。

据了解,天津移动将承担1253个TD-LTE基站的建设任务。根据前期数据流量分析和用户需求,天津移动确定以海河两岸共计75km2的区域作为本次TD-LTE试验网覆盖区域,主要包括高校、商业区、文化区等重点区域,地铁、机场、火车站等重要交通枢纽及部分居民区等。

猜你喜欢
多媒体图像内容
内容回顾温故知新
借助多媒体探寻有效设问的“四度”
巧用图像中的点、线、面解题
有趣的图像诗
多媒体在《机械制图》课中的应用
主要内容
多媒体达人炼成记
适切 适时 适度——说说语文课堂的多媒体使用
遥感图像几何纠正中GCP选取
趣味数独等4则