戴上智能眼镜看教育

2015-09-10 07:22刘佳雯
中国信息技术教育 2015年23期
关键词:眼镜文字智能

刘佳雯

智能眼镜构建起新教育遐想空间

智能眼镜,外观上镜片可以拆卸,镜框右边有一个摄像头,镜架上附着一块白色卡片;而其内部却内置了双核CPU、1个投影仪、1个前置摄像头,还有传感器、三轴陀螺仪、三轴加速度器、磁仪等。智能眼镜没有耳机,其声音通过骨传导,即通过振动头骨,让人听到声音。如果说谷歌眼镜(Google Project Glass)是由谷歌公司于2012年4月发布的一款“拓展现实”眼镜,那么今天,比谷歌眼镜还神奇的魔法眼镜层出不穷,催熟了智能眼镜应用的市场。

以色列特拉维夫大学马克斯帕尔曼中心主任盖迪·阿里亚夫说,他们研发的智能眼镜,更像一台架在鼻梁上的微型电脑,“它可以完美地实现虚拟世界和现实世界的无缝对接”,即它能够在现实的空间中,借助计算机图形技术和可视化技术产生现实环境中不存在的虚拟对象,并通过传感技术将虚拟对象放置在现实环境中,两者实现无缝对接,融为一体。这副“魔法眼镜”,还能够将你看不懂的英文资料自动翻译成你所熟悉的中文,“在街上,戴上这副眼镜,你将获得所在地点大量的信息。戴上眼镜,就像是在鼻梁上架设了一个3D电影院,在你眼前透过眼镜展现出超大的电影屏幕”。据国外媒体报道,谷歌眼镜(Google Glass)已经进入医疗保健领域,它在手术室和医疗教育中的应用将可以解决真实世界中的健康和医疗问题。

智能眼镜从本质上是增强现实系统(AR也被称为混合现实系统,它将计算机生成的虚拟环境与真实世界统一起来,真实的环境和虚拟的物体实时地叠加,构造出具有虚实结合的虚拟空间,它不仅展现了真实世界的信息,而且将虚拟的信息同时显示出来,两种信息相互补充、叠加)的一种移动式实现形式。移动AR系统必须解决四个关键技术问题:显示技术、跟踪和定位技术、界面和可视化技术以及标定技术。

Google Glass未来的商业模式是Android生态系统的延伸:2013年4月28日,Google在Google Code上发布了Google Glass的Kernel源代码和GPLv2许可证,这意味着Google开放了修改底层代码的自由;预计未来Google公司还将会开放设备的硬件标准授权,产业联盟成员则各自生产设备,借此扩大产量,推动使用谷歌Android系统的智能眼镜普及。智能眼镜市场爆发LCOS微显示器模组环节受益最大——微显示器模组是智能眼镜上功能最重要、创新最多、货值量最大的环节,拉动的是全新的增量市场。

微软的黑科技智能眼镜HoILens又粉墨登场了。用手一挥就可以在墙上召唤出一个高清视频窗口播放电影,一个语音命令就可以调用设计好的3D建模并与工作伙伴共享修改的创意。

事实上,我们还见证了智能眼镜在医学上的另一种应用场景,同样让人脑洞大开,它的画面真实感极强:一位主刀医生在手术过程中,透过智能眼镜能直接看到病患部位类似CT扫描的影像,而当他将头转向一侧的时候,就犹如投射一般,显现出病人的病历和生理数据指标,而当他需要向不在身边的专家求助的时候,他可以将头转向另一侧,就能即时获得世界各个角落专家会诊般地研讨……也许将来某一天,你驾车上路不再需要导航仪,只要轻声地说出目的地,一张清晰的导航地图就会“刷”的一下呈现在眼前;在游览名胜古迹时,可以“穿越时空”亲身体验这里发生过的前尘往事;即使是在地铁上的局促空间里,也可以像置身影院般看一部极具视听震撼力的好莱坞大片。其实要实现这些并不是天方夜谭,而是你只需要一副智能眼镜……当科学、技术和需求结合到一起,一定能创建出一个既简单又很重要的平台,让智能眼镜进化成一件有趣的工具,也包括对教育技术有着深刻的革命性启迪。

智能眼镜产业对社会应用的努力

透析国内智能眼镜的发展状况和应用领域,我们不难发现,包括眼镜在内的智能穿戴设备在这个冬天有愈来愈火热之势。近日,素有投资风向标之称的华人首富李嘉诚以1520万美元投资可穿戴设备商Misfit Wearables,成为业界热点。与其说中国庞大的电子消费市场让这些行业开拓者莫名的兴奋,不如说智能穿戴勾勒出的未来生活图景让我们充满期待。从计算机到手机,再到智能穿戴设备,科技每前进一步,与人的融合就更近一步。

而在2014年谷歌在全球开发者大会上首次发布智能眼镜时,就有媒体预言,谷歌智能眼镜的出现,将导致智能手机“退休”。“谷歌眼镜几乎涵盖了所有智能手机的功能,不仅操作简单,还能提供迅速且实时的信息,如果再加上眼球控制或手势识别,使用者就不用中断手头工作去分心操控手机或计算机,相信其能成为相当有潜力的下一代计算机形式”。

目前普遍的分析认为,从计算机、手机,再到智能穿戴,整个趋势与人的融合越来越好。而智能眼镜相比手机,与人的融合更为直接、高效,因此,将来智能眼镜很有可能会是我们离不开的“器官”。不过,智能眼镜能与人“亲密”到何种程度,这在很大程度上取决于未来技术的发展程度。

目前国内做智能穿戴的主要是三类公司:一是创新科技的公司。他们也许人数不多,但往往有自己的专利技术。二是互联网公司。以小米和360为代表。三是手机厂商。尤其是智能手表因其和手机技术接近,所以是许多手机厂商争相进入的领地,如酷派、中兴等都已开始涉足。按产品来分,一方面智能眼镜因为光学上的技术要求,目前真正能做的厂家非常少;而智能手表目前国内的生产商估计已经达到三位数。另一方面,目前许多公司都要变成大数据公司,他们主要集中了三大类信息:一是环境数据,如谷歌地图,把全世界都放到了网上;二是物的信息,现在正在大力发展物联网;三是人的信息,这其中包括了人的自然属性,如心跳、血压等信息,也包括人的社会属性,如生活、商务等信息。

虽然从智能穿戴的整个进程来看,目前还处在孵化期的阶段,但智能设备的发展趋势是与人的融合越来越好,计算机、手机都还只是外设,穿戴式设备才可能成为人的一部分,对未来产生很大的影响。“也许在将来,人就是一个账号再加一个智能芯片,所有的信息都会存储在云端。我们可以相信,把整个互联网都穿到身上也只是一个时间问题,你需要的只是想象力”。

智能眼镜的技术突破

1.光学字符识别技术

把手机摄像头对准菜单上的法语菜名,屏幕上能实时显示出翻译好的中文菜名;将全世界图书馆的藏书转化为电子书;街景车游走于大街小巷,拍摄街景的同时也能从街景图像中自动提取文字标识,让地图信息更丰富、更准确……这些场景的背后有一个共同的关键技术——OCR(Optical Character Recognition),光学字符识别(OCR)让计算机“读”懂世界。

我们还可以设想一下OCR在未来教育中的应用场景:每次上课后,只要将电子白板用手机等智能设备拍照留存,系统便能自动识别并分检出不同学生对这堂课有针对性的后续作业和练习,并将待办事项自动存放到各自的电子日历中。事实上,我们已经向这个场景迈进了一步,微软前不久推出的Office Lens应用,已经可以通过视觉计算技术自动对图像进行清理并把它保存到OneNote,而OneNote中基于云端的OCR技术将对图片进行文字识别,随后你就可以拥有一个可编辑、可搜索的数字文件,为上述未来应用场景打下基础。微软几年前推出的手机应用Translator,除了支持文本和语音翻译外,还能用手机拍摄不同语言的菜单或指示牌,翻译结果立即浮现于原文之上。Office Lens和Translator这两款产品中的“中日韩”OCR核心技术就来自于微软亚洲研究院的语音团队。

2.从平板扫描仪到前端手机后端云

平板扫描仪对印刷体文本的识别率在20世纪90年代就已经达到99%以上,可谓OCR应用迎来的第一个高潮。当时最著名的事件是谷歌数字图书馆,谷歌还申请了图书扫描专利,实现了批量化的高速扫描。在此期间,手写字体的识别也在并行发展,被广泛用于邮件分拣、支票分类、手写表格数字化等领域。但从21世纪开始,准确地说是自从2004年拥有300万像素摄像头的智能手机诞生之日起,自然场景中的文字识别课题引发了OCR新一轮的突破,云计算、大数据以及通讯网络的快速发展,实现了前端采用BYOD设备进行文字捕捉,后端可以对其进行实时分析和处理,二者的结合让OCR的未来应用模式充满想象。

3.自然场景下的文字检测获突破性进展

自然场景图像中的文字识别大大难于扫描仪图像中的文字识别,因为它具有极大的多样性和明显的不确定性。例如,文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和对齐方式,横向、竖向、弯曲等都有可能;因拍摄图像的随意性,图像中的文字区域还可能会产生变形(透视和仿射变换)、残缺、模糊断裂等现象。与传统OCR技术中的扫描文档图像相比,自然场景图像的背景更为复杂。例如,文字可能不是写在平面上而是在曲面上;文字区域附近有非常复杂的纹理和噪声;图像中的非文字区域有跟文字区域非常相似的纹理,如窗户、树叶、栅栏、砖墙等。这些复杂背景会极大地增加误检率。这就必须结合相关技术和算法进行有针对性的优化和创新。

4.受噪声影响的CER的算法优化

在实际操作中,并不是每个CER都需要通过颜色信息来增强,因为有很多CER本身颜色均匀,没有噪声,尤其是在图片质量很高的时候。因此,在对CER进行增强操作之前我们会先判断该CER是否需要增强操作,以减少不必要的计算复杂度。当获得了高质量的候选连通区域时,就需要对其中的字符进行分辨,确定其是否为文字或非文字,微软亚洲研究院创新地提出了一套基于浅层神经网络的文字/非文字分类算法,比以往的算法更加有效。

5.文字类问题空间划分难题化解

利用无歧义学习策略训练一个相应的浅层神经网络,作为该子空间的文字/非文字分类器,可以将该神经网络看作是一个黑盒子,在经过大量学习之后,它便能较为准确地将文字与非文字分类。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。

6.量子光学对智能眼镜的贡献

近年来诺贝尔物理学奖得主对量子光学的发展功不可没,他们都来自不同的领域,同时也是各自领域的佼佼者。2012年,法国科学家塞尔日·阿罗什(Serge Haroche)与美国科学家大卫·维因兰德(David Wineland)因“发现测量和操控单个量子系统的突破性实验方法”获奖。2011年,三位科学家Saul Perlmutter、Brian P. Schmidt和Adam G. Riess因“通过观测遥远超新星发现宇宙的加速膨胀”获奖。2010年,英国曼彻斯特大学2位科学家安德烈·盖姆(Andre Geim)和康斯坦丁·诺沃肖罗夫(Konstantin Novoselov)因在二维空间材料石墨烯(graphene)方面的开创性实验而获奖。2009年,原香港中文大学校长高锟(Charles K. Kao) 因“在光学通信领域光在光纤中传输方面所取得的开创性成就”而获奖……

目前智能眼镜所面临的问题:一是电池续航;二是没有杀手级应用。对于教育领域而言,后者的使命,当然不能让科技界单方面承担,教育技术的专家们似乎更拥有应用开发的话语权,我们都坚信未来的学习将是定制学习的时代,教师不再是固定的,教室也不再仅限于单一地点,教材更不再局限在课本或课件中。未来学习将是结合真实生活场景和个性化需求的学习服务。我们有理由期待,智能眼镜将引领在线教育发展的未来,抑或引发新一轮的学习革命,重新定义未来学习,铸就教育发展史上具有划时代意义的一座新的里程碑。

猜你喜欢
眼镜文字智能
文字的前世今生
热爱与坚持
智能烹饪机
梦中的文字
超智能插秧机
从天而降的眼镜
自由光2.4L专业版+智能包
神奇的眼镜
青蛙汤
种出来的“逍遥居”