弄潮数据“洪流”
——记上海交通大学电子信息与电气工程学院计算机系讲席教授过敏意

2021-05-11 04:27张静怡
科学中国人 2021年7期
关键词:洪流峰值过敏

张静怡

过敏意

这是一个大数据的时代。

一个人的消费行为、支付行为、娱乐行为、社交媒体行为,甚至行动轨迹等都在为大数据这座摩天大楼添砖加瓦。

大数据可以有多大?

举一个简单的例子,2019年天猫“双11”开始后,仅14秒成交额就破了10亿元。2018年天猫“双11”全天交易额为2135亿元,而2019年用了16小时31分就达到了这个数值。第三方机构数据显示,淘宝App当天的日活跃用户比2018年同期增长9638万,达到4.76亿。对日活过亿的淘宝来说,在类似“双11”这种特殊时刻面临的用户骤然上涨就是一个“突变型峰值”——扛不住的话,轻则响应缓慢,重则系统崩溃。

更重要的是,在大数据时代,不是只有“双11”才会遭遇“突变型峰值”。春晚当天的实际登录量,可能是“双11”的十几倍;而12306,春运40天每天都是“双11”。就连新冠肺炎疫情“众宅”期间,中国网民每天花在移动互联网上的时长都比2000年年初增加了21.5%。

截止到2020年6月,中国网民人数已达9.4亿,并且依然处于增长状态。这意味着,在我国,“突变型峰值”的场景只可能增多,不会减少。站在数据洪流中,如何应对日益增长的互联网服务应用需求,这也是摆在过敏意面前的重大课题。

云上的“双11”

对于一家企业来说,当一台服务器的运算能力不足以满足运算需求时,就需要企业购置多台服务器,甚至演变成为一个具有多台服务器的数据中心。但问题是,初期建设成本已经很高了,可中心要运营下去,消耗的电费以及维护支出,可能比建设成本还高,普通的中小型企业难以承担。

“云计算”就是为了解决这个问题出现的。它本质上是一种提供资源的网络,打个比方,这里的“云”就像水、电、燃气一样,用户可以随时取用,不限量,但需要按照使用量付费,这时的使用成本当然远低于用户自己去建造一个“自来水厂”或“电站”。在云计算面世之初,这种近乎无限的资源量和弹性能力,就是其最鲜明的卖点。

即便如此,当传统云计算遇到突变型峰值,还是有心无力。突出问题表现为:“成本高”——应对峰值需求预备容量,成本不节约;“延迟长”——云中低算力节点负载高,调度不均衡;“吞吐低”——存储设备扩展故障剧增,回复不迅速;“扩展慢”——服务镜像仓库网络拥塞,分发不及时;“运维难”——专家经验演进和查询慢,分析不智能。

这样的云计算,真的能扛过突变型峰值吗?

“云计算是今后几十年企业的使能性技术,是发展趋势。”过敏意坚信,只要能让云计算把优势发挥出来,就能找到一个最优解。

事实上,阿里巴巴也愿意相信他的判断。自从2009年计划推出天猫“双11”起,阿里巴巴就预料到突变型峰值势必会给计算服务带来巨大的流量压力,可能超过日常情况几十倍,甚至几百倍。怎么办?总不能因为有百倍的流量压力就购买百倍的服务器来解决问题吧。那可太贵了。不只是造价贵,阿里巴巴当然可以按照“双11”的用户量来准备服务器,但一年有几个“双11”这样的盛况呢?他们更不想看到精心打造的服务器资源一年中大部分时间都在被浪费。可云计算的问题怎么办?

当然是迎难而上。

彼时,过敏意刚从日本回国不久。对他来说,辞去日本会津大学终身教职的一个重要原因就是要走出舒适区,迎接更具挑战性的生活,为中国科技事业做贡献。对认准了的事,他有一股“一根筋”式的执拗,为了得到圆满的结果,他带着团队与阿里巴巴一合作就是十余年。

突变峰值的挑战不是单一技术点就可以应对的,过敏意带领的上海交通大学团队就开始和阿里巴巴团队探索混部技术,希望通过将在线业务和离线大数据计算的负载混部运行在共享的集群中,来显著提高数据中心资源利用率。

举个例子,在数据中心日常态下,在线业务普遍资源利用率较低,且业务峰值压力时间短,或固定在大促脉冲波峰时间,白天压力较大,且对延迟和抖动敏感;离线业务正好相反,平时资源使用压力较高,业务资源使用较为固定,主要资源压力集中在晚上,重视高吞吐,但对时延不敏感。

这时候,在“容器和混部技术”的“统筹”下,服务器能够将相同/相似需求合并处理,同时识别任务的轻重缓急,优先处理对时效要求高的任务。那问题来了,服务器会因为收到这样的“指令”有针对性地减缓执行速度吗?又会不会牺牲掉被定义为“轻”“缓”部分用户的体验呢?

过敏意觉得,千台服务器同时运行的情况下,每天一两台出现问题比较常见,一般情况下服务器会在短时间内自动恢复,这时用户可能无法感知到。但由于服务器规模过大,以及分布式系统本身的复杂性,的确可能会降低运行其上的软件服务质量。所以,在基于容器和混合部署的高效资源整合技术之上,他们特意开发了基于内存数据分析的服务质量保证技术。其内核就是预先识别出问题服务器,并引导负载使用其他正常运行的服务器,令“统筹”更加完善。“这是我们的撒手锏。”过敏意说。

再加上突变峰值用户请求快速处理技术、基于存储阵列的数据高可靠吞吐技术等核心技术的突破,他们把“面向突变型峰值服务的云计算关键技术与系统”这座大厦夯实得越来越牢固。

2014年之前,阿里电商云化平台峰值流量达到平日的173倍时,就会出现系统崩溃、无响应等现象。2015年起,应用该系统,实现了1000万核的实时弹性扩展,峰值流量达平日1069倍时的平稳支撑,无丢单漏单,助力2018年实现“双11”日销售额新高。

到2019年,阿里巴巴集团基于阿里云智能天然的弹性能力和自研神龙服务器强大稳定的性能,通过混部集群全面上云,实现了基于安全容器的新一代云原生混部技术的架构升级;且通过基于数据智能驱动的运维、调度和管控等创新方法,实现了自动智能化的云原生混部集群管理能力,大大提高了混部集群的业务稳定性,更进一步降低了成本。

访问美国时和佐治亚州立大学潘毅教授(右)在一起

2019年“双11”战役打响后,这一系统带来了一个新的传奇。1秒钟,可以创造8700万次的数据处理,可以产生54.4万笔订单!这组峰值数据,是世界最大信用卡组织VISA交易峰值的8倍,也是2009年第一次“双11”的1360倍。数据库中,一个新的世界峰值纪录诞生了。

更令人称道的是,在这期间,系统将峰值时用户请求尾时延从分钟级降低至百毫秒级,用户发出搜索指定商品、查库存、总价计算等指令的响应速度大大加快。让用户体验“丝般顺滑”的服务——当初立下的目标,他们做到了。

造“云”进行时

“面向突变型峰值服务的云计算关键技术与系统”为过敏意赢得了科研生涯中的第一个国家奖——2019年度国家技术发明奖二等奖,也实现了互联网公司在国家技术发明奖上零的突破。

为什么能够支持突变型峰值服务的云计算系统(SPS)如此受青睐?仅仅因为“双11”吗?当然不是。SPS最耀眼的优点就是可以支持暴增的流量服务需要。这让阿里巴巴、中国联通、新浪微博、中国邮政、优酷视频、饿了么等,扛住了瞬间暴涨百倍甚至千倍的交易量洪峰。

21世纪进入第2个10年,信息洪流下,电子商务、交通出行、医疗健康、文化社交、电信运营、生活服务等领域无一可避免突变型峰值的冲击。这时,SPS的出现无疑是雪中送炭。尤其在计算资源的高效整合利用方面取得重大突破之后,在保证终端用户请求服务质量的前提下,SPS将硬件资源利用率从10%提高到45%。

这是什么概念?2015年年初,卫宁健康云服务产品的在线用户到3000家时,就开始出现响应迟滞、拒绝服务等现象。但从同年12月起,采用强隔离富容器智能混合部署、分布式数据分析加速等技术后,它能同时支撑5000多家医院就诊高峰期时段多种在线离线服务。

交通出行也一样。现在已经不仅限于每逢佳节必堵车了,每逢雨雪天气、早晚高峰期一样易堵车,这样的交通状况令打车也成了一大难题。2020年国庆长假前,部分出行App系统大面积崩溃把“最难打车日”送上了热搜。究其原因,最主要的就是当突变型峰值到来之时缺乏高可靠高吞吐技术的支撑。“数据失效时存储阵列恢复慢且扩展困难”,明白了其中的难点,SPS对症下药,发明了基于存储阵列的多级缓存算法优化技术、多盘容错存储阵列编码及快速扩展技术,提高了数据可靠性及访问速度,实现了存储阵列单节点数据恢复吞吐率从1.61GB/秒到2.75GB/秒的提升。高德地图两年前就应用了相关技术,这使其在2018年国庆期间导航规划105亿次,成为全国第一个日活用户破亿出行服务App。“地球不爆炸,高德地图不放假”,或许这次热搜事件上,来自高德地图官方的戏谑性表态最能说明SPS的优势了。

获得国家奖,对SPS是一个巨大的肯定。但过敏意认为,他们的工作还要继续下去。毕竟随着5G时代的来临,客户端的数据处理能力只会越来越强,数据交换也会更频繁。新冠肺炎疫情以来,“云”成了一种趋势。人们在云端看诊、开会、办公、上课、看演出……运算需求增长迅猛。过敏意希望,SPS的应用场景能进一步拓展,把这朵看不见、摸不着的“云”做大做强,有效支持和响应日益增长的客户端需求,这也是他们下一步要考虑的重大问题。

在实验室和学生讨论

城市之光

“十年磨一剑”,过敏意觉得值得。

令他骄傲的是,S P S已经响应国家“一带一路”倡议,进入东南亚、中东、欧洲,面向全球提供云计算服务了。但他的目光却没有停滞在“突变型峰值”上。在他眼里,大数据像一道光,应该照亮的不只是某个行业,而是整个城市。

在过敏意全职回国前,2006年年初,我国发布的《国家中长期科学与技术发展规划纲要》就提出了“重点研究城市基础数据获取与更新、城市多元数据整合与挖掘、城市动态监测与应用”等发展战略,要求在2020年之前建立城市综合信息平台。城市大数据计算理论与方法研究逐渐被列为国家重大战略。

那时的过敏意,主持的“普适计算的关键理论与技术的研究”已经得到国家自然科学基金重点项目的支持立项。看到国家层面对大数据的支持,以及对相关科研的重视和支持程度,过敏意认为回到上海交通大学,他有太多有益的事要做了。

的确如此。自从2007年全职回国后,国家杰出青年科学基金、国家自然科学基金中芬合作项目、国家原“863”目标导向重点项目、国家原“973”计划……项目接二连三地进来,过敏意甚至将自己的研究侧重点调整到大数据和云计算上。

2020年6月,科技部公开了原国家重点基础研究发展计划验收情况。结果显示,过敏意的“城市大数据三元空间协同计算理论与方法”为“良好”。在这个项目中,他把目光投向国家在智慧城市建设中面临的城市精细化管理需求。

从某种程度上说,城市大数据的知识和价值蕴藏于一个“人、机、物”三元空间里。在信息化推进和发展过程中,很多城市的政府与公共服务部门都积累了大量的数据资源。按理说,再进行大数据融合与集成就简单多了吧,但问题是城市大数据来源广泛、类型众多、结构复杂、动态实时且关联也非常复杂,想要实现数据的“聚、通、用”非常难。

所谓的“聚、通、用”要达到什么程度?举个例子,如果是在城市公共食品安全管理中,食品原材料的采购、加工、物流和销售信息,消费者对食品的评论,以及医院就诊和药店购买记录等就属于三元空间的大数据。而在他们的系统中,一旦对这些数据进行深度融合,利用群智认知方法,就能够挖掘、推理潜在的食品安全隐患,定位、追溯问题环节,提供有害食品的安全预警,从而控制有害食品的蔓延。

为了实现这一点,过敏意团队确立了清晰的思路,“从数据感知到群智认知再到智能服务”。项目由上海交通大学联合浙江大学、西北工业大学、中国科学院深圳先进技术研究院共同承担。自2015年项目启动之后,他们要做的就是以数据三元化、认知群智化、计算层次化为特征,建立一套新型城市大数据计算理论与方法体系。相关成果发布后,得到了超过30个ACM/IEEE Fellow、国际著名期刊主编等学者的引用,受到高度认可和肯定。其中,实现群智感知的CrowdOS开源系统平台,支持二次开发,已在城市管理和公共安全方面展开示范应用,2019年9月开源上线以来已经有包括美、英、日等在内的30余个国家的科研人员访问和下载。高性能分布式深度计算引擎SINGA,目前已经成为Apache顶级项目(http://singa.apache.org)。作为世界使用排名第一的Web服务器软件,Apache可以运行在几乎所有广泛使用的计算机平台上,能与之联手,是SINGA的重要突破,也受到了国内外学术界和工业界的极大关注。目前,网易、shentilium等公司已经在其服务器集群上部署了SINGA。

作为项目首席科学家,过敏意经常在各种场合针对三元空间数据利用进行深入浅出的讲解。项目组其他骨干人员也做出了同样的选择。如果说计算令城市更智慧,他们期冀此刻就种下星星之火,吸引更多同道中人加入到建设智慧城市的队伍中来。那将是一个流光溢彩的未来。

过敏意的“道”

“我的整个学术生涯比较长,已经有30多年了。”过敏意说。对计算机的好奇,使得他在不同时期有着不同的侧重点。比如:南京大学时侧重软件工程,在日本时做过数据挖掘、分子计算、生物信息学研究等,回国之初做普适计算,后来又集中于云计算和大数据。“转型要付出很多,但也拓宽了研究领域,可以把不同的研究方向融会贯通,形成新的大课题。”他表示,计算机科学本来也很难泾渭分明,真要较真的话,其实他也从未绕开过“并行与分布式系统”“高性能计算”这些圈子。

回国十余年,过敏意身上变化最大的就是一头黑发渐白。“但我心态还可以,没什么能让我沮丧的”,他强调道,并不掩饰自己的斗志。他一直是笃定的,打定主意不回头的那种。

21世纪初,日本还是世界第二大经济体。但过敏意更愿意换个角度去看问题。“我们国家蒸蒸日上,差距正在缩小,最重要的是国家非常重视科技投入。与其在日本培养人才,不如回国去培养人才,为祖国的教育和科技事业做点贡献。”一有这个想法,他就再也回不到原来平稳的一眼看到退休的生活中去了。“终身在日本,非我所愿。”他说。

给“城市大数据三元空间协同计算理论与方法”做总结时,过敏意在PPT的最后写道:建立一支有凝聚力,高层次的城市大数据研究团队。

培养人才,他一直是认真的。

2019年9月,阿里巴巴达摩院宣布启动第二届青橙奖评选,将面向信息技术、芯片、智能制造等基础研究领域,遴选出10名青年科学家。上海交通大学青年研究员陈全位列其中,他是过敏意的学生。2008年,阿里云创始人王坚找过敏意合作时,陈全也参与了该项目。提起这位学生,过敏意很是欣慰,陈全曾获中国计算机学会2015年度优秀博士论文奖,在美国密西根大学完成博士后研究后回到上海,现已成为过敏意团队的骨干力量。到2020年第三届青橙奖颁布时,团队的另一位青年教师冷静文博士也榜上有名,一个团队连续两届获得青橙奖,一时传为佳话。

而在学生王鸿伟的记忆里,过敏意一直在给他们创造宽松自由的环境,支持他去参加各种学术会议,甚至支持他提前半年多毕业去斯坦福大学做博士后。现在他也有回上海交通大学的打算。

但学生还是少数,过敏意团队的重要组成骨干还是其他海归。用他的话说,这是为了避免“近亲繁殖”,开阔视野。“我为人人,人人为我,团队就应该各有擅长,取长补短,协同发展。”多年过去,他打造出和谐向上的团队文化。他乐于看到,走出去的学生为人处事受人称道,无论在高校还是企业都能独当一面;走进来的人自由成长,道路越走越辽阔。

他相信且坚持“规范”,这里的规范不是指套路和模板,而是在求解找真相的过程中,要一丝不苟、精益求精。他做到了。至今,他本人在各种学术期刊、会议上发表了400余篇论文,出版中英文著作6部,授权发明专利40多项,在国际学术会议上7次获得最佳论文;2020年又当选欧洲科学院院士。而近几年里,他的团队中几乎每年都有青年骨干脱颖而出,入选各类青年计划。

“各人有各人的道”,过敏意的“道”很单纯,他不迷信英雄主义,认为只有团队效益提升到最高,才能干成大事。就像,不管现在的他在外界看来有多成功,他满心里只有:对云计算要有更高的要求,以解决现在解决不了的问题。

“就算遇到难题,只要坚持下去,总归是车到山前必有路,柳暗花明又一村。”过敏意时常以此勉励身边的年轻人,“做学问当心无旁骛,切忌像猴子掰玉米,掰一路扔一路,到最后什么也得不到。”

猜你喜欢
洪流峰值过敏
犊牛生长发育对成年奶牛高峰奶产量和峰值日的影响
过敏星人SOS!
刘毕新
前进,中国
活在短视频“洪流”里的年轻人
远离季节性过敏
云南省民用汽车保有量峰值预测
人为什么会过敏?
花粉过敏