E级超算还有相当长的路要走

2016-12-27 18:03

财经天下周刊 2016年24期

中国超算，20年四大步

EW：回溯近20年来中国超级计算机的发展历程，你觉得中间哪几个重要转折点不能不提？

LJ：20年前，中国高性能计算机是被西方禁运的，而现在我们已经基本实现了自主可控。这其中经历了四个阶段：第一个阶段是上世纪90年代中期，我们只能实现软件层面的自主，器件层面还是大量采购国外的部件来做机器。这也是现在中国高性能计算机生态环境不好的缘由之一，无法标准化，导致很多应用有问题，在商业化市场上，大家习惯的软件很难被应用。

第二个阶段是上世纪90年代后期，国家开始重视工业通用标准，很多器件甚至软件就都得用国外厂商的，离自主又远了一点。那个时候大部件都通过进口，就像汽车，可能分成几大块进口，只在国内组装。

第三个阶段是本世纪初期。2005年，我们就开始大量地把过去从国外进口的大部件自己进行设计。大概到2007年、2008年的时候，这些大部件已经完全可以自己设计，但是核心的那些器件、软件模块还是用国外的，这个问题一直延续到今天。

第四个阶段就是要真正地实现对所有技术的掌握和突破，而且让它能和今天的工业通用标准很好地衔接。如果最后这一步走出去了，我想中国这个产业就能跑到全球的潮头。

EW：目前中国超算行业格局是怎样的？

LJ：国内有三支队伍在做：国防科技大学、江南计算所、中科曙光。其他两家更多地可能是在某一领域去完成它的任务，它们能获得很多国家的资源支撑。而曙光则是跟外国企业在市场上靠商业竞争，且人力成本要高于其他两家。企业的特点是，它做什么东西，都要有市场价值。

在核心优势方面，国防科技大学有很好的网络技术，在自主高性能互联网络方面也非常独到；江南计算所有很好的CPU技术，在其他自主技术方面也很好；曙光则有很好的应用架构设计能力、工程设计能力、用户推广能力等，此外，曙光是三家机构中唯一完全市场化运作的企业，在商业化方面，曙光是做得比较好的，更加注重高性能计算机的产品化和市场占有率。

在与国际上的IBM等公司的市场竞争中，我们的策略是，产品做好、技术做好、做得稳定可靠，让机器好用又耐用，价格适中。市场竞争就是这么回事。

EW：中科曙光在超算业务上有哪些关键产品？

LJ：十多年前，“曙光4000A”是中国第一个进入全球高性能计算机TOP500排行榜且位列前十名的系统。这对于那时的我们来说，已经是非常好的成绩了，因为从过去的默默无名，突然排到了前十。后来到“曙光5000A”，也是排到了全球前十名。在“曙光6000”出来的时候，已经是全球第二名。“曙光6000”的设计目标是市场化的需求，所以它的应用非常好用，装在深圳超算中心，一年能收取两个亿的服务费，非常完美。

现在，曙光新一代高性能计算机正在研发。它是一款面向某一类特殊应用的机器，比如气象、航空航天等，大概明年就能完成。它针对某一族应用去做优化，因为不同类型的应用所需的架构都不一样。曙光新一代高性能计算机经历了长时间研制的原因就在于，它不断地根据应用的变化在调整。

EW：之前《华尔街日报》报道“神威·太湖之光”时曾称，中国的超算已经超过了美国。对此，你怎么看？

LJ：虽然中国的“神威·太湖之光”的性能超过了美国现有计算机的性能，但这个性能是指Linpack的性能，这个话得说严谨。

从行业角度来说，我不认为中国超算已经超越美国。美国超算做得非常扎实，它的机器跟应用匹配着做，应用层面我们尽管在快速追赶，但仍然稍有脱节。系统和应用的结合、和应用的匹配，这是最重要的。这也是我们现在跟人家相比最大的短板：一方面，中国超算对应用的支持还不是很好；另一方面，它的应用领域也太窄，仅限于科学计算，还没有延伸到信息服务领域中去。

“神威·太湖之光”虽然在TOP500中已经排名第一，但它是独立自己做的CPU，很多市面上的应用它跑不了，而且本身架构不适合做信息的处理，它主要还是在解方程。

EW：能否详细讲述一下，超算是如何应用在这些科学尖端领域的，对我们日常生活又有哪些影响？

LJ：超算在包括航空航天、石油、电力、水利、生物、制药、环境、国防、教育、医疗、金融、电信、政务、互联网、云计算等各个领域都有着广泛的应用。在这些领域，以数字形式存在的海量信息，只有依靠这种大型计算机，才能进行处理和分析。

在尖端科学领域，以气象为例，由中科院大气物理所、曙光公司、中科院计算所、中科院计算机网络信息中心联合研发和创制的“地球数值模拟装置”原型系统，让科学家可以实现对大气、洋流、地壳、生态等的仿真研究，用于还原或预测地球自然变化过程，可用于应对全球变化、防灾减灾和环境治理等问题。

此外，2013年“嫦娥三号”在月面成功软着陆。这个过程中，曙光高性能计算机对“嫦娥三号”的轨道设计、实时计算、预报等也起到了非常重要的保障作用。

再举几个跟我们日常生活相关的例子。高性能计算集群能够助力雾霾预报，通过对污染源、区域污染数据的精细化分析，为污染防控提供决策指导。如大家熟悉的去年9月抗战胜利 70 周年阅兵期间的“阅兵蓝”和G20的“西湖蓝”都是基于超算的预测分析和追因溯源才得以实现的。

去年阅兵期间，以曙光高性能计算集群为核心的中国环境监测总站针对京津冀及周边区域大气污染过程进行不少于未来7天的预报预警、潜势预测以及污染源贡献追因。今年9月在杭州举办的 G20，曙光高性能计算机系统建立了适用于浙江省及杭州市的区域空气质量数值模型。利用这个模型，再结合气象条件、监测数据和大气污染物排放清单，制定了 G20 峰会空气质量保障控制措施。

从超算到E级超算

EW：时下超算已成为深度学习的引擎。曙光在人工智能方面有哪些想法？

LJ：当我们把这个超级计算机的应用扩展到信息服务、信息处理这个领域，包括大数据平台，大数据的处理、分析、挖掘，再加上一些新的技术，它就变成了人工智能，变成了可以通过机器去深度地学习。它的脉络就是这么过来的。不过，对于人工智能来说，虽然计算能力很重要，但更重要的还是算法、模型、软件等。二者相结合，加上市场上有商业利益驱动，我相信会发展得非常快。

对曙光自身来说，今年4月跟寒武纪签约合作，此前也跟如NVIDIA、致生联发等公司在人工智能方面有合作。以寒武纪为例，它的芯片技术在人工智能领域是比较优秀的，但因为人工智能的应用领域很广泛，只一个寒武纪是不行的，所以我们也在积极地跟其他企业寻求合作，面向E级机开发新一代的所谓的加速部件。比如，我们还跟NVIDIA一起合作进行这方面的研究，以便让我们的E级机在推出的时候能有非常好的面向人工智能应用的性能。

EW：“十三五”规划里面，国家对E级超算十分重视。研制E级超算的时间表是怎样的？

LJ：大型计算机的研制周期平均约为3～5年。E级超算还有一段相当长的路要走，计划在2020年去完成一台有百亿亿次计算能力的机器，其研发经费预计约为30亿元。

预计在2018年，能够拿出一个原型系统。它是一个缩小比例的、1/16计算能力的机器，但内部构造基本相同。按照预期目标，该原型系统能效比为10GFlops/W以上，保证可扩展至10万节点、PUE（Power Usage Effectiveness，是评价数据中心能源效率的指标）低至一定水平。在完成原型机的过程中，所有相关的技术就基本都完成了，再花两年左右的时间进一步完善，然后把规模做大。

在“十三五”规划里面，江南计算所、国防科技大学、中科曙光三家会一起来推动E级超算。最后根据对这三家原型系统的评估，谁的架构最优就以谁为主，另外两家合作。比如“十二五”规划的无锡那台超级计算机，虽然主计算分区是由江南计算所搭建，但服务分区是曙光搭建的。

EW：如今在全球范围内超算性能排第一的“神威·太湖之光”，它的性能峰值达到了125Pflops。如果再迈到E级超算，性能再提高一个数量级，会不会面临性能过剩而应用跟不上的情况？

LJ：现在的问题就是超级计算机的技术发展正面临左右两难的状况。很多超级计算机一味地去追求性能，而这种性能的测算体系是以一道题做基准去测出来的。比方如Linpack，它是一种数学方法，解一个方程组，看谁用的时间短，决定它的效率。但是在今天看，这一台大型计算机会解方程组，不代表它会做别的，超级计算机在面对不同算法、不同应用时，效率差距极大。

100Pflops级别的性能已经很好了，而未来的E级机，性能又高了10倍，如果依然像现在这样，应用层面依然做不好的话，等于弄了一堆废铁，肯定是不行的。所以要在追求应用灵活性、广泛性的基础上，兼顾它的性能峰值，这才是未来的方向。

EW：相较你刚才提到的Linpack测试，有没有更加能反映机器实际性能的测试方法？

LJ：Linpack的方法已经使用20年了。在20年前，因为超级计算机的应用领域很窄，基本上是以解代数方程为最主要的应用，所以那时的测试方法就用了Linpack。可是在今天，超级计算机的应用已经五花八门，用一个指标已经不能完全衡量其性能了。现在又出来如HPCG等一系列的测试方法，它们是一个综合体系，用一组应用进行测试，每个应用的测试结果最后进行加权，用一个算法平均出其综合的性能，这就更容易反映机器在复杂应用环境里面的真实性能。

EW：之前“神威·太湖之光”能效比是6GFlops/W，而按照当前国际公认标准， E级超算的能效比至少要达到50GFlops/W。实现这一跨越，会面临哪些方面的困难？

LJ：整个计算机里面，最耗电的就是CPU，其他如内存等相对耗电量很小。对于我们来说，似乎唯一的方法就是在相同功耗的情况下提高芯片的性能，或者说提高它的集成度。现在芯片都是用28纳米的工艺，很快就要用到14纳米甚至7纳米的工艺。在摩尔定律下，线宽越来越窄，它集成电路的数量就越来越多，并行起来的性能就越来越高。

此外，业界也有讨论用异构加速或异构综合的方式来降低功耗。目前有大量的算法是通过软件迭代来产生结果的，耗时非常长。异构加速这种加速部件，里面是硬件的CPU单元，它用硬件来处理一些特定的应用，能将耗时的、效率很低的东西，更高速地去进行处理和计算。未来超级计算机的架构，既要满足工业的通用标准，又要满足性能要求，这种异构的通过高性能加速部件来构成的超级计算机，在我看来是未来的主流。

最后，在能耗这方面还有一个名词叫PUE，“1”是最好的，我们追求的目标就是让它趋近于1，即不需要花额外的能耗去处理冷却的问题，这是一个终极目标。我想，我们的E级机在这个上面会有重要的突破，让PUE趋近于“1”，让机器自己来冷却自己。

EW：与现在相比，E级超算在应用层面会有哪些不同？

LJ：一方面，现在的超算在应用层面问题依然突出；另一方面，不同用户对应用的需求也不一样。这都是我们正在面临的挑战。

但在E级超算出来后，通过软件定义系统，一个大机器可以分成若干个适应不同应用的区域，通过软件来定义这个区域。比如如果是人工智能应用的话，我们的加速部件的性能和数量就要更多，这样的话，就可以通过软件在实时应用场景下去重新配置这个机器，让它更适合这类应用。

这样一来，在应用层面将几乎没有限制。在全球范围内，99%的科学计算应用，它都能良好地支持；同时能够支持采用全球工业通用标准的云计算、大数据，云服务、云存储等方面的应用。如果腾讯愿意，甚至微信也可以在这上面得到支持，但这里面就涉及一系列的技术，不在芯片上做文章是很难实现的。

战略布局再纵深

EW：国产芯片这个行业，它跟国外的差距到底有多大？

LJ：这就是全面的差距了。英特尔从1968年就开始了。在这几十年当中，数千亿美元、数万名工程师的投入，才造就了他们的现在。中国的龙芯是1998年开始，差30年，投入了数亿元人民币、数百名工程师，这个差距是显然的。但是从趋势上来看，国内芯片行业是越来越好了。

EW：未来在E级超算研发方面，中科曙光还有哪些重要举措？

LJ：我们目前一系列的技术创新都围绕着E级机在展开，这里面包括高性能的冷却系统、高性能的网络、高性能的计算部件等，都有不同的团队在工作。预计到明年年底，可以公布成果。

EW：这些团队的人才从何而来？

LJ：这里面就有中科院的优势，人才是中科院对这个产业的重大贡献之一。超算这个东西不仅要懂计算机，还得懂化学、力学等各个学科的知识，才能去帮助人家做一些事。而中科院有那么多不同领域的研究所和学习不同学科的学生，我们会从各个研究所找来这些跨界的人才。

EW：除了高端计算机，中科曙光其他业务现在发展得如何？

LJ：在存储方面，像今天互联网的应用，大规模的、高可靠性的数据存储，是并行存储的。曙光有一个分布式存储系统，完全自主，性能也非常好。这个东西我们做了接近10年的时间，一直在不断地发展，存储业务营收今年上半年增长了14.53%。另外，我们在信息安全等领域也都有不同的团队在做。

EW：据8月23日公布的中科曙光2016年中报，软件、系统集成及技术服务营收增速比较快，相较上年，增幅达到了60.63%。这和云计算以及智慧城市发展有关系吗？

LJ：有关系。2008年，我们在成都建立了全国第一个云计算中心。后来，随着我们“数据中国”战略往前发展，目前，曙光已在全国20多个城市建成了云计算中心，运行的政务应用和智慧城市应用种类超过了1000个。此外，中科曙光已经参与了30多个城市云的建设，汇集数据达30多PB。城市云和行业云的建设使得公司在全国范围初步建成了一个云数据服务网络。

包括云计算，包括大数据，市场上也有其他的一些公司在做，但中科曙光有自己的优势：第一是软硬件的体系，都是我们自己的，这使得我们能够更高效、更快速地提供更优质的服务；第二是我们的城市云，它不是万金油，而是完全针对这个城市的应用需求去设计，所以它涉及的目标极其明确，是非常收敛的系统。

EW：你是如何定义智慧城市这一概念的，它能够帮助人们改变生活中的哪些事情？

LJ：我们不叫智慧城市，就叫城市云——城市的数据体系。今天所谓的人工智能大部分是基于历史的数据记录，然后去预测未来，这样的人工智能，仅仅靠数学模型，它的精度还比较差。

我们的“数据中国”战略希望把超级计算机技术、今天的云计算技术以及大数据处理技术能做一个充分地融合。我们打算在各处，比方说在全国，在百个城市分别建立以城市云计算中心为载体的一个城市大脑，把一个城市所有信息放在里面，形成一个大的数据平台。

这个数据平台是一个可视化地理信息系统，简单来说就是一张大地图，在地图上有各种数据，这些数据分为不同的图层，一类数据就是一个图层，比如，老年人的住址、公交路线数据、天气状况等都可以成为一个图层。

在这样的大数据体系里面，通过应用把不同图层之间的数据联系起来，这些数据就像真的神经元，等这样的神经元联系建立得足够多，它就是个大脑了。今天已经能使用一些了，但还要边使用边完善，这是一个动态的过程。

EW：之前曙光还提出过“云和计划”，这是怎样一个体系呢？

LJ：在城市云的推动过程中，一家企业的力量还是太单薄了，所以我们希望在一个城市里面找到合作伙伴，能够并行地处理一些事。我们自己做，一年建设5个、7个已经是很大的工作量了，但请一些合伙人一起建设，这样能快一点。曙光也会为加盟者提供统一规划设计，包括当地智慧城市项目的顶层设计、技术架构，以及城市云中心的业务范围、发展规划等方面。

EW：在信息安全方面，目前国内整体发展状态是怎样的？

LJ：我们以前提“全面自主”，但全面自主并不意味着安全。现在已经开始提“安全可控”。信息安全这个东西最重要的一点是可控。可控指的是，发现问题后，我们有对策解决。对于我们产业界来说，就是要有自己的设计能力，这样一来，应对安全威胁的能力就大幅度提高了。

此外，安全也分不同的级别。不同的部门，不同的机构，对安全级别的要求千差万别。比方说国家的机要系统，对安全级别要求较高，而信息安全的威胁其中之一就是入侵，通过你的各种漏洞，软件的漏洞、硬件的漏洞入侵，去偷走你的数据。对这些系统来说，使用龙芯的机器就很难入侵，因为那些入口别人都不知道，因为标准是我们自己的而非通用的。不过，需要这一安全级别的机器占比不多，曙光的产品中每年约1万台，占比不到10%。

EW：对于超算来说，安全也是很重要的一个方面吗？

LJ：超级计算机最重要的追求倒不是信息安全，它更多的是从产业安全的角度出发。比如，在“神威·太湖之光”之前的“天河二号”使用了英特尔公司研发的芯片，而去年出台的一项美国出口禁令使该系统未能获得升级所需芯片。现在要做的就是，突破这些技术，达到自主可控。如果再给你禁运怎么办？不怕，可以自己做。

EW：能否透露下中科曙光的未来发展方向？

LJ：在E级超算的研发之外，我们对未来的期望是，能够提供一整套IT系统，企业或者大机构数据中心里几乎所有装备，我们曙光都能提供。