阿尔法狗再进化自学3天碾压李世石

2017-11-01 21:28

证券市场周刊 2017年37期

AlphaGo再次登上世界顶级科学杂志《自然》。2017年5月，这个人工智能程序以3：0赢下中国棋手柯洁后，AlphaGo宣布退役，但DeepMind公司并没有停下研究的脚步。10月18日，DeepMind团队公布了最强版AlphaGo，代号AlphaGo Zero。它的独门秘籍是“自学成才”，而且是从一張白纸开始，零基础学习，在短短3天内，AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时，AlphaGo Zero取得了100：0的压倒性战绩。AlphaGo此前的版本，结合了数百万人类围棋专家的棋谱，以及强化学习的监督学习进行了自我训练。在战胜人类围棋职业高手之前，它经过了好几个月的训练，依靠的是多台机器和48个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。AlphaGo Zero的能力则在这个基础上有了质的提升，最大的区别是，它不再需要人类数据。也就是说，它一开始就没有接触过人类棋谱，它自由随意地在棋盘上下棋，然后进行自我博弈。值得一提的是，AlphaGo Zero还非常“低碳”，只用到了一台机器和4个TPU，极大地节省了资源。endprint