商汤步入“无人区”：一盘让AI打电竞的棋局

《科创板日报》（上海，记者戚夜云）讯，在围棋战胜人类的AlphaGo之外， DeepMind开发一款全新人工智能程序AlphaStar。2019年，人机大战的发生在星际争霸2即时策略（RTS）游戏对抗中，AlphaStar以10-1的战绩，再次击溃人类职业选手。当时AlphaStar仅仅训练了人类世界里两周的时间。

人工智能企业一直有意将AI放进电竞的训练场，商汤就是其中一员。今年，商汤低调地邀请了与曾获得8次星际争霸2全国比赛冠军的中国顶尖选手周航加入商汤，成为一名研究员。在2020世界人工智能大会人工智能企业论坛中，透露商汤正在电竞训练AI决策能力，他们计划三年内让AI超越最顶尖的游戏选手。

为什么是星际争霸2？

既然谷歌DeepMind团队，已经在围棋领域训练出了“Master”，为什么还要在游戏领域寻求二次突破。虽然围棋被视为“人类智慧最后高地”，周航表示，星际争霸2也是世界上公认最难和最复杂的游戏之一。

围棋是完全信息博弈，对手的每一颗棋子摆在棋盘上都是确定的，围棋对弈时，考量的是逻辑推理能力以及计算能力。AI可以依靠强大的计算能力，衡量每一步棋子背后的无数种路径，选择最优落子方案，从而超过人类。

星际争霸2则不同，它是即时战略游戏，属于不完全信息博弈，关键信息都是隐藏的，如战争迷雾的影响，不仅看不见对手的操作，还存在大量的隐藏信息等。这需要玩家机动多变，应对未知变数，又需要在宏观战略和微观操作之间取得平衡。对于人工智能来说，这是最接近现实世界的虚拟训练。

星际争霸2成为人工智能挑战的新高峰。不仅是谷歌DeepMind团队，多家人工智能企业均将目光锁定了星际争霸2。2018年星际争霸AI大赛中，前三甲花落韩国三星的SAIDA、美国Facebook的Cherry Pi以及我国中科院自动化研究所的CSE。今年6月，启元AI星际指挥官两场2：0完胜人类选手《星际争霸I/II》全国冠军黄慧明，以及中国星际最强人族选手、黄金总决赛三连冠选手李培楠（TIME）。

不过，周航认为人工智能没有向人类最顶尖的选手发起过挑战。“现在星际人工智能的水平，是卡在普通职业选手的水平，还没有做好准备去挑战最顶尖选手。”

“职业选手没有跟他打过比赛的，不知道怎么战胜它，但是我自己给它训练的时候，可以自己针对它的弱点，很轻松的击败。”周航表示：“AI有非常明显的弱点，它的思维是单线的，还没有变化和思考，仅仅是模仿人类。”

“现在围棋从初学者，到职业选手全部都是在学习AlphaGo的下法，我希望我们在游戏里面能够拓宽人类的想象力，并延伸到其他领域。我希望做到的是从模仿人类出发，再到人类去模仿它。”周航有信心商汤在三年内能够研究出战胜星际顶级人类的选手的研究成果。

决策性AI的场景应用

DeepMind CEO哈萨比斯表示，AlphaStar背后的技术其中包含的超长序列的预测，未来可以用在天气预测和气候建模中。

但商汤，志不在于此。

“商汤去过去五年半，积累了很多计算机视觉和深度学习相关的专业的人才，并且取得了很多的研究进展。我们在一些计算机视觉和各种各样的应用里面，发现我们到了无人区。”商汤科技副总裁、商汤研究院副院长闫俊杰博士表示：“到了技术攻坚的阶段，基本上是说多个学科，不同背景的人来相互交叉，才有可能产生这种大的突破。”

《科创板日报》记者知情人士获悉，通过游戏训练ai决策，对商汤而言，是比较新的方向，尝试的时间并不长。“周航加入商汤，也只有半年多的时间”。此外，商汤还引入被称为“脑王”的《最强大脑》2019全球总冠军郑林楷，担任商汤科技见习研究员。

记者同时注意到，AlphaStar的教父Oriol Vinyals，曾西班牙《星际争霸》全国冠军。

商汤将AI放到电竞赛场，是因为电竞是一个非常好的决策场景。“比如，我们现在在做的自动驾驶相关的一些应用，在拥堵的路上，我可以选择超车，也可以选择比较安全的跟在后面等待。但什么样的策略是更好的策略，要考虑的因素很多，而游戏比如星际争霸2就能在充满不确定性因素情况下训练AI决策能力。”商汤科技研发执行总监石建萍博士表示，这样涉及决策的场景还包括交通信号灯的控制，轨道交通的车辆调度等等。

闫俊杰说道：“我们通过电竞的AI，搭建了一套通用的技术体系，基本上是决策性的问题，可以用这个体系来线性解决这个问题，在很多行业都可以取得比较好的落地。”而如今，“这只是一个开始。在将来很多年会有爆发。”

石建萍透露了决策性AI在自动驾驶领域的最新进展。“在L4级别，我们就可以完全把司机在某个固定区域撤下来，用无人驾驶的方案。”

商汤踏入无人区

中科院院士、清华大学人工智能研究院院长张钹教授在2020世界人工智能大会上表示，第三代人工智能刚刚拉开序幕。而第三代人工智能要解决此前第一代、第二代人工智能所存在的局限性。他说道：“人工智能最重要的表现是随机应变、举一反三，为此必须充分利用知识、数据、算力和算法四要素才能解决不完全信息、不确定性和动态环境下的问题，达到真正的人工智能。”而这恰恰是AI参与星际争霸对抗所希望实现的技术突破。

但张钹也提到中国当前人工智能的困境。“比如在人工智能领域，深度学习很热，发表的论文作者中几乎70%是华人，但是其他非热门领域，包括不确定性推理、知识表示等几乎没有华人作者。这就是从众扎堆，不愿意去探索无人区。”

相关数据显示，中国人工智能企业集中在计算机视觉，其次是语音。被称为“AI四小龙”的龙头企业均在计算机视觉应用市场拔得头筹。

闫俊杰谈到了张钹所看到的困境：“过去五年的时间，中国公司在计算机视觉落地上，已经远远遥遥领先。但我们讨论的决策型的AI，在国际的顶尖论文和会议上，鲜见华人。“

“中国整体在决策性AI 理论上较弱,但是中国有非常多的落地场景。”闫俊杰表示，商汤踏入无人区是希望通过迭代来推动技术快速的补齐短板。“决策型AI的发展会类似几年前计算机视觉领域，算法效果上每年呈现指数级别的提升，并逐步突破使用的红线。”

商汤的设定的目标是，3年内实现决策型AI在众多行业开花落地。