IT时报 -V7 特别策划-
7特别策划
  • ·等待奇点

等待奇点

寻找下一个AI引擎

美国卡内基梅隆大学(CMU)计算机系教授托马斯·桑德霍姆(Tuomas Sandholm)

机器学习咨询师Aurélien Géron

  

冷扑大师:
玩一场不完美信息的游戏
这是一场“不完美信息”的游戏。
2017年1月30日,AI机器人Libratus和四个全球顶级德州扑克玩家,用20天完成了一场人机大战,Libratus(中文名:冷扑)大获全胜,赢得了176万美元奖金。
或许因为德州扑克是舶来品,与Alpha Go大战李世石相比,这场比赛并不太为中国大众所知,但在人工智能圈里,冷扑和他的创建者美国卡内基梅隆大学(CMU)的计算机系教授托马斯·桑德霍姆(Tuomas Sandholm)和其研究生诺姆·布朗(Noam Brown)却是2017年最闪亮的明星。在全球AI顶级峰会2017 NIPS上,他俩合写的论文《不完美信息游戏中安全内嵌的残局计算法》在3240篇投稿论文中脱颖而出,被评为最优秀论文,桑德霍姆也被称为德州扑克AI之父。

它学会了“诈唬”对手
  “与深度学习相比,我们技术最大优点是具有可证明的性能保证。”5月13日,桑德霍姆对《IT时报》记者表示。
近几年的人工智能热潮中,深度学习是最主流的技术,Alpha Go以及之后Alpha Zero的成功,更是使其几乎成为AI的代名词。然而,尽管Alpha Zero成为全棋类冠军,但这些游戏都属于所谓“完美信息游戏”,也就是说,交战双方清楚每一时刻棋面上的全部情况。
德州扑克是典型的不完美信息博弈,除了牌面信息,对手有什么牌?对手会怎么出牌?下一张翻出的公共牌会是什么?通常这种博弈会出现纳什均衡的局面。所谓纳什均衡,是指在博弈中,每个人都在猜测对手会出什么牌,每个人的策略都是对其他人策略的最优反应。
和完美博弈不同,不完美信息博弈不能通过将博弈分解为可独立求解的子博弈而求得占优策略,所以冷扑必须通过纳什均衡来计算该如何应对对手那些没出现在决策树上的招数,并以收益反馈对自身的出招进行动态修正,以期达到最大可能的收益,而非简单地将对手的行为进行近似处理。
简而言之,冷扑不仅要猜下一张牌可能是什么,还要猜对手可能会如何押注,更要最后做出决策,自己该怎么押注,它学会了分析对手是否“诈唬”,甚至自己也会“诈唬”对手,总之,它变成了一个“心理学高手”。
与Alpha Go另一个不同在于,冷扑在某种程度上解决了深度学习中的黑盒子难题。它不需要深度学习,更像一种强化学习,在训练阶段,只需知道规则,便能“左右互搏”,通过一次又一次的试错,找寻最佳策略。正式对弈的时候,根据对手的不完整信息,冷扑根据传统的线性规划在每一个决策点提前计算出了纳什均衡。正如桑德霍姆所言,这种新的残局计算法,可以让开发者获得一定程度的“确定性”,而“确定性”正是深度学习最缺乏的。

让冷扑帮你炒股
  “现实世界中的大多数应用都是不完美的信息游戏,休闲游戏、商业战略谈判、战略定价、产品组合规划、金融、投资银行、投标策略、拍卖设计、政治活动、自动驾驶和车辆车队、医疗规划、网络安全、物理安全、军事应用等等,在面对这些不确定性问题时,我们可以帮助人们找到最优策略。”桑德霍姆认为,冷扑在现实生活中应该比Alpha Go更实用。
举个例子,一家企业要为自己的产品定价,但它的决策一定基于市场中同类竞品的定价、市场需求等多种因素,如果竞争对手突然改变了自己的定价,你为了实现价值最优,必须也要改变自己的定价。AI技术的作用在于可以进行事先战略性定价,也就是说,预判对手可能的策略,提前进行战略部署,这样市场的主动权便掌握在自己手里。
此外,谈判桌也是冷扑大师可以发挥作用的地方。比如你需要购买一些影片版权,但要和不同的公司谈判,选择不同的视频流,那么如何构建一个更好的影片组合,谈判对手会用怎样的市场策略,冷扑都可以给出更好的战略逻辑。
桑德霍姆告诉记者,为了把战略机器(Strategic Machine)这项技术用于实践,他成立了两家公司,一家用于开发商业应用和战略机器人,一个为政府应用服务,他希望利用人工智能解决金融上的一些战略计算问题,比如股票交易中经常会存在一些隐藏的信息,AI能在交易者较少的情况下,帮助人类在隐藏的信息面前做出决策。
胶囊网络:
让人工神经元像人脑那样思考
当Alpha Go带起的深度学习浪潮席卷AI界时,一位年近70的老人,却开始对它说“不”,尽管他是它的“创造者”。2011年开始,被誉为深度学习之父的Geoffrey Hinton(杰弗里·辛顿)开始反思CNNs(卷积神经网络,深度学习的一种结构)的弱点,并提出了一种新的神经元网络计算结构——胶囊网络(the capsule network)。
这种自我颠覆在AI圈掀起一阵巨浪,有的人坚定地站在Hinton一边,认为胶囊有可能对深度学习带来深远影响,特别是在计算机视觉领域,会大大减少训练计算机所需要的数据量,但也有人认为,胶囊网络并没有新鲜的理论,算不上什么特别大的革新。
那么,胶囊网络究竟是什么?它会对人工智能领域带来什么?Hinton最近因为家庭原因,闭门谢客,于是我们找到了Aurélien Géron。
Aurélien Géron是一名机器学习咨询师,也是《Handson Machine Learning with Scikit-Learn and TensorFlow》(《用Scikit-Learn and TensorFlow实际操作机器学习》)一书的作者(这本书很快将在中国出版),他在谷歌时曾领导了YouTube的视频分类团队。Aurélien制作发布的两个视频,被称为“史上最通俗易懂的胶囊网络科普视频”。5月9日,《IT时报》记者专访Aurélien,请他深度解析胶囊网络。
1、《IT时报》:请问胶囊网络是什么?目前有最新技术进展吗?
Aurélien Géron:先举一个简单的例子理解深度学习中的CNNs,如何确认一张脸?对于CNNs来说,一个椭圆形的脸,有两只眼睛、一个鼻子和一个嘴巴,这些对于它判断这是否一张脸是很重要的指标,但这些器官是不是在正确的位置,并不是它做判断的依据。
胶囊网络则认为,辨识对象各部分彼此的相对位置,可能更为重要。它的好处在于,可以仅知道一部分特征就可以辨别图片究竟是什么,这样使它使用的数据量要远远小于CNN,从这个意义上说,胶囊网络更像人脑在做的事情,比如为了学会把数字分开,人类只需要看几十个例子,而CNN则可能需要成千上万个例子。
胶囊网络核心思想是,将神经元分组成一个一个小胶囊,每一个决策点,并不需要每个人工神经元都做出判断,而是只要检查这个胶囊是否同意,然后将结果输入下一层合适的胶囊中。
我觉得这个理论很有前途,但局限性也很明显,特别是在识别大图片的时候,效果并不是很理想,而且训练的速度非常慢。总的来说,胶囊网络相当程度上依然是实验性的。
2、《IT时报》:世界范围内的胶囊网络研究者有多少?与其他深度学习相比,这项技术处于什么阶段?
Aurélien Géron:目前还很难判断,在谷歌论文上,我看到了“胶囊间动态路由”论文的73篇引文,其中46篇引用了标题中的“胶囊”一词。平均一篇论文大约有3到5个作者,这意味着大约有200名研究人员出版了论文。所以我猜想,全球大概有500名研究人员正在研究胶囊网络,但这也只是一个猜想:研究是分散的,所以很难具体知道研究者的数量。
我认为,将CapsNetes(胶囊网络)与卷积神经网络(CNNs)放在一起比较是不公平的。事实上,CNNs自20世纪90年代以来一直存在,而且一直有人在对其不断完善。从目前来看,大多数视觉任务中,CNNs依然比胶囊网络表现得更好,但这并不能判定胶囊网络的死亡,相反,它已经在不停改善,也许胶囊最终会胜过CNNs。
3、《IT时报》:胶囊网络最大的优势是什么,特别是与其他深度学习方法相比?研究者可以减少数据和输入吗?
Aurélien Géron:胶囊网络的好处还是很明显的,比如它比CNNs需要更少的训练实例,当信号通过胶囊时,可以更好地保存关于对象的位置、方向等方面的详细信息,这对于需要这些详细信息的应用来说非常有前途,类似像对象检测、图像分割(即发现哪些像素属于哪个对象)等应用。其次,胶囊比CNNs更善于总结归纳,如果你训练它们识别一些物体,然后向它们显示方向不同的同一个物体,它们可能比CNNs更不容易被迷惑。
4、《IT时报》:胶囊网络未来可以有哪些应用场景?
Aurélien Géron:胶囊网络已经成功地被用于检测癌症,因为几乎不需要太多的训练数据和精确的位置信息。我相信还会有很多其他的场景,例如,分析卫星图像或者检测制造业的缺陷。
5、《IT时报》:吴恩达曾说:“今天的人工智能的成就更多地是由计算机科学的原理推动的,而不是神经科学的原理。”您对这句话如何理解?
Aurélien Géron:最初人工智能的整个领域都受到生物学的启发:人工神经元便是由生物神经元激发的,因为新(大脑)皮质层似乎就是这样组织的,卷积神经网络也是受到视觉皮层的启发。
但在过去20年中,深度学习的最大改进主要是由计算机科学驱动,而不是神经科学驱动:我们拥有了更快的处理器(包括超高速GPU)和更多的数据、更快的存储器、更快的网络、更好的数据库。可我们对大脑了解越多,我们越发现,它与人工神经网络有很大的不同。有些人认为造成不同的原因可能是最终实现的细节不同;也有人认为我们缺少产生智力的关键成分;或者是时间?或者是可塑性?或者人脑神经元需要连接数量要大得多?总之,如果这两门学科能更好地结合,我相信效果会好很多。
6、《IT时报》:人工智能的最终形式是什么?你认为AI离这个理想状态有多远?
Aurélien Géron:人工智能的最终形式将是人工通用智能(AGI),一种能够快速学习并掌握任何新智力任务的计算机系统,它能不断地学习和改进,希望能造福于全人类,而不是少数人(或仅仅为自己)。它不一定像人类一样思考,我们大部分行为来自于对吃饭、繁殖、社会交往等的需求,机器不会有同样的需求,因此它可能不会像我们一样思考。但是,由于我们大部分智力来自于我们的文化(语言、书籍、科学……),它可能很早就需要学习我们的方法,所以我认为它会很好地与我们进行交流和互动,甚至可能会将我们的局限性和偏见也考虑进去。
我想我们离这个理想状态最多也就30年的距离。但现在,我认为有些棘手的问题急需解决:比如AI已经被用于大规模操纵信息,并可能影响选举;当自动驾驶汽车成为主流时,数百万司机将很快失去工作。
人类面前有很多风险、变化和机会,我们需要做好准备。