揭秘人工智能是如何击败德州扑克顶级玩家的

2017-02-09 09:55:00 作者:佚名 分类 : 人工智能

  1 月 30 日,宾夕法尼亚州匹兹堡Rivers赌场,耗时20天的德州扑克人机大战尘埃落定。卡耐基梅隆大学(CMU)开发的AI程序Libratus 击败人类顶级职业玩家,赢取了20万美元的奖金。尽管之前Google DeepMind的AlphaGo在与李世石的5番棋围棋大战以及在网络上跟顶级围棋选手的60番棋大战中出尽了风头。但相对而言德州扑克对于AI却是更大的挑战,因为AI只能看到游的部分信息,游戏并不存在单一的最优下法。那么CMU的Libratus是如何击败人类顶级的职业玩家的呢?《连线》杂志的这篇文章为我们揭秘。

  在几乎3个星期的时间里,Dong Kim都呆在匹兹堡的一个赌场内跟一台机器玩扑克。但Kim不是普通的扑克玩家。跟他对垒的也不是普通的机器。而这场比赛也不是普通的扑克游戏。

  28岁的Kim是全世界最好的扑克玩家之一。而那台由卡内基梅隆大学的两位计算机科学研究人员开发的机器,是一套运行在匹兹堡的一台超级计算机的人工智能系统。在整整20天的时间内,他们都在玩无限制德州扑克比赛,这是一种尤其复杂的扑克游戏形式,其投注策略往往要经过很多手。

  这场比赛刚刚结束不久。大概赛程过半的时候,Kim开始觉得Libratus好像能看到他的牌。不过他说:“我不是指责它作弊。而是说它有那么好。”实际上好到击败了Kim及其他的3名全球顶级人类玩家——这是人工智能的第一次。

  在这次比赛期间,Libratus的创造者对这套系统的运作方式显得遮遮掩掩,大家不清楚它是如何设法取得如此成功的,如何以其他机器前所未有的方式模仿了人类直觉的。但结果证明,该AI能达到如此高度是因为它不仅仅只是一个AI。

  Libratus依靠了3套不同的系统的协作,这提醒我们现代AI并不是由一项而是多项技术驱动的。这段时间以来深度神经网络抓住了大多人的眼球,当然这也有很好的理由:它们为一些全球最大型的技术公司从图像识别到翻译乃至于搜索的一切提供了动力。但神经网络的成功也为大量其他帮助机器模仿甚至超越人类天才的AI技术注入了新生命。

  比方说,Libratus就没有使用神经网络。它主要靠的是强化学习,这是人工智能的一种,一种极其强调试错的方法。其实质就是自己跟自己玩大量的游戏。

  Google的DeppMind实验室利用强化学习来开发AlphaGo,这套系统攻克围棋的时间比预期早了10年,但这两套系统之间有一个关键的不同。AlphaGo是通过分析人类玩家的3000万份棋谱来学习游戏的,然后才通过自己跟自己下棋来改进自己的技能。相对而言,Libratus却是从零开始学的。

  通过一种名为反事实遗憾最小化(counterfactual regret minimization)的算法,它先是随机地玩,然后最终在经过几个月的训练以及玩了上万亿手扑克之后,它也达到了能挑战最好人类玩家的高度,不仅如此,它的玩法还是人类所不能的——它下注的范围要大得多,而且会对这些赌注随机化,这样对手就更难猜自己手上都有什么牌了。跟导师Tuomas Sandholm一起开发了这套系统的CMU研究生Noam Brown说:“我们只是向AI描述了这个游戏,但没有告诉它怎么玩。它完全是独立于人的玩法形成自己的策略的,而且它的玩法跟人的玩法会非常不一样。”

  但这只是第一阶段。在匹兹堡的比赛期间,第二套系统会分析游戏状态并聚焦于第一套系统的注意力。这套系统属于一种“残局解算器(end-game solver)”,上周一Sandholm 和Brown发表的论文详细描述了它的细节。在第二套系统的帮助下,第一套系统再也不需要像过去那样跑完所有可能的场景了。它可以只试探其中的一些场景。也就是说,Libratus不仅仅是在在比赛前学习,而且还能在比赛中学到东西。

  光靠这两套系统就已经很有效率了。但Kim等其他玩家仍然能够找出机器玩法的一些模式然后设法加以利用。为此,Brown和Sandholm开发了第三套系统。每天晚上Brown都会跑一个算法来识别出那些模式然后从策略中剔除掉。他说:“一个晚上它就能计算完然后在次日把一切准备就绪。”

  如果这似乎不公平的话,好吧,AI就是这么干。这并不仅仅是AI跨越了许多技术。人类往往也频繁加入进来,积极地改进AI、跑AI或者增强AI。Libratus的确是个里程碑,展示了一种新型的AI,从华尔街的交易到网络安全乃至于拍卖和政治谈判,这种AI都可以从中扮演一定的角色。曾帮助Google设立中心AI实验室,现为百度首席科学家的吴恩达说:“扑克曾经是AI最难攻克的游戏之一,因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反,AI玩家必须让自己的行动随机化,这样它诈唬时才能让对方无法确定真假。”

  Libratus把这一点做到了极致。它的下注非常的随机化,甚至超过了人类最好玩家的水平。而且如果这个方法不奏效的话,Brown晚上跑的算法就会弥补它的不足。金融市场交易员也可以采取相同的做法。外交官亦然。这是一个强大且相当令人不安的想法:机器可以用大赌注吓退人类。

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

比食人鱼更恐怖:长着人类牙齿的鱼

比食人鱼更恐怖:长着人类牙齿的鱼>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。