无障碍说明
腾讯科技科技 > 要闻 > 互联网 > 正文

AlphaGo负责人David Silver采访实录

腾讯科技[微博]2016年03月25日11:09

AlphaGo负责人David Silver采访实录

腾讯科技讯 人机围棋大战后,腾讯科技采访了AlphaGo项目的主要负责人David Silver。

戴维席尔瓦(David Silver)可能是最了解哈萨比斯的人之一。他俩同在1990年代的剑桥大学学习计算机科学,成为了好友,又同时喜欢上的人工智能和围棋。一起创办了一家游戏公司,开发了《共和国:革命》这样优秀的游戏,游戏里的电脑角色要比以往聪明得多。

以下为采访实录:

问:你们昨晚过得怎样?

答:我们与团队一起吃了个饭。

问:你们吃的是什么?

答:中餐。

问:好吃吗?

答:是的,很好吃。

问:你以前到过中国吗?

答:我去过北京。

问:是出差吗?

答:是参加有关机器学习的会议。

问:这么说就是出差喽?

答:是出差。

问:你去过长城、天安门或故宫吗?

答:都去过。我还去过野长城。

问:野长城?你是打的士去的吗?

答:是的,的士司机载错了地方。结果我不得不沿着城墙的陡峭台阶走了8个小时。

问:8个小时?

答:是的,因为搞错地方了嘛。那种经历有一点吓人,那样走不是很安全。但是,那是我这辈子见到过的最漂亮的地方。

问:你自己去的吗?

答:不,因为我和一些德国人在一起,还有我的爸爸同行。他们给我们拍了照,说是会寄给我们。但是,我们从来没有收到过。

问:好的,下次你到北京,我来给你拍照,一定会寄给你。两三天前,我跟你说过我对Alpha Go和Deep Mind背后的故事很感兴趣。我们希望了解一下它们是如何成功的,如何成为一种现象的,以及它们是如何工作的。因此,我想,我们的采访可能需要花上一些时间。我想谈谈你和杰米斯以前创造的公司。它好像叫做Elixir Studio吧?你能跟我详细说说这家公司的情况吗?

答:我是在剑桥大学遇到杰米斯的。我们在一起学习电脑科学,我们那时候都对人工智能感兴趣。因此,我们共同学习,相互监督,慢慢就相互了解了。一天,杰米斯找到我,问我想不想跟他一起合作创办一家电脑游戏公司。我当时觉得这是一个很好的机会,于是就答应了。我们创办了这家名为Elixir Studio的公司。我担任首席技术官,负责编写《共和国:革命》(Republic:The Revolution)游戏。整个过程令人非常兴奋。但是,五年后,我觉得自己希望触及人工智能的核心问题。当你开发电脑游戏的时候,你实际上只是在假装人工智能,你需要做的只是让游戏玩家觉得这些电脑玩家很聪明。但是,这与让电脑变得智能是两码事。所以,我又回到了大学,回到了学术界,潜心攻读博士学位,并深入研究围棋。

问:事实上,杰米斯也曾回到了学术界,但是他的主攻方向是神经科学。这是因为你们的公司出了问题,还是就像杰米斯在采访中提到的,他认为现在的游戏行业已不像当初你们俩刚进入的时候让你们感到兴奋了?

答:我想,我们俩实际上都一直怀揣着参与人工智能的梦想。甚至还在剑桥大学读书的时候,杰米斯就有这样的一个目标了。他说,他希望有一天能够创办一家公司,解决人工智能方面的问题。对于他来说,游戏只是一个起点。他很了解游戏行业,甚至在他攻读大学之前,他就一直在为很多成功的游戏公司效力。因此,我认为,对于他来说,这是顺理成章的事情。我们沿着不同的路径,通过不同的方式,追寻着各自的梦想。但是最后殊途同归,我们又都回到了我们最初感兴趣的东西上,这就是人工智能。

问:在你开发游戏的时候,你实际上同时也是在研究人工智能。你当时是否会有这样的目标:我想在这个游戏中尝试下人工智能的这个领域,我想在另一个游戏中再尝试下人工智能的那个领域?

答:你说在游戏中?是指在Elixir游戏中还是在围棋中?

问:Elixir游戏,如《共和国:革命》游戏。

答:我确实在《共和国:革命》游戏中使用了一些人工智能的东西。但是,我想我是在回到学术圈之后才开始真正研究人工智能的。我开始严肃地思考这个问题:我们如何才能打造出强大的真正能够解决问题的智能代理?

问:这种“强人工智能”(Artificial General Intelligence,简称AGI)是如何出现在你或杰米斯的头脑中的?你和杰米斯解释了为什么AGI很重要。但是,我想了解你们俩是如何发现它很重要的。

答:我想,现在剩下的最重要的问题就是科学,不知道你是不是能够理解。我认为,很多很多人都会对此感到好奇:我们如何才能打造一种人工智能系统,让它跟我们的大脑一样强大?我想,在科学已理解的所有现象中,大脑是最复杂的一种现象。因此,我们自然也就不是唯一的对它感兴趣的人了。现在有很多很多人正试图通过各种不同的方法来理解这个问题。我的方法就是用非常精确的方式来理解和提出这个问题:强人工智能意味着什么?我们知道,通过强化学习的方法可以变得智能。作为人工智能系统的使用者,我们能够给它提供各种形式的回馈信息,给它提供成功的回馈信息和失败的回馈信息。人工智能系统能够不断地根据我们的反馈信息来选择自己所需要采取的行动,直到它取得最好的成绩为止。这就是精确的定义,你只有精确地理解某个问题,才能够开始采取一些步骤来解决它。

问:这么说强化学习也是你读博士时攻读的专业了?在那时,你能够获得你研究这个领域所需要的全部信息或资料吗?

答:是的,我非常幸运,跟了一个非常棒的导师理查德•萨尔腾(Richard Sarten)。他是强化学习之父,他开辟了整个领域。因此,我从他那里学到了很多东西。我想,很多基本的东西都已经在那里了。但是,研究的本质就是总会有很多开放性的问题 ,总会有很多很多未知的东西,我们总是一步一步向前推进,不断地挑战未知的领域。我想,Deep Mind已经能够通过强化学习和深度学习来调整自己的行动步骤了。我想,这对于我们取得实质性的进步是非常关键的。

问:这就是为什么杰米斯迫不及待地想要邀请你加盟这家公司的原因吧?但是,你并没有马上加入进来。直到2013年,你才加入这家公司。在此之前,你一直在给这家公司做顾问。你为什么拖了这么久?又为什么最后还是加入了呢?你那时候是怎么想的?

答:只要想想我最初的兴趣,我为什么不加入呢?

问:你为什么去当做顾问?你之前拥有非常好的工作,甚至是你梦寐以求的工作,但你去了著名大学重新开始,这有风险不是么?

答:我为谷歌(微博)Deep Mind团队做顾问之前在英国皇家学会当研究员,是伦敦大学学院一个很不错的职位。Deep Mind把我挖走,后来发现给Deep Mind做顾问比在之前的地方有意思多了,所以我全职加入了Deep Mind。

问:当时你在做什么项目?肯定没有AlphaGo这么厉害吧?

答:在博士研究和AlphaGo之间,我没把重心放在AlphaGo,而是放在增强学习。这两者的主要用途在于开发出一个多用途Atary游戏智能体,这是我刚加入Deep Mind时做的事。我们开发出一套算法,能玩50种Atary游戏,通过自我学习、玩游戏、看视频,来找到玩游戏的方法(仅从得分方面来说)。

问:你提到的这个算法是那个用在拳皇1990的算法吗?

答:部分相同,部分不同。AlphaGo和Atary都有深度神经网络,都利用增强学习来训练神经网络。不同的是AlphaGo结合了一种树状搜索——蒙特卡洛算法,在Atary中,我们不知道游戏的规则,也不把游戏规则告诉系统,因此它能更直接地利用神经网络。我们给的知识量更少。

问:蒙特卡洛算法的这部分研究是Chris Madison和Aijia Wang负责的?

答:Aijia Wang负责蒙特卡洛算法,Chris Madison负责神经网络。

问:你加入公司的时候已经有神经网络了吗?

答:我加入DeepMind不久,Aijia Wang来到我们团队,他当时已经是DeepMind的一员,但在另一个部门工作。Chris Madison一开始只是个实习生,之前是Google Brain的实习生,在DeepMind结束了他第二个实习,当时的导师是我。因此在我们开启围棋项目不久便加入了我们。我们把Chris Madison招进来只是想弄明白一件事,像试验项目一样,神经网络能否明白围棋。这个试验项目进行了8-9个月,一年前我们发表了第一篇论文。我们发现神经网络自身做得非常好,而且很明白围棋。这对很多人来说都是一个大大的惊喜。那时我告诉Demis,一个极其重要的东西正存在于围棋内部,必须用你的网络。我们将能创造出围棋程序,击败世界顶尖选手,Demis很兴奋,说:干起来,做起来。

问:在确切的比赛之前你就曾这么说过?

答:是的没错。在这一点上他引导了团队。

问:这是你加入DeepMind一年后的事。因此我觉得你提到的那8-9个月一定非常艰苦,你当时在做什么,哪些改进和提高是在那8-9个月内成就的?

答:我们当时在尝试非常多种方法,在想怎样才能让神经网络最高效地理解围棋。我们做了很多尝试,研究的本质就是很多你尝试的东西都会失败,你必须坚持尝试直到成功。后来其他一些人加入了我们团队。我们发现价值网络成功了,高潮从此开始。我们获得了非常令人兴奋的成果。

问:你做过哪些失败的试验?走过哪些弯路?这些失败是有趣的还是丢人的?

答:也许等我走完这条路以后会回来思考这个问题,我们或许根本没能成功。

问:AlphaGo这个名字一开始就存在吗?还是说这是你们给它起的名字?

答:这名字是Demis给起的,所以最开始的时候它不叫AlphaGo。

问:AlphaGo是什么意思?Go(围棋)我知道,

答:有很多层意思,其中一个意思是“Alphabeta”——谷歌的母公司。

问:因此这名字与谷歌很有联系?

答:对,这名字和谷歌神经网络几乎是在同一时间发布的,这是其中一个意思,同时,Alpha有“较高的意识状态”的意思,当你把某件事思考得很透彻的时候,你有了更高的意识状态,这是另一层意思。

问:你提到了谷歌,他们第一次找到你们是什么时候?

答:你是说收购前?你是说我还在谷歌的时候吗?

问:不是,我只想知道,是先被收购了,还是先在一起工作?

答:Deep Mind被收购前我就在里面工作了。我当时和Demis共事,但AlphaGo项目的大部分是发生在收购以后。说实话如果没有谷歌,这事办不成,因为我们用了谷歌内部的很多技术,包括Google Brain、谷歌云平台和Tensor Flow。

问:Demis提到,当他在训练AlphaGo玩游戏时不会用到那么多设备,但当你训练时,你会用到云平台等东西对吧。

答:没错。

问:因此当时主要是你和德米斯(Demis)以及杰夫·迪恩(Jeff Dean)?

答:什么时间?

问:我不清楚,因为你说过谷歌发挥了重要的作用。

答:因此,杰夫·迪恩负责着Google Brain项目,他在Alpha项目进行中的很多阶段都提供了巨大的帮助,尤其是开发分布式AlphaGo的时候。迪恩可能是世界上最适合设计这些系统的人,因此我认为他的建议非常非常宝贵。

问:这些工作如何?因为你们分别处在在两个国家,你们是否经常要使用网络电话Skype?

答:我们经常飞来飞去,因此我们经常接待来自Google Brain项目的访客,我们也经常去视察Google Brain项目,我们之间的关系很密切,我们也经常一同外出,经常互通电话。

问:这之间是否有我所不知道的差别?因为德米斯说DeepMind很努力地想保持创新,让所有人都了解这个项目,清新自由的空气,但我不清楚日常的工作是什么样的?

答:我想DeepMind项目中确实有些很特别的东西,我们这儿的气氛确实非常自由,但是同时会让我们树立起更远大的目标。我们团结一心以实现目标,我们都觉得我们肩负着尝试和解决智能问题的使命,我们都相信这项任务对帮助社会的重要性。因此我认为这可能是历史上的一个特殊的时刻,谷歌旗下的一家公司在DeepMind项目上为我们提供了巨大的帮助,也为我们提供了巨大的自由性,我们真的感谢这个机会。

问:因此它就象是谷歌提供的免费午餐,人们就像在公司内取自行车一样?

答:不,我们没有自行车,我们有免费的午餐。我们在整个谷歌园区里所占规模并不很大,现在只有200多人,占据了园区里的其中一幢办公楼而已。因此没有必要提供自行车,但是这里的气氛很好,我非常小心地把这里打造成一个能够高效率进行研究的地方。德米斯想了很多办法来让研究环境有利于有效地推进项目,我认为这是真的,我想我们会看到这样做带来的一些好处。

问:我看到有些人正在做跟你们一样的研究工作,如果你们一开始就犯了一些错,而你们却不知道,那么最后就会演变成一场灾难。你们如何保证不会犯错呢?

答:在AlphaGo项目中,我认为其中最重要的一名贡献者一直在认真校准基点,因此我们一直通过验证其性能的方式来校准AlphaGo,我们使用了一块边板并且时常检查进度。这意味着如果什么地方出了错,我们就会不断去检验其性能。看看我们之前发现的性能降幅是否比后来发现的性能降幅更大。这是一个例子。当然,还有很多你们在发生冲突时必须小心应对的方法。

问:你是如何发现这些人并且展开合作的?我的一位董事说,这些家伙太棒了,他们为什么想要为这家公司工作?因为他们就像不同地方的强者,而你把他们团结到了一起。

答:因此我认为DeepMind现在就像一个休整营地。我认为我们是幸运的,因为我们可以在DeepMind的帮助下吸引到一些最著名的人才,但它也意味着人才库非常强大,因此在DeepMind的帮助下我们可以提供不同的才干。我没有专门为这个项目招募人才。

问:我发现招募来的某些人比我想像得更年轻。我想平均年龄上面应该有个规定或者统计,因此你让所有的年轻人都来参与这个项目。

答:我认为团队最年轻的成员是23岁。平均年龄大概是28岁或30岁?我不太清楚,但是我本人可能是团队中年龄最高的了。我今年39岁。大概就是这个范围吧。

问:问题是你们使用的知识必须是最近几十年内被开发出来的知识。

答:也许,我认为这可能是一个成分,我们看到了人工智能领域的一波新的兴趣,我想很多技术是成功的,越来越多的人开始对人工智能给予越来越多的关注,我认为整整一代人将拥有这方面的技术。我想AlphaGo将有助于激励更多的人来尝试这些技术,我希望在未来几年内看到人工智能获得非常振奋人心的开发成果。

问:最后一个问题是:你们已经走得很远了,是否存在这样一些关键的时刻,即当你回顾历史的时候你就会看到它们。

答:坦白说,我对发生的事情感到相当无语,就像一场并不真实的梦。AlphaGo得到了媒体的普遍关注,在亚洲地区也很有声望。因此我认为能够参与其中就是一种特权。我认为有些东西确实弥足珍贵,可以说是无价之宝,有些时候我会试着从中寻找乐趣。也许下周我们将返回英国,现实会评判一切。

问:你和德米斯是否考虑过将公司迁往美国?也许在美国可以获得更多的关注。

答:目前我们在伦敦呆得很好,当然能够获得更多的关注也是好事儿。(乐学 志鹏 林靖东)

[责任编辑:jimmonzang]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
标签
AlphaGo

阅读更多