加入收藏 | 设为首页 | 会员中心 | 我要投稿 财气旺网 - 海宁网 (https://www.hainingwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 访谈 > 正文

我是黄士杰,AlphaGo人肉臂

发布时间:2017-06-14 08:28:43 所属栏目:访谈 来源:量子位 ID:QbitAI) 他面无表情,他冷静镇定,他会出
导读:副标题#e# 文/舒石 (来源:量子位 ID:QbitAI) 他面无表情,他冷静镇定,他会出现在对手的梦里,他是AlphaGo人肉臂。他热情幽默,多才多艺。他很少登台演讲。他不被允许接受采访。他是AlphaGo真正的创造者。他是Aja,黄士杰。 许峰雄绰号“CB”。 1980 年,

从这时候开始,逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班,普及基本的围棋规则。

我是黄士杰,AlphaGo人肉臂

△ 黄士杰 2015 年 8 月

与此同时,另一个重要的节点已在不远。两个月后,AlphaGo将掌握称霸围棋世界最关键的能力:形势判断。

“事实上,形势判断是围棋过程中最难、最令人头疼的环节,要进行准确的判断,必须具备精确测算双方目数的能力,同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋,形势判断十分必要。”

上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从 1992 年夺得第一个世界冠军开始,到 2007 年为止共获得 18 次个人冠军、 13 次团体冠军,开创了“李昌镐时代”。

AlphaGo如何获得形势判断的能力?

解决这个问题的人是席尔瓦。有天他对黄士杰说:“Aja,我有一个主意,我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑,他回复说:“能管用么?咱们试试吧。”

价值网络也是一个卷积神经网络,输入是落子位置,输出0- 1 之间的数字, 0 代表对手胜利, 1 代表自己胜利,如果差不多就输出0.5。(量子位注:Google最近公布的数字是-1~1,略有不同)。

总之,AlphaGo通过自我对弈,训练出价值网络,进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。

价值网络的出现,让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中,AlphaGo胜率达到95%,也就是达到让两子的水平。

“当时AlphaGo已经可以碾压我了,我已经感觉到它的强大”黄士杰回忆说。

2015 年 10 月

也是 8 月,樊麾在参加欧洲围棋大会,回到法国的家中。他收到一封电子邮件,发件人是AlphaGo团队的Maddy。邮件内容非常简单:我们是一家伦敦的公司,希望邀请你来我们公司。也没有更多信息。

樊麾一度认为是垃圾邮件。但鬼使神差,他回了邮件说:“可以呀”。然后他们用Skype进行了在线沟通,席尔瓦当时也参加了,他们给樊麾讲述正在做有趣的项目,也讲述了自己是一家Google收购的公司。

随后樊麾上了DeepMind的官网,确定有这么一家公司,以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。

双方第一次见面是 9 月底,当他确定自己要跟一个围棋程序对弈时,整个人一下就放松了,心说:“对付一个软件,还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。

当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。

我是黄士杰,AlphaGo人肉臂

△ 最后一局樊麾为自己的失误懊恼不已

2015 年 10 月 5 日- 9 日。樊麾再赴伦敦,跟AlphaGo大战五回合,当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道,樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。

和樊麾的比赛结果,DeepMind一直到 2016 年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天,樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话:“千万不要上网看评论,说的可难听了。”

聂卫平当时评价说:“樊麾水平太低,给我们丢脸了。”

(编辑:财气旺网 - 海宁网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读