1 / 6
文档名称:

一张图解AlphaGo原理及弱点.docx

格式:docx   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一张图解AlphaGo原理及弱点.docx

上传人:doc2088 2016/3/30 文件大小:0 KB

下载得到文件列表

一张图解AlphaGo原理及弱点.docx

文档介绍

文档介绍:一张图解 AlphaGo 原理及弱点近期 AlphaGo 在人机围棋比赛中连胜李世石 3局,体现了人工智能在围棋领域的突破,作为人工智能领域的工作者,我们深感欣慰。其实质是深度学习网络( CNN )跟蒙特卡罗搜索树(MCTS) 结合的胜利,是人类智慧的进步。不少所谓的“砖”家开始鼓吹机器战胜人类、甚至人类将被机器统治等无知言论,让人实在看不下去。作为围棋爱好者和人工智能领域工作者,我们觉得是时候跟大家讲讲 AlphaGo 的原理及其弱点了。可以很负责任的告诉大家, AlphaGo 还没有完全攻克围棋这个难题,职业棋手也并非没有希望赢 Go 了,更不能说机器战胜了人类。 AlphaGo 未来需要走的路还很长。如果有中国职业棋手想挑战 AlphaGo ,我们愿意为其组建最顶尖(且懂围棋)的人工智能专家顾问团,助其取胜 AlphaGo 。虽然网上技术贴不少,但还没有一篇文章完全讲清楚 AphaGo 的原理, Nature 上刊登的文章也缺乏一张刨解全局的图(加之用英文描述,同学们很难理解透彻)。以下是我跟微软亚洲研究院的张钧波博士在多次阅读原文并收集了大量其他资料后,一起完成的一张图,解释了 AlphaGo 的原理,看完后大家自然知道其弱点在何处了。图1、 AlphaGo 的原理图(作者为本图花费大量心血,版权归两位作者所有,欢迎转发,但请勿盗图) AlphaGo 总体上包含离线学习(图 1上半部分)和在线对弈(图 1下半部分)两个过程。离线学习过程分为三个训练阶段。?第一阶段:利用 3万多幅专业棋手对局的棋谱来训练两个网络。一个是基于全局特征和深度卷积网络( CNN )训练出来的策略网络( work )。其主要作用是给定当前盘面状态作为输入, 输出下一步棋在棋盘其它空地上的落子概率。另一个是利用局部特征和线性模型训练出来的快速走棋策略( Rollout Policy) 。策略网络速度较慢,但精度较高;快速走棋策略反之。?第二阶段:利用第 t轮的策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正第 t 轮的策略网络的参数,最终得到增强的策略网络。这部分被很多“砖”家极大的鼓吹,但实际上应该存在理论上的瓶颈(提升能力有限)。这就好比 2个6岁的小孩不断对弈,其水平就会达到职业 9 段? ?第三阶段:先利用普通的策略网络来生成棋局的前 U-1 步( U是一个属于[1, 450] 的随机变量) , 然后利用随机采样来决定第 U步的位置(这是为了增加棋的多样性,防止过拟合)。随后,利用增强的策略网络来完成后面的自我对弈过程,直至棋局结束分出胜负。此后,第 U步的盘面作为特征输入,胜负作为 label ,学习一个价值网络( work ),用于判断结果的输赢概率。价值网络其实是 AlphaGo 的一大创新,围棋最为困难的就是很难根据当前的局势来判断最后的结果,这点职业棋手也很难掌握。通过大量的自我对弈, AlphaGo 产生了 3000 万盘棋局,用作训练学习价值网络。但由于为其的搜索空间太大, 3000 万盘棋局也不能帮 AlphaGo 完全攻克这个问题。在线对弈过程包括以下 5个关键步骤:其核心思想实在蒙特卡洛搜索树( MCTS )中嵌入了深度神经网络来减少搜索空间。 AlphaGo 并没有具备真正的思维能力。