乐晴智库 | 深度行业研究

【行业】深入浅出解析AlphaGo Zero的技术和应用（15页）

AlphaGo Zero 打败之前所有版本，“左右互搏，天下无双”！10 月18 日GoogleDeepMind 在《Nature》发表了最新版本的AlphaGo Zero 的论文。AlphaGo Zero在进行了3天的自我训练后，在100 局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾18 次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

机器学习可分类为监督学习、非监督学习、强化学习，如何简单理解？下面三图以电视剧《人民的名义》为例，通俗介绍了监督学习（当前最火热、应用范围最大）、非监督学习、强化学习分别是什么。监督学习是当前使用最多的模型，需要有标注的数据录入模型，对模型训练（优化模型的参数），训练的后的模型可以就进行推断了（即应用）。

蒙特卡洛（Monte Calro）模拟是用大量随机样本解决数值的方法——采样越多，越接近最优解。蒙特卡洛模拟通过大量随机样本解决数值问题，是一类方法的统称，诞生于上个世纪40 年代美国的"曼哈顿计划"，名字来源于赌城蒙特卡罗，象征概率。简单的案例为计算圆周率π的概率：在一个1×1 的正方形（内臵一个半径1/2 的圆）内撒点，如果点数足够大且均匀分布，那么圆的面积近似于圆中点数/全部点数，由此可计算出圆周率π。