主页 > U生活君 >AlphaGo如何战胜职业棋士?关键在这几组学习方式 >

小编推荐

AlphaGo如何战胜职业棋士?关键在这几组学习方式


2020-06-06


深度学习(deep learning)

深度学习是运用类神经网路的技术之一。它最大的变革点是,只要有充分的学习资料,类神经网路自己就可以自动抽出资料群的特徵。至今的图像分析和资料分析,是利用抽出演算法来处理资料和问题。然而,深度学习不需要人为的帮助,就能自动抽出特徵。概略地说,深度学习是「只要将资料输入类神经网路,它就能自行抽出特徵」的人工智慧。

类神经网路是模拟称为神经元的脑神经单位,将之连结形成的网路状模型。它会将输入的符号不停在这个网路上传递下去。在类神经网路领域,1980年代的「误差倒传递」(error backpropagation,误差反向传播)以来,重大的变革是2006年辛顿(Geoffrey Hinton)提出的新学习法,称为自动编码器(autoencoder)。

这个手法的特徵之一是,让类神经网路的各层都能阶段式学习。例如,第一层将输入的资讯原封不动输出,并加以学习。第二层是在已经学习过的第一层上面,同样再现输入的资讯,并加以学习。第三层以降也一样。像这样每个阶段都进行学习的类神经网路,就算阶层再多,也具有很强的学习功能。

深度学习最擅长的是,它能辨识图像资料或波形资料这类无法符号化的资料中的模式。从输入层输入图像之后,就能进行阶段式学习。一般常用的类神经网路结构,是各层一个个各自全部连结起来的感知器型态,但我们已经知道辨识图像时,用特殊的方式连结更能有效运作。这称之为卷积神经网路(convolutional neural network)。进一步参考人类大脑视觉区所发展而成的,就是当时任职于NHK放送技术研究所的福岛邦彦提出的新认知机。

这成为深度学习的原型。它的特性是,将输入的资料切成各种大小的片段,抽出特徵,使其成为多层次架构的中间层。例如输入车子的图像,它会抽出细部的模式,乃至大的构造和整体轮廓等。

AlphaGo如何战胜职业棋士?关键在这几组学习方式

利用这个特性,深度学习也能运用于围棋人工智慧。2016年,战胜职业棋士的Google的AlphaGo,就是输入所有棋盘资料,在各层抽出特徵。有些则是可以学习大师画作的笔触,或是抽取出动画角色的特徵来研究。

深度学习如此飞跃发展,不可忽略的背景因素是硬体设备的性能提升。特别是,类神经网路是反覆进行的定型演算,很多部分可以进行并列式计算也是特徵之一。支持游戏产业或电脑绘图业发展、搭载图形处理器(graphics processing unit, GPU) 的图形卡(graphicsboard),也可以用于深度学习的发展。

现在的图形处理器有数百个运算核心所组成的并列演算装置,适合深度学习的高速计算。图形卡大厂辉达(NVIDIA)用该公司的图形卡来提升深度学习的性能,提供程式库(library)和框架(framework)产品,积极开设研讨课程。另外,Google 也公开了框架「TensorFlow」,可以将深度学习善用于资料分析。

深度学习是人工智慧整体领域中的一个分支,但2000年左右,并不认为深度学习会形成这幺大的热潮。或者应该说,从传统的角度来看,这个领域的发展难以预期。然而,由于具先见之明的研究者的努力,促进了极大的变革,进而一跃成为时代的中心。但对于这样的跃进,研究者与社会大众的认知有一些落差。

研究者的评价是,深度学习与过去的类神经网路相比有了飞跃性的进展,社会认知则认为深度学习让人工智慧突然间更近似人类。另外,要真正实际运用于社会中,还需要更多时间及阶段性发展,现在世界各地正加紧脚步开发深度学习,希望应用于更多领域。

机器学习(machine learning)

机器学习是指让人工智慧能够进行学习,以机器学习为手段来解决人工智慧中的问题。机器学习一词,几乎与人工智慧一词同时出现。换言之,能够做到超出程式设计师所设定的程式之外的事,是机器学习的一项基準。

机器学习还隐含「不只是规划好的事」之意,表示机器自己可以学习。这里所说的机器,当时是指从大型计算机展开的自动机器。

相较于获取思考方式或最新的知识,机器学习更应该说是能调整被建置的思考方式,以预先设定好的知识型态储存知识,进行学习。优化(optimization)和储存是机器最擅长的部分。然而,不像人类可以从混乱的状况中产生新的想法,人工智慧现在还无法做到这点。自己产生出想法,是人类才具有的创造性。

机器学习分为监督式学习(supervised learning)和非监督式学习(unsupervised learning)。两者的明确区别是,监督式学习是準备好「训练资料」(training data),让人工智慧往单一个方向学习;非监督式学习则是没有训练资料,让人工智慧自行透过自己的活动收集资料,从中自我学习。两者迥然有别。

AlphaGo如何战胜职业棋士?关键在这几组学习方式

在监督式学习的情况下,如果输入某个指令,训练资料会教导做出相对应的行动。举个具体的例子。在假想空间中设一只虚拟犬(代理人)。对这只狗发出「握手」、「坐下」、「跑步」的命令。从麦克风用声音发出各种命令时,这只虚拟犬一开始不知道应该做出什幺行动,所以随机选择反应。刚好做出正确的反应时,我们就夸奖它;做出错误的反应,就叱责它。这样一来,它就能慢慢学会应该将哪种命令的声音与哪种行动对应起来。

至于非监督式学习,则可以举2016年战胜职业棋士的AlphaGo为範例。AlphaGo 有两个学习阶段,第一阶段是从人类过去的棋谱学习,学完之后进入自我对奕的学习阶段。前者是从棋谱进行监督式学习的学习阶段,后者是自我对奕来进行非监督式学习的学习阶段。

一般而言,监督式学习需要大量资料,非监督式学习则需要提供适合学习的环境。例如,想让人工智慧用非监督式学习的方式,学习现实世界的纸飞机设计,这是可行的。因为实际上的确有可供纸飞机飞行的环境。然而,若想让人工智慧在游戏中同样设计纸飞机,因为游戏中无法模拟空气的流动等,没办法从实际的飞行经验中学习。非监督式学习的前提是,必须提供整合性的环境。

非监督式学习的重要性(the importance of unsupervised learning)

人工智慧的模型,包括需要有例题和标準答案(称为指令信号〔instructional signal〕)的模型,以及不需要例题和标準答案的模型。使用指令信号学习的是监督式学习,不使用指令信号学习的是非监督式学习。

监督式学习会遇到一些问题。举例来说,假设要将人工智慧送到火星等未知的世界。无法预测在那个未知的世界会发生什幺现象,所以无法针对那些现象设定正确的答案。换言之,无法制定指令信号。再者,由人来设定标準答案,人工智慧无法超越那个人的聪明程度,因而受到限制。

因此,不需要指令或说标準答案的非监督式学习,特别受重视。

AlphaGo如何战胜职业棋士?关键在这几组学习方式

人工智慧在所属的环境中,自己尝试错误,从中找出最佳行动,这种学习称为强化学习。强化学习是自己辨识行动的结果,也可视为非监督式学习。

强化学习的重点是,首先必须将自己的行动和状况明确表现出来。接着,了解在什幺状况下採取什幺行动,基于那个环境,会出现什幺样的结果。这幺一来,就能学习如何採取最佳行动。指引学习方向是称为奖励(reward)的概念,奖励是对结果的估计值。如何定义奖励,决定了学习的方向。让我们举个例子。

赌场里有三台吃角子老虎机A、B、C。预算是三千美元。在这种情况下,立刻把三千美元下注在同一台机器上,或是三台机器各下注一千美元,这样的人应该没看过吧。通常会在三台机器各下注小金额。假设先在每台机器各下注五十美元,看看出现什幺样的结果。假设吐出的钱是一百美元、二十美元和七十美元。那幺,获利机器的排序是A、C、B。

接下来,在A、B、C三台机器下注两百美元、四十美元和一百四十美元。依据结果,决定如何修改下一次的赌注金额。反覆依序进行,就能决定三台机器的下注方式。这就是从行为和结果来学习的强化学习。

再以对战格斗游戏为例来思考。人类操作的角色与人工智慧操作的角色对战。一开始,人工智慧会随机做出踢、拳、射线。奖励就是人类操作的角色体力减少的程度。状态则是与人类操作角色的距离,以及自己与对方角色的速度。

刚开始只是随机出招,对方几乎没有任何损失,但几次对战的过程中,偶尔出现让对方受到损失的情况。人工智慧把那些状况记忆起来。在无数对战的过程中,人工智慧能够学习在什幺状态下,採取什幺行动,可以削减对方的体力。这就是强化学习。

强化学习是从环境中找出适当行为的方式,是学习中最实用的方法之一。它的应用範围非常广泛,特别是想要学习的对象无法模型化时,能够有效进行学习。

AlphaGo如何战胜职业棋士?关键在这几组学习方式

本文摘录自《从人到人工智慧,破解AI革命的68个核心概念:实战专家全图解 × 人脑不被电脑淘汰的关键思考》,脸谱出版

*透过以上连结购书,《关键评论网》由此所得将全数捐赠儿福联盟。

作者:三宅阳一郎、森川幸人
译者:郑佩岚

除了下围棋、写小说之外,智慧管家、智慧城市、自动驾驶,人工智慧已在我们的生活中全面登场。IBM Deep Blue与人类的头脑战、AlphaGo对弈天才棋王、情感机器人Pepper、Amazon智慧扬声器Echo、活跃于医疗领域的IBM Watson、Google的猫脸识别、特斯拉的神经织网……人工智慧数次潮流的兴衰为我们带来哪些启示?我们对明日的人工智慧还可以有哪些想像?

本书由日本第一线的人工智慧专家执笔,精选68个关键词彙,以一篇一条目的方式,图文并陈,深入浅出解说人工智慧各项重要议题,并具体列举应用于今日社会的AI实例。

AlphaGo如何战胜职业棋士?关键在这几组学习方式




上一篇:
下一篇:
申博太阳城_abm是什么平台|各类群体购物指南|周边网民提供实时|网站地图 申博官网备用网址_sunbet(官网)管理 申博官网备用网址_申博7737