主页 > Z默生活 >AlphaGo:从棋盘到电网 >

小编推荐

AlphaGo:从棋盘到电网


2020-06-06


AlphaGo:從棋盤到電網

2016年,AlphaGo 在「人机对弈」中以 4:1 打败棋王李世乭(Lee Sedol),跻身围棋世界排名第四,更在隔年以 3:0 胜过世界排名第一的柯洁,向人类社会投下极大的震撼弹。接下来,他的「智慧」将更进一步,探索人类工商活动中的「棋局」。

解析AlphaGo

围棋长久以来被视为机器最难驾驭的棋类,因为儘管他的规则单纯,却有相当高的複杂度。围棋的棋盘大小为 $$19\times 19$$ 格,使得整个棋局的排列组合数约为 $$10^{170}$$,複杂度远高于西洋棋的 $$10^{47}$$ 种组合。因此,超级电脑「深蓝(DeepBlue)」在下西洋棋时,可用类似穷举(brute-force)的搜寻方式,探索代表未来局势的树状结构,推导后续步骤胜负的可能性,但同样的方法在围棋上却行不通。

那幺 AlphaGo 是如何做到的?AlphaGo 的演算法,可分为三个部分:策略网路(policy network)、评价网路(value network)、与蒙地卡罗搜寻树(Monte Carlo tree search, MCTS)。前两个网路本质上是由卷积神经网路(Convolutional Neural Network, CNN)构成,将棋子可能出现的位置组合缩小至可控制的数量,再利用第三步的蒙地卡罗搜寻树计算答案。三个步骤,模拟了人类进行决策时的逻辑思考,并能取得在有限运算时间内的最佳解。

AlphaGo:从棋盘到电网

图一、AlphaGo 神经网路架构 (资料来源:参考资料[1],图片来源:译者自绘)

策略网路中,首先藉由监督式学习,输入大量职业棋手的棋谱,让 AlphaGo学习高手的棋步。接下来,利用强化学习(reinforcement learning),让内部两个策略网路自我对弈进行训练。训练后,网路能更精準预测高手落子的位置,进而减少后续需计算的组合。

价值网路则是取策略网路得到的结果,评估落子后的局面,判断最终胜负的机率。为求计算速度,在此取用卷积神经网路涵盖範围内的平均胜率,得到一近似解,AlphaGo亦能自行调整往后预测的步数,有效率地减少计算的深度。图一显示AlphaGo 以专家棋谱、自我对弈作为训练素材,计算机率分布,并运用随机梯度下降(stochastic gradient descent)更新参数的流程。

最后是蒙地卡罗搜寻树的四个步骤:选取(Selection)、展开(Expansion)、评估(Evaluation)、回传(Backup)。藉由随机抽样扩大搜寻树,沿着搜寻树往下展开并评估胜率,再将计算的价值往上回传更新。

提升自我学习力,拓展应用领域

最新版的 AlphaGo 可用更少的资料,进行更多的自我学习。他的目标也不再只是棋类游戏,而将智慧运用于供电电网的优化。我们可以发现,围棋与电力系统优化这两个问题,在本质上有许多相似之处。以下将 AlphaGo 在电力系统的应用,根据目的、模式的交互性及複杂度,分为两大类:以游戏为基础(game-based)、以搜索为基础(search-based)。

市场如游戏:知己知彼,最大化利益

以游戏为基础的模式:有两个以上的个体参与其中(例如:发电厂、电力公司、消费者),彼此间处于竞争状态,必须考虑对手在多个阶段可能採取的行动,以选择最有利个人的策略。这些理性的玩家会使市场处于平衡状态,其逻辑思考与 AlphaGo 在棋盘上进行的运算有异曲同工之妙。相关应用包含多阶段竞标(前一日市场、前一小时市场、即时市场)、分散式市场交易、充电式电动车能源管理,如图二所示。

值得一提的是,分散式市场交易中,个体间存在行动次序的区别,可用斯塔克伯克竞争模型(Stackelberg leadership model)解析。扮演「领导者」的中央控制者订定一零售价,拥有分散式能源(DER)的「跟随者」则在观察价格后,规划输电量及时程以最大化收益。领导者与跟随者行动时,均面临不确定因素:领导者未掌握发电机运量与客户消费习惯,跟随者则须猜测未来价格的涨跌,使问题存在高複杂度。另外,充电式电动车的特色,则是使用者得以在角色间转换:充电为电能消费者,放电时转为电能提供者。他们在有限的输电能力与电池容量下,寻找最低成本的策略以达成充电需求。

建立情境树,搜索最佳解

以搜索为基础的模式:局面中仅有单一个体,无个体间的互动,关键元素为整个系统所处的状态。在电力系统中,因为存在负载及风力变异、发电机中断等潜在突发状况,因此探索时需考虑多重情景。首先画出「情境树」以代表各种可能的状态。树木「根部」的节点为当下系统所处的状态,将各节点下可能出现的变异数作为分支向下延展,而从「根部」走到末梢「枝叶」的路径,代表一种情景。为达到即时监控,AlphaGo 演算法在此会筛选较关键的状态进行评估,有效利用运算资源,找出潜在的高风险情景。相关应用如图二所示。

AlphaGo:从棋盘到电网

图二、AlphaGo 演算法于电力系统之应用

AlphaGo的下一步:提升能源效率,创造经济利益

AlphaGo 开发团队 DeepMind 正与英国国家电网(National Grid UK)合作,将「棋局」从棋盘带向现实生活中的电力供应问题。英国国家电网掌管电力输送的基础设施,以确保各地有足够的电力供应。然而近年来,由于再生能源供应的不稳定性,使得电网的供需平衡面临挑战。他们的目标便是利用 AlphaGo 演算法,预测电力供应与需求的尖峰,最大化再生能源的利用,进而提升电力系统的效能。如此不用新建基础建设,只需透过优化手段,便预期可减少 10 % 的电力使用量。

事实上,DeepMind 在减少电能消耗上,已有相当的成效。2016年他曾模拟Google 的资料中心系统,学习有效控制风扇和其他硬体设备,将冷却机器所需的电能降低 40 %,相当于让资料中心整体用电量减少15 %,为Google大幅节省电费。走出棋盘,走向新世代能源运用,AlphaGo的影响层面与涉及效益逐渐扩展,正迈向下一个里程碑。

编译来源:From AlphaGo to Power System AI: What Engineers Can Learn from Solving the Most Complex Board Game Fangxing Li, Yan Du, IEEE power & energy magazine, 2018


参考文献

[1] David Silver, Aja Huang, Demis Hassabis et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search”, Nature, 2016[2] Richard Evans, Jim Gao, “DeepMind AI Reduces Google Data Centre Cooling Bill by 40 %”, 2016[3] Cade Metz, “Google’s AlphaGo Levels Up from Board Games to Power Grids”, 2017


上一篇:
下一篇:
申博太阳城_abm是什么平台|各类群体购物指南|周边网民提供实时|网站地图 申博官网备用网址_巨弘国际登陆 申博官网备用网址_手机飞禽走兽赌博