阿尔法狗新版有哪些特点?

发布网友 发布时间:2022-04-23 20:52

我来回答

1个回答

热心网友 时间:2023-09-08 23:58

新版拥有强大的自学能力,它能通过自学玩转多种游戏,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。 仅三天时间,AlphaGo Zero自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着AlphaGo Zero被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。

当被问到为什么AlphaGo Zero的训练如此稳定?

David Silver说,AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统(无模型)算法不同,通过使用AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy )

为什么这次Zero就训练了40天?训练3个月会怎样?

David Silver认为,这是一个人力和资源优先级的问题,如果训练3个月,我想你会问训练6个月会发生什么。

为什么一开始选择用人类对局数据来训练AlphaGo,而不是通过自我对弈来从0开始?之前的AlphaGo瓶颈在哪里?

David Silver表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现AlphaGo Zero的算法是最有效率的。

DeepMind和*几乎同时开始研究这一课题,为什么你们能达到这个水平?

David Silver说,*更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。

AlphaGo Zero是AlphaGo的最终版本吗?

David Silver:我们已经不再主动研究如何让AlphaGo变得更强,但我们仍然用它尝试新的想法。

AlphaGo有没有开源计划?

David Silver:我们在过去已经开源了许多代码,但AlphaGo始终是一个复杂的过程,它是一个非常复杂的代码。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com