AI and Deep Learning in 2017 – A Year in Review

/ 0评 / 0

原文地址:查看

 

强化学习称霸人类游戏

如果说2016年AlphaGo击败李世乭之后,大家对它的棋坛地位还有些许怀疑的话,2017年击败柯洁,让它成了毫无疑问的围棋霸主。

 

作为一个强化学习Agent,它的第一个版本使用了来自人类专家的训练数据,然后通过自我对局和蒙特卡洛树搜索的改进来进化。

 

不久之后,AlphaGo Zero更进一步,使用了之前一篇论文Thinking Fast and Slow with Deep Learning and Tree Search提出的技术,从零开始下围棋,在训练中没有用到人类对局的数据。

 

如果说2016年AlphaGo击败李世乭之后,大家对它的棋坛地位还有些许怀疑的话,2017年击败柯洁,让它成了毫无疑问的围棋霸主。

 

作为一个强化学习Agent,它的第一个版本使用了来自人类专家的训练数据,然后通过自我对局和蒙特卡洛树搜索的改进来进化。

 

不久之后,AlphaGo Zero更进一步,使用了之前一篇论文Thinking Fast and Slow with Deep Learning and Tree Search提出的技术,从零开始下围棋,在训练中没有用到人类对局的数据。

 

 

相关论文:

AlphaGo
https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf
AlphaGo Zero
https://www.nature.com/articles/nature24270.epdf
AlphaZero
https://arxiv.org/abs/1712.01815
Thinking Fast and Slow with Deep Learning and Tree Search
https://arxiv.org/abs/1705.08439


 

AI今年取得重大进展的游戏不止围棋。CMU研究人员的Libratus(冷扑大师)在20天的一对一无限注德州扑克比赛中,击败了人类顶级扑克玩家。

 

再早些时候,查尔斯大学、捷克技术大学和加拿大阿尔伯塔大学开发的DeepStack,首先击败了专业德扑玩家。

 

有一点值得注意,这两个程序玩的都是一对一扑克,也就是两名玩家之间的对局,这比多人游戏更容易。2018年,我们很可能看到算法在多玩家扑克上取得一些进步。

Libratus论文:
http://science.sciencemag.org/content/early/2017/12/15/science.aao1733.full

 

用强化学习玩人类游戏的下一个领域,似乎是更复杂的多人游戏,除了多人扑克之外,还有星际争霸、DotA等等。DeepMind正在积极研究星际争霸2,发布了相关的研究环境。

星际争霸2研究环境

而OpenAI在DotA中单比赛中取得了初步的成功,玩转5v5游戏,是他们的下一步目标

 

进化算法回归

对于监督学习来说,基于梯度的反向传播算法已经非常好,而且这一点可能短期内不会有什么改变。


然而,在强化学习中,进化策略(Evolution Strategies, ES)似乎正在东山再起。因为强化学习的数据通常不是lid(独立同分布)的,错误信号更加稀疏,而且需要探索,不依赖梯度的算法表现很好。另外,进化算法可以线性扩展到数千台机器,实现非常快的平行训练。它们不需要昂贵的GPU,但可以在成百上千便宜的CPU机器上进行训练。


2017年早些时候,OpenAI的研究人员证明了进化策略实现的性能,可以与Deep Q-Learning等标准强化学习算法相媲美。

相关论文:
https://arxiv.org/abs/1703.03864


年底,Uber内部一个团队又连发5篇论文,来展示遗传算法和新颖性搜索的潜力。他们使用非常简单的遗传算法,没有任何梯度信息,学会了玩各种雅达利游戏。他们的进化算法在Frostbite游戏中达到了10500分,而DQN、AC3、ES等算法在同样的游戏中得分都不到1000。

 

很可能,2018年我们会在这个方向看到更多的工作。

 

WaveNets,CNNs以及注意力机制

谷歌的Tacotron 2文本转语音系统效果令人印象深刻。这个系统基于WaveNet,也是一种自动回归模型,也被部署于Google Assistant之中,并在过去一年得到快速提升。

远离昂贵且训练漫长的回归架构是一个更大的趋势。在论文Attention is All you Need里,研究人员完全摆脱了循环和卷积,使用一个更复杂的注意力机制,只用了很小的训练成本,就达到了目前最先进的结果。

论文地址:https://arxiv.org/abs/1706.03762

 

深度学习框架这一年

如果非要用一句话总结2017,那只能说是框架之年。

 

Facebook搞出了PyTorch,这个框架得到了搞自然语言处理的研究人员大爱。

 

TensorFlow在2017年继续领跑,目前已经发布到1.4.1版本。除了主框架之外,还发布了多个伴随库。TensorFlow团队还发布了一个全新的eager execution模式,类似PyTorch的动态计算图。此外:

除了通用的深度学习框架外,我们还看到大量的强化学习框架发布:

为了让深度学习更易普及,还有一些面向web的框架,例如谷歌的deeplearn.js和MIL WebDNN执行框架。

2017,还有一个流行框架跟我们告别了,那就是Theano。

 

学习资源

随着深度学习和强化学习越来越流行,2017年有越来越多的课程、训练营等活动举行并分享到网上。以下是我最爱的一些。

研究人员也开始在arXiv上发布低门槛的教程和综述论文。以下是过去一年我的最爱。

 

发表评论

error: