图片来源 佩吉·乔卡尔
长短期记忆网络(LSTM),作为一种改进之后的循环神经网络,不仅能够解决 RNN无法处理长距离的依赖的问题,还能够解决神经网络中常见的梯度爆炸或梯度消失等问题,在处理序列数据方面非常有效。
有效背后的根本原因有哪些?本文结合简单的案例,带大家了解关于LSTM 的五个秘密,也解释了LSTM如此有效的关键所在。
秘密一:发明LSTM是因为RNN 发生严重的内存泄漏
之前,我们介绍了递归神经网络(RNN),并演示了如何将它们用于情感分析。
RNN 的问题是远程内存。例如,它们能够预测出“the clouds are in the……”这句话的下一个单词“sky”,但却无法预测出下面这句话中缺失的单词:“她在法国长大。现在到中国才几个月。她说一口流利的 ……”(“She grew up in France.Now she has been in China for few months only.She speaks fluent ……”)