循环神经网络(RNNs):具有隐状态、不同层参数共享的神经网络
常见的三种基础 RNNs :RNN、GRU、LSTM
RNN
隐变量模型:使用隐状态
假设时刻
GRU
GRU 在 RNN 的基础上增加了针对隐状态的门控:
- 更新门(update gate)用于确定隐状态是否需要更新,有助于捕捉序列中的长期依赖
- 重置门(reset gate)用于确定隐状态是否需要重置,有助于捕捉序列中的短期依赖
假设时刻
时刻
时刻
当
接近 1 时,模型倾向于保留旧状态;当 接近 0 时,模型倾向于保留当前状态
LSTM
长短期记忆网络引入了记忆元(memory cell,其实可以看作为隐状态的一种特殊类型),简称单元(cell),通过三种门控制记忆元的输入、输出和遗忘:
- 输出门(output gate):控制记忆元存储数据的输出
- 输入门(input gate):决定何时将数据存入记忆元
- 遗忘门(forget gate):管理记忆元存储内容的重置
具体计算过程和 GRU 非常相似,只不过细节上略有调整,比如
因此,就暂时略过了(敲公式快敲麻了)