Управляемый рекуррентный блок


Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) — механизм вентилей для рекуррентных нейронных сетей, представленный в 2014 году. Было установлено, что его эффективность при решении задач моделирования музыкальных и речевых сигналов сопоставима с использованием долгой краткосрочной памяти (LSTM). По сравнению с LSTM у данного механизма меньше параметров, т.к. отсутствует выходной вентиль.

Архитектура

∘ {displaystyle circ } обозначает произведение Адамара. h 0 = 0 {displaystyle h_{0}=0} .

z t = σ g ( W z x t + U z h t − 1 + b z ) r t = σ g ( W r x t + U r h t − 1 + b r ) h t = z t ∘ h t − 1 + ( 1 − z t ) ∘ σ h ( W h x t + U h ( r t ∘ h t − 1 ) + b h ) {displaystyle {egin{aligned}z_{t}&=sigma _{g}(W_{z}x_{t}+U_{z}h_{t-1}+b_{z})r_{t}&=sigma _{g}(W_{r}x_{t}+U_{r}h_{t-1}+b_{r})h_{t}&=z_{t}circ h_{t-1}+(1-z_{t})circ sigma _{h}(W_{h}x_{t}+U_{h}(r_{t}circ h_{t-1})+b_{h})end{aligned}}}

Переменные

  • x t {displaystyle x_{t}} : входной вектор
  • h t {displaystyle h_{t}} : выходной вектор
  • z t {displaystyle z_{t}} : вектор вентиля обновления
  • r t {displaystyle r_{t}} : вектор вентиля сброса
  • W {displaystyle W} , U {displaystyle U} и b {displaystyle b} : матрицы параметров и вектор

Функции активации

  • σ g {displaystyle sigma _{g}} : на основе сигмоиды.
  • σ h {displaystyle sigma _{h}} : на основе гиперболического тангенса.