Modelos de atención en redes neuronales

Una introducción a la atención.  (El por qué y el qué)

Attention and memory systems

La atención es, entonces, uno de los componentes más importantes de las redes neuronales.

En una publicación anterior sobre "Introducción a la atención" vimos algunos de los desafíos clave que abordó la arquitectura de atención introducida allí (y que se mencionó en la Fig. 1 a continuación). Mientras que en el mismo espíritu, hay otras variantes que también podría encontrar. Entre otros aspectos, estas variantes difieren en "dónde" se usa la atención (independiente, en RNN, en CNN, etc.) y en "cómo" se deriva la atención (global contra local, suave contra difícil, etc.). Esta publicación es una breve lista de algunas de las variantes. Descargo de responsabilidad 1: La idea aquí es simplemente para tener una idea de cómo se aprovechan los mecanismos de atención en las soluciones propuestas en diferentes documentos. Por lo tanto, la atención se centrará menos en el tipo de tarea que el documento intentaba resolver y más en el uso de los mecanismos de atención en la solución. Descargo de responsabilidad 2: no hay ninguna razón o razón por la que se hayan elegido estos documentos / variantes. Esta lista es solo un producto de exploraciones aleatorias y resultados de búsqueda principales. Descargo de responsabilidad 3: atención propia y los Transformers merecen una publicación separada (en verdad, perdí fuerza por el día) y no se mencionan aquí. Atención global vs atención local La atención global es la misma que se exploró en la publicación "Introducción a la atención". Es cuando utilizamos TODOS los estados ocultos del codificador para definir el vector de contexto basado en la atención para cada paso del decodificador. Pero como habrás adivinado, esto podría ser costoso. Por otra parte, la atención local atiende solo a unos pocos estados ocultos que caen dentro de una ventana más pequeña. Esta ventana se centra en el estado oculto del codificador “p” e incluye los estados ocultos “D” que aparecen a cada lado de la “p”. Así que eso hace que la longitud de esta ventana, es decir, el número de estados ocultos considerados, 2D + 1. La alineación monótona es cuando p simplemente se configura para ser la misma que la posición del decodificador (la quinta salida tendrá p = 5, y si D = 2, la atención estará solo en 3,4,5,6,7 estados ocultos). La alineación predictiva es cuando "p" se define como una función del decodificador estado oculto ht (el papel usa S · sigmoid (vp⊤ tanh (Wpht)) y los parámetros de esta función son aprendidos conjuntamente por el modelo. Atención global vs atención local La atención global es la misma que se exploró en la publicación "Introducción a la atención". Es cuando utilizamos TODOS los estados ocultos del codificador para definir el vector de contexto basado en la atención para cada paso del decodificador. Pero como habrás adivinado, esto podría ser costoso. Por otra parte, la atención local atiende solo a unos pocos estados ocultos que caen dentro de una ventana más pequeña. Esta ventana se centra en el estado oculto del codificador “p” e incluye los estados ocultos “D” que aparecen a cada lado de la “p”. Así que eso hace que la longitud de esta ventana, es decir, el número de estados ocultos considerados, 2D + 1. La alineación monótona es cuando p simplemente se configura para ser la misma que la posición del decodificador (la quinta salida tendrá p = 5, y si D = 2, la atención estará solo en 3,4,5,6,7 estados ocultos). La alineación predictiva es cuando "p" se define como una función del decodificador estado oculto ht (el papel usa S · sigmoid (vp⊤ tanh (Wpht)) y los parámetros de esta función son aprendidos conjuntamente por el modelo.   Tenga en cuenta que el espíritu de "atención" tiene más que ver con la capacidad de atender a varias entradas para cada paso de salida y tiene menos que ver con otros aspectos como la función de alineación utilizada, la naturaleza de RNN involucrada, etc. Por lo tanto, puede encontrar otras variantes para Lo que se describe anteriormente. Continuar leyéndolo y inglés
Category:
  deep learning