All
0
Deep learning
0

Modelos de atención en redes neuronales

11 julio, 2019
Una introducción a la atención.  (El por qué y el qué) En una publicación anterior sobre “Introducción a la atención” vimos algunos de los desafíos clave que abordó la arquitectura de atención introducida allí (y que se mencionó en la Fig. 1 a continuación). Mientras que en el mismo espíritu, hay otras variantes que también podría encontrar. Entre otros aspectos, estas variantes difieren en “dónde” se usa la atención (independiente, en RNN, en CNN, etc.) y en “cómo” se deriva la atención (global contra local, suave contra difícil, etc.). Esta publicación es una breve lista de algunas de las variantes. Descargo de responsabilidad 1: La idea aquí es simplemente para tener una idea de cómo se aprovechan los mecanismos de atención en las soluciones propuestas en diferentes documentos. Por lo tanto, la atención se centrará menos en el tipo de tarea que el documento intentaba resolver y más en el uso de los mecanismos de atención en la solución. Descargo de responsabilidad 2: no hay ninguna razón o razón por la que se hayan elegido estos documentos / variantes. Esta lista es solo un producto de exploraciones aleatorias y resultados de búsqueda principales. Descargo de responsabilidad 3: atención propia y los Transformers merecen una publicación separada (en verdad, perdí fuerza por el día) y no se mencionan aquí. Atención global vs atención local La atención global es la misma que se exploró en la publicación “Introducción a la atención”. Es cuando utilizamos TODOS los estados ocultos del codificador para definir el vector de contexto basado en la atención para cada paso del decodificador. Pero como habrás adivinado, esto podría ser costoso. Por otra parte, la atención local atiende solo a unos pocos estados ocultos que caen dentro de una ventana más pequeña. Esta ventana se centra en el estado oculto del codificador “p” e incluye los estados ocultos “D” que aparecen a cada lado de la “p”. Así que eso hace que la longitud de esta ventana, es decir, el número de estados ocultos considerados, 2D + 1. La alineación monótona es cuando p simplemente se configura para ser la misma que la posición del decodificador (la quinta salida tendrá p = 5, y si D = 2, la atención estará solo en 3,4,5,6,7 estados ocultos). La alineación predictiva es cuando “p” se define como una función del decodificador estado oculto ht (el papel usa S · sigmoid (vp⊤ tanh (Wpht)) y los parámetros de esta función son aprendidos conjuntamente por el modelo. Atención global vs atención local La atención global es la misma que se exploró en la publicación “Introducción a la atención”. Es cuando utilizamos TODOS los estados ocultos del codificador para definir el vector de contexto basado en la atención para cada paso del decodificador. Pero como habrás adivinado, esto podría ser costoso. Por otra parte, la atención local atiende solo a unos pocos estados ocultos que caen dentro de una ventana más pequeña. Esta ventana se centra en el estado oculto del codificador “p” e incluye