Entrenamiento multitarea sin supervisión  de  modelos lingüísticos  (GPT-2)

Resumen Image result for gpt-2


Las tareas de procesamiento de lenguaje natural, como la respuesta a preguntas, la traducción automática, la lectura de la comunicación y el resumen, generalmente se abordan con aprendizaje supervisado en conjuntos de datos específicos de la tarea. Demostramos que los modelos de idioma comienzan a aprender estas tareas sin ningún tipo de supervisión explícita cuando se capacitan en un nuevo conjunto de datos de millones de páginas web llamado WebText. Cuando se encuentran en un documento más preguntas, las respuestas generadas por el modelo de idioma llegan a 55F1 en el conjunto de datos CoQA, igualando o superando el rendimiento de 3 de cada 4 sistemas de línea de base sin utilizar los más de 127,000 ejemplos de capacitación. La capacidad del modelo de idioma es esencial para el éxito de la transferencia de tareas de cero disparos y su aumento mejora el rendimiento en una moda de log-linear en todas las tareas. Nuestro modelo más grande, GPT-2, es un transformador de parámetro 1.5B que logra resultados de estado de la técnica en 7 de los 8 conjuntos de datos de modelado de lenguaje en una configuración de disparo cero, pero aún se adapta a WebText. Las muestras del modelo reflejan estas mejoras y contienen párrafos de texto coherentes. Estos hallazgos sugieren un camino prometedor hacia la construcción de sistemas de procesamiento del lenguaje que aprenden a realizar tareas a partir de sus demostraciones naturales.

 

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

Leave a Reply

Your email address will not be published.