图解OpenAI的秘密武器GPT2可视

大数据文摘出品

来源:github

编译:小七、池俊辉、Andy

今年,我们见识了许多令人眼花缭乱的机器学习的应用成果。其中OpenAI训练的GPT-2模型就展示出了惊艳的能力,它能够撰写出连贯而富有激情的论文,比当下其他所有的语言模型写的都好。

GPT-2其实并不是一种特别新颖的架构,它的架构非常类似于Transformer模型的Decoder结构。然而,GPT2是一个非常大的基于Transformer的语言模型,需要基于大量数据集进行训练。在这篇文章中,我们将介绍什么样的结构能够让模型产生好的结果,深入研究模型中的self-attention层,此外,我们将研究除语言建模之外的Transformer模型Decoder结构的应用。

我写本文主要是为了补充我之前的“图解Transformer模型”系列。

系列链接:




转载请注明:http://www.aierlanlan.com/rzdk/5143.html