这里有一个很不错的图讲bert的用法的: * 先通过完形填空的方式,用大量的语料做预训练。 * 然后针对特定的任务,做微调 Introduction BERT:Bidirectional Encoder Representation from Transformer 用来预训练bidirectional representation,也就是说,bert输出的是每一个token对应的bidirectional representation,用来后续做其他任务。 这里有一个新的名词:pretrain的过程是通过join…