BERT§

视频链接:BERT从零详细解读,通俗易懂!!_哔哩哔哩_bilibili

一、bert整体模型架构§

image-20230507095857730

bert-base有12层的transformer encoder

bert-large为24层

原transformer

二、bert的输入§

image-20230507100622563

[SEP]是为了区分句子,[CLS]用于NSP(next sentence predicting)任务时的后续接二分类

segment embeddings 是用来区分不同的句子

三、如何做预训练§

MLM§

不同与AR(自回归)任务,依赖于MLM属于AE(自编码)

image-20230507101828428

NSP§

image-20230507102616928

四、下游任务§

image-20230507103206532

image-20230507103222211

image-20230507103300845