对于熟悉LLM模型训练的同学可能会知道LLM模型的架构基本都是从标准的Transformer架构上演变而来,而从LLM的发展路径来看,之前形成了以Bert为代表的encoder-decoder双向架构和以两大流派。而在bert为代表的encoder-decoder架构进行训练时,会采用掩码即Mask的训练方式。这种训练方式特别像我们做英语试卷中的完形填空题,就是我们把预训练数据不做label 处理,而是把整篇文本挖一些空,让模型根据上下文来做完形填空的方式来进行训练。好处是不需要太大的标注成本就可以取得不错的模型能力,而且还有一定的泛化性。