-
不受窗口长度限制的长文本生成全新思路:利用模型参数储存上文信息
目前的长文本生成方面的研究主要集中在长度外推和扩充窗口长度上,其主要思想都是在模型的KV states中尽可能多且有效的储存上文的信息,并让模型在推理时候尽可能准确的用好这些信息。然而这种存储是有上限的,基于此本文研究者…
目前的长文本生成方面的研究主要集中在长度外推和扩充窗口长度上,其主要思想都是在模型的KV states中尽可能多且有效的储存上文的信息,并让模型在推理时候尽可能准确的用好这些信息。然而这种存储是有上限的,基于此本文研究者…