经由人类评估试验 ,字少T钻钻研者发现,信息当 GPT-4 将「稿子」改到第三版的手把手教时候 ,「信息密度」以及「语言精辟度」两个因素抵达了一种最佳失调形态。字少T钻
近些年来,信息自动摘要技术取患了长足的手把手教后退,这主要归功于范式的字少T钻转变 —— 从在标注数据集上妨碍有把守微调转变为运用狂语言模子(LLM)妨碍零样本 prompt ,好比 GPT-4。信息不需要格外的手把手教磨炼,详尽的字少T钻 prompt 就能实现对于摘要长度、主题 、信息气焰等方面特色的手把手教详尽操作。
但一个方面每一每一被轻忽:摘要的字少T钻信息密度 。从实际上讲 ,信息作为对于另一个文本的手把手教缩短,摘要理当比源文件更密集,也便是搜罗更多的信息 。思考到 LLM 解码的高延迟,用更少的字数涵盖更多的信息颇为紧张 ,特意是对于实时运用而言。
可是 ,信息量密度是一个凋谢式的下场 :假如摘要搜罗的细节缺少 ,那末至关于不信息量;假如搜罗的信息过多,又不削减总长度,就会变患上难以清晰。要在牢靠的 token 估算内传递更多信息,就需要将抽象