2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒
从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。
两个模型的回答对比,高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说,都是一把好手,完胜Llama2。
两行代码和三个关键结论
Llama2可以说是AI社区内最强大的开源大模型之一,行业位置领先,LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意,到底是怎么做到的?
原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。
针对这个问题,研究团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟。
简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。
这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。
而且,这个实现方法也非常简洁,仅两行代码即可完成!
除此之外,LongLoRA还探索了低秩训练的方式。
原有的低秩训练方式,如LoRA[5],无法在文本长度迁移上取得良好的效果。
而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。
进行不同长度文本扩展和训练时,LongLoRA、LoRA和全参数微调不同技术的具体效果如何,可以参考三个维度表现:
在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;
在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。
在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。
极简的训练方法、极少的计算资源和时间消耗,以及极佳的准确性,令LongLoRA大规模推广成为可能。
目前,相关技术与模型已全部开源,感兴趣的用户们可以自己部署感受。
值得一提的是,这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。
相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。
- 上一篇: 男生中考忘涂卡妈妈大哭?发布者辟谣
- 下一篇: 十二生肖守护神分别是什么 十二生肖守护神排序