浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

hezhisheng026 生活知识 2023-11-05 17:30:02 96 0

LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型，可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优（SOTA）成绩，包括视觉问答、图像 caption等任务，展现出了强大的多模态理解能力。

论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

相比之前的版本LLaVA，LLaVA-1.5采用了更高分辨率的图像输入、更大规模的语言模型（13B参数），以及面向学术任务的视觉问答数据集，从而获得了显著的性能提升。研究人员发现，与额外的大规模预训练相比，视觉指令微调对提高多模态能力更为关键。

值得一提的是，LLaVA-1.5采用了最简单的架构设计，只需要在公开可取得的6百万图像文本配对上训练一个全连接层，就能在多项基准测试中打败复杂的SOTA系统，刷新记录。使用8块A100GPU，LLaVA-1.5的训练仅需1天时间即可完成。LLaVA-1.5展示了开源大模型可以通过简单的设计和公共数据取得竞争力，为未来的研究提供了有价值的经验。LLaVA-1.5以其出色的多模态理解能力，向业内掀起了一股“硬刚GPT-4”的新风潮。

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

本文链接：https://www.16i.cc/post/41626.html

上一篇：上升天秤的命主星是啥上升天秤是什么
下一篇：医学奇迹！巴勒斯坦12岁体内断头少年罕见幸存

2024-02-27网友:掐着人中订了国庆机票酒店看到价格差点晕倒
2024-02-27处暑三伏天结束了吗？处暑晴天好还是下雨好？
2024-02-26卫星地图看缅甸KK园区园区内划分了诈骗区
2024-02-26痦子的位置与命运图痦子的位置与命运图女
2024-02-26属鸡2019年下半年运势 2019年属鸡的全年运势
2024-02-26杭州亚运会英雄联盟项目淘汰赛赛程 9月27日中国队将登场
2024-02-26周公解梦梦见葡萄是什么意思做梦梦到葡萄代表什么？好不好
2024-02-26梦见黄鼠狼是什么意思
2024-02-26正月十四出生的人命运怎么样农历正月十四出生的人命怎么样
2024-02-26最适合2000年的属龙人结婚年龄是几岁 2000年属龙的最佳婚配年龄

浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

版权声明

相关文章

最近发表

热门文章

随机文章