微软写了份GPT-4V说明书:166页讲解又全又详细,提示词demo示例一应俱全 | 附下载
甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。
这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。
同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。
经过专业人士判断,GPT-4V给出的结论完全正确。
除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。
△机器翻译,仅供参考
不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。
除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。
这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。
甚至是手写的数学公式:
图像推理
前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。
除了看懂图片中的内容,GPT-4V还具有一定的推理能力。
简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。
下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。
如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。
上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:
当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。
图片标注
除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。
比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。
GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:
动态内容分析
除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。
下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。
而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。
比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。
当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。
甚至是预测接下来会发生什么:
“现场学习”
GPT-4V不仅视觉本领强,关键是还能现学现卖。
还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:
紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:
然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。
只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。
GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。
那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?
清华校友领衔
这篇论文的作者一共有7位,均为华人,其中6位是核心作者。
项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。
她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。
她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。
原文地址:
https://arxiv.org/abs/2309.17421
- 上一篇: 三星官翻旗舰店7天机靠谱吗?带你一文读懂
- 下一篇: 姓毛属虎的男孩名字 男孩取名字属虎