研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

hezhisheng026 技术综合 2023-10-22 17:30:01 93 0

10月6日，一场引人入胜的竞争正在AI行业内悄然展开，OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的Chatbot Arena排行榜，展示了每个AI聊天机器人与竞争对手相比的表现。结果显示，即使Anthropic的模型仍然免费使用，它也在性能上超越了OpenAI，成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎，以最高分数位居榜首，为大型语言模型（LLM）设定了黄金标准。但随着排行榜的下滑，一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色，超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜，GPT-4拥有1181的Arena Elo评分，远远领先于榜单，而Claude模型紧随其后，评分从1119到1155不等。另一方面，GPT-3.5的评分为1115。

为了排名这些模型，LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜，另一个模型失利。用户根据自己的喜好决定谁获胜，但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样，虽然这不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100，000个信息token，而由GPT-4LLM提供支持的ChatGPT Plus则处理8，192个令牌，"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于细致和丰富的用户体验至关重要。

此外，在处理长提示时，Claude2在效率上表现出优势，可以更有效地处理更大规模的提示。然而，在提示可比较的情况下，Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。借助Claude的上下文功能，初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用，原因各种各样。它们可以在本地运行，使用户有机会对其进行微调，并使社区参与到完善模型的集体努力中。由于许可证的原因，它们运行成本更低，这就是为什么这个领域有数十种开源LLM模型，而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字，还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入，它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5，企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

本文链接：https://www.16i.cc/post/40911.html

2024-02-26易经先行人邵伟华周易预测学免费四柱八字算命
2024-02-261699元起华为MatePad 2023款发布：11.5英寸2.2K护眼柔光屏
2024-02-26今年四月廿五生女孩上等命吗农历四月二十五是什么命
2024-02-26TFBOYS演唱会门票开售秒空！优酷在线直播随便买：39元起不用抢
2024-02-26看面相痣算命图解看面相痣算命图解大全
2024-02-26佩戴朱砂手链的功效与作用手上戴朱砂手链有什么好处
2024-02-26亚马逊中文官网Amazon.cn 7月17日起停运
2024-02-26属马的今年多大属马的今年多大了2023年
2024-02-26梦见已故的外公是什么意思梦见已故的外公是什么兆头
2024-02-26为iPhone14/15提供更多功能：录4K高清视频支持外部时间码同步

研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

版权声明

相关文章

最近发表

热门文章

随机文章