2024-03-05 全球最强大模型易主 GPT-4被超越

日期：2024-03-05 00:50:08 来源：量子位浏览：715次栏目：热点

白交西风发自凹非寺
量子位 | 公众号 QbitAI

Anthropic刚刚官宣：

Claude 3来了！

作为OpenAI最强竞争选手，此次它发布的新模型家族，以最强版Claude 3 Opus为代表，

“已经实现了接近人类的理解能力”

——

在推理、数学、编码、多语言理解和视觉方面，

全面超越GPT-4在内的所有大模型

，直接重新树立行业基准的那种。

浅看一下这份成绩单，就十分扎眼~

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外，此前就以长下文窗口见长的Claude，此次全系列大模型可提供 200K 上下文窗口，并且接受

超过100万Tokens输入

。

Gemini 1.5 P白熊资讯网ro：嗯？

目前可以免费体验第二强Sonnet，Opus最强版供Claude Pro付费用户使用，但大模型竞技场也可以白嫖。于是乎，网友们已经开始疯玩上了。

（Doge）

另外，Opus和Sonnet也开放API访问，开发者可以立即使用。

有人直接艾特奥特曼：好了，你现在可以发布GPT-5了。

不过奥特曼可能还在烦马斯克的诉讼……

最新最强大模型发布

此次Claude 3家族共有三个型号：小杯Haiku、中杯Sonnet以及大杯Opus，成本和性能依次递增。

首先，在

性能参数

上，Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型：

还有在视觉能力上，它能可以处理各种视觉格式，包括照片、图表、图形和技术图表。

对于这样性能结果，有专业人士表达了自己的看法。

比如爱丁堡大学博士生、中文大模型知识评估基准C - Eval提出者之一

符尧

就表示，像MMLU / GSM8K / HumanEval这些基准，已经严重饱和：所有模型的表现都相同。

他认为，真正区分模型性能基准的是

MATH and GPQA

。

另外，在拒绝回答人类问题方面，Claude 3也前进了一大步，拒绝回答的可能性显著降低

在上下文以及记忆能力上，他们用大海捞针

（Needle In A Haystack，NIAH）

来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率。而且在某些情况下，它甚至能识别出 “针 “句似乎是人为插入原文的，从而识别出评估本身的局限性。

还在生OhneNpJ物知识、网络相关知识等方面取得了进步，但出于负责任的考虑，仍处于AI安全级别2

（ASL-2）

。

其次，在

响应时间

上，Claude 3大幅缩短，做到近乎实时。

官方介绍，即将白熊资讯网发布的小杯Haiku能够在

三秒内

阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上，速度比Claude 2和Claude 2.1快2倍，尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高，但速度不减，与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

大杯Opus：比别家模型更智能。适用于复杂的任务自动化、研发和制定策略；
中杯Sonnet：比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间；
小杯Haiku：比同类模型更快速、实惠。适用于与用户实时互动，以及在简单工作流程中节省成本；

在

价格

方面，最便宜的小杯定价0.25美元/1M tokens输入，最贵的大杯定价75美元/1M tokens输入

对比GPT-4 Turbo，大杯价格确实高出不少，也能体现AnthropicAI对这款模型非常有信心。

第一手实测反馈

既如此，那就先免费来尝尝鲜~

目前官方页面已经更新，Claude展现了「理解和处理图像」这一功能，包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档，也能准确OCR识别：

底下写着：你正在使用他们第二大智能模型Claude//www.czybx.com 3 Sonnet。

然鹅，可能是人太多的原因，尝试了几次都显示

“Failed”

不过，网友们也已经po出了一些测试效果，比如让Sonnet解谜题。

为其提供一些示例，要求它找出数字之间的关系，比如“1 Dimitris 2 Q 3”，意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9，所以“X”的值应该是6.9：

还有网友发现Sonnet现在也可以读取 ASCII 码了，直呼：

这是GPT-4 ++的水平了

。

在编程任务上，谁写的代码好先不说，Claude 3至少不会像GPT-4一样偷懒。

还有体验到了Opus的玩家，在线给模型挖坑，可opus硬是完美躲避不上当：

初看这效果，感觉还行。这时候应该艾特OpenAI：GPT-5在哪里？

好了，感兴趣的朋友，可以戳下方链接体验啦~

https://claude.ai/

参考链接：

[1]https://www.anthropic.com/news/claude-3-family

[2]https://twitter.com/AnthropicAI/statu//www.czybx.coms/1764653830468428150/photo/1

— 完 —

量子位 QbitAI 头条号签约

关注我们，第一时间获知前沿科技动态

文章标题: 2024-03-05 全球最强大模型易主 GPT-4被超越

文章地址: www.czybx.com/redian/387928.html

标签全球最强大模型易主 GPT-4被超越

上一篇：2024-03-04 杨惠妍：可保障今年房屋交付下一篇：2024-03-04 3年142部电视剧改名，究竟为何？

2024-09-21 曝数百名俄科学家将被迫离开瑞士

来源：环球时报新媒体今日俄罗斯（RT）电视台9月20日援引《自然》杂志的消息报道称，位于瑞士的欧洲核子研究中心（CERN）将于今年12月1日终止与俄罗斯的合作协议，并禁止所有与俄罗斯有关的科学家进入...
2024-09-21 22:12:35曝数百名俄科学家将被迫离开瑞士
2024-09-27 A股国庆休市不加班

A股重回3000点，沪深两市成交额连续两日超1.1万亿。9月26日的百点长阳，为A股赚足了人气。9月27日一大早降准的消息，又让A股爆红。因为买入太过火爆，上交所系统出现卡顿、交易延迟、闪退等异常，被...
2024-09-27 13:19:57A股国庆休市不加班
2024-09-27 石破茂当选自民党总裁将任日本首相

△石破茂当地时间9月27日下午，日本自民党前干事长石破茂在自民党总裁选举第二轮投票中获得多数选票，当选自民党新任总裁。现任日本首相岸田文雄的自民党总裁任期将于9月30日结束。按惯例，新任自民党总裁石破...
2024-09-27 14:26:47石破茂当选自民党总裁将任日本首相
2024-09-21 华为WATCH GT5未上市先开售

最近华为新品好像挺多的，除了大家都在抢购的华为MateXT非凡大师之外，最近电商平台还出现了华为BE7路由器，虽然还没发布但已经开售，而现在华为新款智能手表也来了，这款产品是很多人期待的华为WATC...
2024-09-21 19:38:49华为WATCH GT5未上市先开售
2024-09-27 男子吐槽火车站内的广告太逼真

男子吐槽火车站内的广告太逼真...
2024-09-27 10:00:07男子吐槽火车站内的广告太逼真
2024-09-25 新娘遭婚闹被绑电线杆上当事人道歉

你敢信吗？新娘在婚礼上竟被绑上了电线杆？这场“特殊”的婚闹引爆了全网热议！山西阳泉的这一幕，是真闹剧还是误解？让我们一起揭开真相的面纱！山西阳泉的杨先生为朋友婚礼护航，声称此举是精心设计的环节，绝非恶...
2024-09-25 12:35:56新娘遭婚闹被绑电线杆上当事人道歉
2024-09-26 三只羊“原切牛肉卷”实为调制肉

三只羊公司直播带货问题调查结果公布在直播带货的世界里，合肥三只羊网络科技有限公司近日算是站在了风口浪尖，被合肥市联合调查组盯上了。9月26日，调查组公布了对这家公司的调查结果。先让咱们说说那些让人眼花...
2024-09-26 22:28:42三只羊“原切牛肉卷”实为调制肉
2024-09-24 分析师：高通收购英特尔并不合理

【太平洋科技快讯】近日，有关高通可能收购英特尔的消息在业界引起了广泛关注。然而，据权威研究机构TECHnalysisResearch的创始人鲍勃·奥唐内尔分析，尽管两家公司在业务领域存在互补优势，但...
2024-09-24 19:19:52分析师：高通收购英特尔并不合理
2024-09-25 是否会改变涉核试验立场？克宫回应

据俄新社、塔斯社等俄媒24日报道，俄罗斯总统新闻秘书、克里姆林宫发言人佩斯科夫主持记者会，对乌军使用远程武器打击俄境内目标可能会造成的后果等问题作出回应。佩斯科夫资料图图源：俄新社俄新社报道说，当...
2024-09-25 16:46:32是否会改变涉核试验立场？克宫回应
2024-09-22 谢娜给陈乔恩66666.66红包

9月22日，陈乔恩与艾伦在定情地举办婚礼。好友谢娜发文称，“乔恩，永远快乐幸福，Alan一定要永远永远宠爱乔恩哦。”对此，陈乔恩转发称，“爱你我的辣，知道你努力想办法要来，但红包来了，我也是很开心啊哈...
2024-09-22 18:24:49谢娜给陈乔恩66666.66红包