开云 GPT-5.5实测:更灵巧,也更爱“说谎”
发布日期:2026-04-27 05:29 点击次数:68
文 | AIX 财经(AIXcaijing)作家 | 王璐,裁剪 | 魏佳
4 月 23 日,OpenAI 发布新一代旗舰模子 GPT-5.5,并在其官网写说念,是其迄今为止最智能、最直不雅易用的模子,亦然在测度机上完成职责的新方式的下一步。
这一发布赶快激励行业照看,不仅因为它堪称在智能体任务上竣事突破,更因其在多项基准测试中展现出的"统治力"。证据第三方评测机构 Artificial Analysis 公布的空洞智能指数榜单,OpenAI 凭借 GPT-5.5 系列在前六名中独占四席,该机构以为," GPT-5.5 让 OpenAI 重回 AI 限度的第一位,突破了与 Anthropic 和谷歌的三方平局。"
但与高性能一同被曝光的,还有高幻觉率。在 Artificial Analysis 的特有基准测试 AA-Omniscience 中,GPT-5.5 的幻觉率高达 86%,远高于 Claude Opus 4.7 的 36%。
这意味着,当这个当今"最灵巧"的 AI 大脑面临不信托或未知的问题时,选拔"坦言不知"的概率极低,反而更倾向于"自信地凭空"一个谜底。而这种高幻觉率一朝放在需要高可靠性的职责场景中,很可能导致分析偏差、决策诞妄致使财务亏本。
最强的 AI 亦然最危境的"说谎者"?面临高幻觉率,GPT-5.5 究竟能否在内容欺诈中可靠地完成复杂的常识任务?为了回应这些裂缝问题,我们对 GPT-5.5 进行了实测,从处理家庭账本到编写及时对战游戏,测试其支吾长高下文、复杂逻辑的常识职责与编程实战才气。
这次测试不仅关乎一个模子的性能,更关乎 AI 期间投入深水区后,我们如安在拥抱其强盛才气的同期,支吾其潜在风险。
01. 常识才气:它真的像职场东说念主一样会干活
证据官方发布的基准测试扫尾,GPT-5.5 在险些统统中枢方针上都超越了前代 GPT-5.4,在常识职责限度阐扬尤为杰出。
在一项隐秘 44 个处事的 GDPval 测试中,GPT-5.5 获得了 84.9% 的得分,不仅越过了 83.0% 的确切职场东说念主员水平,也高于 Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。该测试模拟了金融分析师、阛阓司理、软件工程师等多种白领处事的平素职责,条目模子完成信息整合、分析推理、决策建议与陈说生成等空洞性任务。
此外,GPT-5.5 在其他多个实用场景的测试中也阐扬可以。在模拟复杂客服对话的测试中,无需罕见指点就能达到 98.0% 的准确率;在让 AI 像真东说念主一样操作电脑完成任务的测试中,得分 78.7%;在需要勾通图像、翰墨领略并调用用具治理问题的测试中,辞别拿到 83.2% 和 75.3% 的分数。这些收获证实,GPT-5.5 正在逐步买通"看、说、作念"等一系列才气。
OpenAI 还用里面的内容案例阐述了它的分娩力价值。其财务团队用它审核了 24771 份 K-1 税表、整个 71637 页文献,并称这套进程比上一年提前了两周完成。这证实 GPT-5.5 是能够平直融入职责进程、切实提高成果的分娩力用具。
这些才气在确切活命顶用起来奈何样?我们想象了一个靠近家庭的测试来考据。
我们给 GPT-5.5 多条形状凌乱的单月开支数据,让其饰演家庭数据分析师,完成整理数据、测度总支拨、分析各支付方式占比、分类统计开销等任务,并最毕生成一份给家东说念主看的建议陈说。
这个测试场景想象妥当然简便,却很能看出 AI 是否真的"好用"。因为家庭记账是好多东说念主的平素,但纪录时常是顺手写、形状乱,"前俯后合"的记账数据条目 AI 不成只会处理整皆的表格,还得能"看懂"手写式的纪录、领略每笔钱是什么兴味,并把相似样貌归到一齐。
而算总账、分析钱花在哪儿、给出检朴建议,其实对应着一套竣工的念念考过程,GPT-5.5 需要先把信息理澄莹,再从里面看外出说念、建议可行的意见,最终让它"写陈说",则是条目它会用东说念主能听懂、能秉承的方式来申诉职责。
测试扫尾高慢,它准确磨灭了"外卖 - 午餐"和"外卖 - 晚餐",而且主动指示"支付宝自动扣"应融整个入"支付宝"统计,展现出了领略芜乱账目和用户确切意图的才气。


GPT-5.5 自主梳理表格并给出分析
在分析中,它通过测度占比,指出"网购"(衣物、竹素)类目支拨较高,且多为非急需品,因此建议为这类消费缔造预算,米兰体育官方网站 - MILAN给出的建议具体可行。临了生成的陈说也充满情面味,那句"稍许管住网购的小冲动,我们家的开支就能更收缩一些",合适"给家东说念主看"的调换条目,口吻亲切,建议接地气。
这个简便的测试,格外于在活命场景中还原了上述 GDPval 测试所历练的中枢才气,当今的扫尾也证实它的专科才气能用到内容活命中。
02. 编程才气:从低级到复杂,它没添乱
除了在平素常识任务中阐扬可靠,在编程这类对精确性条目更高的"硬功夫"上,GPT-5.5 同样展现了可以的越过。
在一项锻练"智能体"的基准测试(Terminal-Bench 2.0)中,它拿到了 82.7% 的高分。这个测试模拟了在大叫行里施行一连串复杂操作,就像让 AI 我方完成一个多设施的运维任务。它的收获不仅比自家上一代(GPT-5.4 的 75.1%)高,也显著越过了竞争敌手 Claude Opus 4.7(69.4%)。这证实它在需要记着设施、我方调试、坚合手完成永劫候任务时,阐扬更好。
其次,在处理超长内容方面也有越过。在一项针对 50 万到 100 万字符超长文本的检索测试中,它的得分达到 74.0%,是上一代(36.6%)的两倍还多。这意味着让它分析一册厚书、浏览远大的代码仓库时,它更贬抑易"看漏"或"记混",找信息更准、念念路也更连贯。
而且多项测试扫尾高慢,在施行雷同的编程任务时,GPT-5.5 奢侈的 token 数目显赫少于 GPT-5.4。就连代码裁剪器 Cursor 的蚁集创举东说念主 Michael Truell 也评价说,它比上一代更灵巧、更有韧性,调用用具更可靠,面临复杂弥远任务时能坚合手更久。
简便来说,在编程这类复杂操作场景下,上述数据证实,GPT-5.5 不仅更强,而且更稳、更省资源,开云妥当处理那些设施多、耗时长的内容开荒任务。
为了考据它确切的编程才气,我们用一个具体的开荒任务进行了测试,从零开动构建并逐步升级一款连连看游戏,并硬性措施其必须使用给到的 12 种不同的 emoji 色彩。
起原,我们让 GPT-5.5 生成一个竣工可运行的连连看游戏。
这需要它领略开荒者的翰墨需求、想象界面、治理游戏情景,并自主竣事中枢的旅途搜索算法。扫尾它在几分钟之内便顺利完成了。

GPT-5.5 生成的连连看小游戏
接着,我们提高难度,条目它在游戏中加入一个"重绘"说念具。
这个说念具的功能是:玩家使用时,能奢侈"连击"能量,把棋盘上与临了一次破除雷同类型的图标全部速即刷新一次。
要竣事这少许,GPT-5.5 必须作念两件事,一是修改游戏背后的数据功令来补助这个新功能;二是确保刷新后的棋盘布局仍然是"有解"的,不会让玩家卡关。最终,GPT-5.5 告捷写好了这部分代码。
之后,我们不绝让其为游戏加入竣工的用户系统,包括登录、积分纪录和名次榜展示。
这一步主要锻练的是,GPT-5.5 能否将新功能平滑地接入现存框架,同期保合手游戏原有的中枢玩法和逻辑不被龙套。
它再一次顺利完成了任务,况兼在代码迭代过程中阐扬得格外克制,莫得进行过度重构,也莫得引入毋庸要的变化。

GPT-5.5 施行对游戏细节的变嫌指示
临了,我们将难度推至更高阶的及时对战模式,让两名玩家能在不同浏览器中及时竞争破除。
这其中触及棋盘情景同步、操作冲突裁决和网罗蔓延处理等一系列典型的多东说念主在线繁难。面临这么一个集成度高、及时性强的复杂挑战,GPT-5.5 一经作念到了准确请托。
这个神圣到繁的测试标明,GPT-5.5 在确切编程任务中,既能处理复杂逻辑与架构想象,也能精确反应开荒者需求,且不破坏重构或引入其他代码,致使当我们条目回退到上一版块时,它也能踏实规复到之前的情景。
03. 高幻觉率:能用,但不敢放胆
尽管在实测中阐扬惊艳,但勾通公开数据来看,GPT-5.5 一经莫得越过阛阓太大预期,而且存在不可无情的风险。
来看一组对比数据。
在 Artificial Analysis 的特有基准测试 AA-Omniscience 中,GPT-5.5 的幻觉率高达 86%,而 Claude Opus 4.7 仅为 36%。这意味着在该测试所设定的、特意探伤模子常识范畴的场景下,当 GPT-5.5 面临不信托的谜底时,其"坦言不知"的概率远低于敌手,更倾向于生成一个可能舛误的回应。
需要防备的是,这 86% 并不料味着模子在大多量平素问答中都会产生幻觉,而是其在触及常识盲区时的特定手脚倾向。一位从业者解释,这可能是因为 GPT-5.5 的事实常识隐秘面更强,但不信托性也更过甚进,关于不信托的问题会猜谜底。但在将其用于需要高可靠性的任务时,这一方针仍需引起高度警惕。
当 GPT-5.5 被部署到"自主职责"场景中时,这种高幻觉倾向可能会激励风险。
比如在数据分析与陈说生成任务中,它可能自信地援用不存在的数据、编造统计趋势,或基于舛误事实建议决策建议,导致用户作念出偏离内容的买卖判断。而在编程与调试枢纽,它提供的代码有盘算也许看起来合理,却可能无法运行,致使讳饰安全轻视,大幅加多后期排查与开荒的本钱。
而且,这类幻觉往往以高度自信、逻辑自洽的样貌呈现。关于缺少干系专科配景的用户而言,这种"信托性"输出极具骗取性,需要提高警惕。
除了期间层面的隐忧,OpenAI 这次的买卖战术也显败露明确的意图:先用生态锁定用户,再用加价收割阛阓。
一方面,GPT-5.5 首发时并未同步洞开 API,仅限自家 ChatGPT 和 Codex 使用,初步将用户锁定在其欺诈生态内。另一方面,GPT-5.5 的订价比较上一代有了显著高潮。证据官方公布的数据,GPT-5.5 每处理 100 万 tokens,输入收费 5 好意思元,输出收费 30 好意思元。而上一代的 GPT-5.4,输入和输出价钱辞别为 2.5 好意思元和 15 好意思元,这意味着新一代的价钱平直翻了一倍。
要是与刻下的主要竞争敌手对比,Anthropic 最强的模子 Opus 4.7 订价为每百万 tokens 输入 5 好意思元、输出 25 好意思元。可以看出,GPT-5.5 在输入价钱上与敌手合手平,但在输出价钱上则高出 20%。
尽管 OpenAI 解释称,token 使用成果的提高可对冲价钱高潮,使用户内容本钱无显著加多,但具体性价比仍需业界进一步考据。
关于这一模子,资深 Agent 从业者赵江杰评价说念,这次 GPT-5.5 的发布并未变成断档率先,不如对社区热传的" Spud "模子预期的大幅提高盼望那么大,但在 agentic 和 coding 才气上仍然不绝保合手头部顶尖位置,agentic 才气提高的同期也在鼓励基模厂商提高模子迭代成果,OpenAI 的下一代突破模子(GPT-6)很可能也在路上了。
总之开云,对无为用户而言,GPT-5.5 梗概值得尝鲜,但不应视其为全都可靠的用具,对企业用户来说,在将其接入中枢职责流前,则必须把稳,一朝出现那 86% 的"自信舛误",该由谁来兜底?
开云·体育中国官方网站- 上一篇:开云 DeepSeek告别“孤胆勇士”期间
- 下一篇:没有了

备案号: