开云 GPT-5.5实测：更灵巧，也更爱“说谎”

202604-27

开云 GPT-5.5实测：更灵巧，也更爱“说谎”

发布日期：2026-04-27 05:29 点击次数：68

体育投注

开云 GPT-5.5实测：更灵巧，也更爱“说谎”

文 | AIX 财经（AIXcaijing）作家 | 王璐，裁剪 | 魏佳

4 月 23 日，OpenAI 发布新一代旗舰模子 GPT-5.5，并在其官网写说念，是其迄今为止最智能、最直不雅易用的模子，亦然在测度机上完成职责的新方式的下一步。

这一发布赶快激励行业照看，不仅因为它堪称在智能体任务上竣事突破，更因其在多项基准测试中展现出的"统治力"。证据第三方评测机构 Artificial Analysis 公布的空洞智能指数榜单，OpenAI 凭借 GPT-5.5 系列在前六名中独占四席，该机构以为，" GPT-5.5 让 OpenAI 重回 AI 限度的第一位，突破了与 Anthropic 和谷歌的三方平局。"

但与高性能一同被曝光的，还有高幻觉率。在 Artificial Analysis 的特有基准测试 AA-Omniscience 中，GPT-5.5 的幻觉率高达 86%，远高于 Claude Opus 4.7 的 36%。

这意味着，当这个当今"最灵巧"的 AI 大脑面临不信托或未知的问题时，选拔"坦言不知"的概率极低，反而更倾向于"自信地凭空"一个谜底。而这种高幻觉率一朝放在需要高可靠性的职责场景中，很可能导致分析偏差、决策诞妄致使财务亏本。

最强的 AI 亦然最危境的"说谎者"？面临高幻觉率，GPT-5.5 究竟能否在内容欺诈中可靠地完成复杂的常识任务？为了回应这些裂缝问题，我们对 GPT-5.5 进行了实测，从处理家庭账本到编写及时对战游戏，测试其支吾长高下文、复杂逻辑的常识职责与编程实战才气。

这次测试不仅关乎一个模子的性能，更关乎 AI 期间投入深水区后，我们如安在拥抱其强盛才气的同期，支吾其潜在风险。

01. 常识才气：它真的像职场东说念主一样会干活

证据官方发布的基准测试扫尾，GPT-5.5 在险些统统中枢方针上都超越了前代 GPT-5.4，在常识职责限度阐扬尤为杰出。

在一项隐秘 44 个处事的 GDPval 测试中，GPT-5.5 获得了 84.9% 的得分，不仅越过了 83.0% 的确切职场东说念主员水平，也高于 Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。该测试模拟了金融分析师、阛阓司理、软件工程师等多种白领处事的平素职责，条目模子完成信息整合、分析推理、决策建议与陈说生成等空洞性任务。

此外，GPT-5.5 在其他多个实用场景的测试中也阐扬可以。在模拟复杂客服对话的测试中，无需罕见指点就能达到 98.0% 的准确率；在让 AI 像真东说念主一样操作电脑完成任务的测试中，得分 78.7%；在需要勾通图像、翰墨领略并调用用具治理问题的测试中，辞别拿到 83.2% 和 75.3% 的分数。这些收获证实，GPT-5.5 正在逐步买通"看、说、作念"等一系列才气。

OpenAI 还用里面的内容案例阐述了它的分娩力价值。其财务团队用它审核了 24771 份 K-1 税表、整个 71637 页文献，并称这套进程比上一年提前了两周完成。这证实 GPT-5.5 是能够平直融入职责进程、切实提高成果的分娩力用具。

这些才气在确切活命顶用起来奈何样？我们想象了一个靠近家庭的测试来考据。

我们给 GPT-5.5 多条形状凌乱的单月开支数据，让其饰演家庭数据分析师，完成整理数据、测度总支拨、分析各支付方式占比、分类统计开销等任务，并最毕生成一份给家东说念主看的建议陈说。

这个测试场景想象妥当然简便，却很能看出 AI 是否真的"好用"。因为家庭记账是好多东说念主的平素，但纪录时常是顺手写、形状乱，"前俯后合"的记账数据条目 AI 不成只会处理整皆的表格，还得能"看懂"手写式的纪录、领略每笔钱是什么兴味，并把相似样貌归到一齐。

而算总账、分析钱花在哪儿、给出检朴建议，其实对应着一套竣工的念念考过程，GPT-5.5 需要先把信息理澄莹，再从里面看外出说念、建议可行的意见，最终让它"写陈说"，则是条目它会用东说念主能听懂、能秉承的方式来申诉职责。

测试扫尾高慢，它准确磨灭了"外卖 - 午餐"和"外卖 - 晚餐"，而且主动指示"支付宝自动扣"应融整个入"支付宝"统计，展现出了领略芜乱账目和用户确切意图的才气。

GPT-5.5 自主梳理表格并给出分析

在分析中，它通过测度占比，指出"网购"（衣物、竹素）类目支拨较高，且多为非急需品，因此建议为这类消费缔造预算，米兰体育官方网站 - MILAN给出的建议具体可行。临了生成的陈说也充满情面味，那句"稍许管住网购的小冲动，我们家的开支就能更收缩一些"，合适"给家东说念主看"的调换条目，口吻亲切，建议接地气。

这个简便的测试，格外于在活命场景中还原了上述 GDPval 测试所历练的中枢才气，当今的扫尾也证实它的专科才气能用到内容活命中。

02. 编程才气：从低级到复杂，它没添乱

除了在平素常识任务中阐扬可靠，在编程这类对精确性条目更高的"硬功夫"上，GPT-5.5 同样展现了可以的越过。

在一项锻练"智能体"的基准测试（Terminal-Bench 2.0）中，它拿到了 82.7% 的高分。这个测试模拟了在大叫行里施行一连串复杂操作，就像让 AI 我方完成一个多设施的运维任务。它的收获不仅比自家上一代（GPT-5.4 的 75.1%）高，也显著越过了竞争敌手 Claude Opus 4.7（69.4%）。这证实它在需要记着设施、我方调试、坚合手完成永劫候任务时，阐扬更好。

其次，在处理超长内容方面也有越过。在一项针对 50 万到 100 万字符超长文本的检索测试中，它的得分达到 74.0%，是上一代（36.6%）的两倍还多。这意味着让它分析一册厚书、浏览远大的代码仓库时，它更贬抑易"看漏"或"记混"，找信息更准、念念路也更连贯。

而且多项测试扫尾高慢，在施行雷同的编程任务时，GPT-5.5 奢侈的 token 数目显赫少于 GPT-5.4。就连代码裁剪器 Cursor 的蚁集创举东说念主 Michael Truell 也评价说，它比上一代更灵巧、更有韧性，调用用具更可靠，面临复杂弥远任务时能坚合手更久。

简便来说，在编程这类复杂操作场景下，上述数据证实，GPT-5.5 不仅更强，而且更稳、更省资源，开云妥当处理那些设施多、耗时长的内容开荒任务。

为了考据它确切的编程才气，我们用一个具体的开荒任务进行了测试，从零开动构建并逐步升级一款连连看游戏，并硬性措施其必须使用给到的 12 种不同的 emoji 色彩。

起原，我们让 GPT-5.5 生成一个竣工可运行的连连看游戏。

这需要它领略开荒者的翰墨需求、想象界面、治理游戏情景，并自主竣事中枢的旅途搜索算法。扫尾它在几分钟之内便顺利完成了。

GPT-5.5 生成的连连看小游戏

接着，我们提高难度，条目它在游戏中加入一个"重绘"说念具。

这个说念具的功能是：玩家使用时，能奢侈"连击"能量，把棋盘上与临了一次破除雷同类型的图标全部速即刷新一次。

要竣事这少许，GPT-5.5 必须作念两件事，一是修改游戏背后的数据功令来补助这个新功能；二是确保刷新后的棋盘布局仍然是"有解"的，不会让玩家卡关。最终，GPT-5.5 告捷写好了这部分代码。

之后，我们不绝让其为游戏加入竣工的用户系统，包括登录、积分纪录和名次榜展示。

这一步主要锻练的是，GPT-5.5 能否将新功能平滑地接入现存框架，同期保合手游戏原有的中枢玩法和逻辑不被龙套。

它再一次顺利完成了任务，况兼在代码迭代过程中阐扬得格外克制，莫得进行过度重构，也莫得引入毋庸要的变化。

GPT-5.5 施行对游戏细节的变嫌指示

临了，我们将难度推至更高阶的及时对战模式，让两名玩家能在不同浏览器中及时竞争破除。

这其中触及棋盘情景同步、操作冲突裁决和网罗蔓延处理等一系列典型的多东说念主在线繁难。面临这么一个集成度高、及时性强的复杂挑战，GPT-5.5 一经作念到了准确请托。

这个神圣到繁的测试标明，GPT-5.5 在确切编程任务中，既能处理复杂逻辑与架构想象，也能精确反应开荒者需求，且不破坏重构或引入其他代码，致使当我们条目回退到上一版块时，它也能踏实规复到之前的情景。

03. 高幻觉率：能用，但不敢放胆

尽管在实测中阐扬惊艳，但勾通公开数据来看，GPT-5.5 一经莫得越过阛阓太大预期，而且存在不可无情的风险。

来看一组对比数据。

在 Artificial Analysis 的特有基准测试 AA-Omniscience 中，GPT-5.5 的幻觉率高达 86%，而 Claude Opus 4.7 仅为 36%。这意味着在该测试所设定的、特意探伤模子常识范畴的场景下，当 GPT-5.5 面临不信托的谜底时，其"坦言不知"的概率远低于敌手，更倾向于生成一个可能舛误的回应。

需要防备的是，这 86% 并不料味着模子在大多量平素问答中都会产生幻觉，而是其在触及常识盲区时的特定手脚倾向。一位从业者解释，这可能是因为 GPT-5.5 的事实常识隐秘面更强，但不信托性也更过甚进，关于不信托的问题会猜谜底。但在将其用于需要高可靠性的任务时，这一方针仍需引起高度警惕。

当 GPT-5.5 被部署到"自主职责"场景中时，这种高幻觉倾向可能会激励风险。

比如在数据分析与陈说生成任务中，它可能自信地援用不存在的数据、编造统计趋势，或基于舛误事实建议决策建议，导致用户作念出偏离内容的买卖判断。而在编程与调试枢纽，它提供的代码有盘算也许看起来合理，却可能无法运行，致使讳饰安全轻视，大幅加多后期排查与开荒的本钱。

而且，这类幻觉往往以高度自信、逻辑自洽的样貌呈现。关于缺少干系专科配景的用户而言，这种"信托性"输出极具骗取性，需要提高警惕。

除了期间层面的隐忧，OpenAI 这次的买卖战术也显败露明确的意图：先用生态锁定用户，再用加价收割阛阓。

一方面，GPT-5.5 首发时并未同步洞开 API，仅限自家 ChatGPT 和 Codex 使用，初步将用户锁定在其欺诈生态内。另一方面，GPT-5.5 的订价比较上一代有了显著高潮。证据官方公布的数据，GPT-5.5 每处理 100 万 tokens，输入收费 5 好意思元，输出收费 30 好意思元。而上一代的 GPT-5.4，输入和输出价钱辞别为 2.5 好意思元和 15 好意思元，这意味着新一代的价钱平直翻了一倍。

要是与刻下的主要竞争敌手对比，Anthropic 最强的模子 Opus 4.7 订价为每百万 tokens 输入 5 好意思元、输出 25 好意思元。可以看出，GPT-5.5 在输入价钱上与敌手合手平，但在输出价钱上则高出 20%。

尽管 OpenAI 解释称，token 使用成果的提高可对冲价钱高潮，使用户内容本钱无显著加多，但具体性价比仍需业界进一步考据。

关于这一模子，资深 Agent 从业者赵江杰评价说念，这次 GPT-5.5 的发布并未变成断档率先，不如对社区热传的" Spud "模子预期的大幅提高盼望那么大，但在 agentic 和 coding 才气上仍然不绝保合手头部顶尖位置，agentic 才气提高的同期也在鼓励基模厂商提高模子迭代成果，OpenAI 的下一代突破模子（GPT-6）很可能也在路上了。

总之开云，对无为用户而言，GPT-5.5 梗概值得尝鲜，但不应视其为全都可靠的用具，对企业用户来说，在将其接入中枢职责流前，则必须把稳，一朝出现那 86% 的"自信舛误"，该由谁来兜底？

开云·体育中国官方网站

上一篇：开云 DeepSeek告别“孤胆勇士”期间
下一篇：没有了

开云 GPT-5.5实测：更灵巧，也更爱“说谎”

热点资讯

推荐资讯