公众号文章

GPT-5.5 Instant 网页版实测五场景，它不是更聪明了，是变低调了

五个真实场景测了一遍 GPT-5.5 Instant 网页版：逻辑推理、中文写作、办公整理、多模态生成、抗幻觉。它没有变聪明，它变低调了。

2026-05-11约 6 分钟

OpenAI 又发模型了，这次叫 GPT-5.5 Instant。官方说幻觉减少 52%，事实错误少 37%，回答字数砍掉 30%。每次发布都会把数字做得很好看，我们拿五个真实场景测一遍网页版的 GPT 5.5，不跑分，只看疗效！

开始前，必须说清楚，同一个模型，在 ChatGPT 网页版里、在 Codex 里、通过 API 接进别的系统里，表现是完全不一样的。今天所有测试在网页版完成，和大多数人的实际用法一致，网页版，也更能体验它后台模型的真正实力。五个场景：逻辑推理、中文表达、办公整理、多模态生成、深度阅读和抗幻觉。

逻辑怎么样

第一关是一道多维约束逻辑题，字数不多，但约束条件互相嵌套，很多模型在这类题上容易顾头不顾尾，最后一本正经地给出一份错误答案，还特别自信。

[截图]

答案是正确的，推导过程也经得起看。它没有直接开始排班，先做了一轮全局核算，把总班次和每人需要上够的次数算清楚，再往里填。跨周的问题、连上天数上限、情侣休息日同步，这些条件都在它的推理链条里，没有漏掉。整个方法是先建全局、再局部填充，不是走一步算一步。这道题没翻车，而且过程交代得很清楚。

中文表达

第二关测中文写作，题目是模仿鲁迅风格，写一篇关于当代年轻人不想上班的短文。

[截图]

这类题最容易装。满篇堆横竖、看客、麻木，看着很鲁迅，读起来尬得要命。因为那只是贴了几个标签，根本没有读懂鲁迅的语气从哪里来。好的结果应该是把打工人的处境装进冷幽默里，让人读完先想笑一下，回头又觉得有点讽刺。

结果不错。破题好，两棵枣树出现在第二句，立刻引入工资和花呗，在孤独的语感里把读者带进当下的语境，没有硬套。辨识度也有，"像旧时代药铺里的陈皮，论克发放"，这种短句配毒舌比喻是对的方向。矛盾感也不错：嘴上躺平，夜里还在刷招聘软件，仿佛一个落水的人，一面骂河水脏，一面又拼命划水。可以挑的刺也有。架构上大模型的套路没有消失，"有个朋友"、"凌晨两点改 PPT"，你在多少篇文章里见过这种场景？信息量也稍微多了，老一辈、资本家、加班、外卖，塞得太满，为了切题而切题，留白少了一截，气度差一口气。横竖是机器算计出来的苦楚，总归太喧闹了些，大抵 GPT 是不懂什么叫无言的罢？

办公能力

第三关是办公场景，我给了它两张信息密度很高的产品图，要求提取核心参数、做对比表格、生成 Excel 文件，再给购买建议。

[截图]

它做了一件有点意思的事：先去网上搜了一下。网页端不是单纯在"看图回答"，它会调工具，给自己找外部参照。这个动作在这一关是加分项——图里没写的信息，搜索能补上。Excel 搞了三个标签页，产品对比参数清晰，行列没有乱。购买建议的逻辑也有说法：久坐办公先看腰颈支撑，不只是坐上去软不软；两款产品定位差异看得准，连两款适合什么人群都判断到位了。还贴心提醒每小时起来动两分钟。图片读取、参数提取、综合分析三件事同时做，整体达到了"够用"的标准，可以当第一轮筛选的参考。

多模态

第四关是多模态生成，我给了它一张手绘的奶茶店网页草图，让它识别布局和文字标注，写出 HTML 和 CSS，要能在浏览器里直接看。这种需求在真实工作里很常见：客户随手画两笔，说"差不多就这个意思"，你得把它变成一个可以交付的东西。

[截图]

代码几乎是敲下回车立刻往外出，不到二十秒。打开浏览器，整体布局和草图对上了，导航栏、首页大图、商品卡、版权区全部正确。图里的价格数字、营业时间、地标也准确提取。没有信息的地方，脑补了一些产品名和 slogan，填充得合理。功能上做了响应式，手机上也能自适应。审美方向对，暖色调、大圆角、弥散阴影，鼠标划过还有微交互，整体有了呼吸感。这不是"写了代码"那么简单，已经到了可以打开给人看的程度。想做自己的小站，现在几乎没有门槛了。

幻觉怎么了

最后一关是深度阅读和抗幻觉测试，我给了它两份看起来都很正式的产品资料，里面有多处关键参数互相矛盾，专门埋的坑，看它能不能主动发现。

[截图]

它又去搜了。第三关搜是加分；这次搜，反而可能让它绕开了原始材料里最关键的问题。行业分析能力是很强的，一眼看出海报在避重就轻，核心性能参数模糊，售后完全没提，分析逻辑拿去当B站数码区 UP 主绰绰有余，AI 味也比较弱。但两份资料里那些互相矛盾的地方，它完全没有发现。屏幕分辨率不一样、重量不一样、电池容量不一样、接口数量不一样，全都没有被发现。我追问了一句，它才意识到问题，提出了三个可能：工程机、宣传混用、参数美化。追问之后的推理是对的，但需要追问才能触发这步。这一轮是偏科的表现：行业分析很强，主动交叉对比的习惯不够。它先找外部信息，而不是先把手里的材料读扎实。

五关测完，算不上什么惊艳的大升级。很多变化是细节层面的：少了一些多余的解释，任务速度快了，表演欲降了，幻觉感明显减少。但我觉得它真正变的地方，不在"更聪明"三个字，而在默认体验变了。以前很多模型像一个很努力的实习生，什么都接，但你总得盯着它，它会多解释，会套话，会把不确定的东西讲得特别确定。 GPT-5.5 开始更像一个被调教过的工作台。这个调教，是它的系统提示词，是各种约束与边界，也就是最近大热的概念 Harness。说白了，就是产品给模型套上的一整套工作方式约束。什么时候该简单回答，什么时候该深度分析，什么时候该调用搜索、文件、代码这些工具，这甚至比模型本身更重要。第三关调工具是加分，第五关调工具反而忽略了原始材料。同样的动作，因为调度时机不对，效果就完全不同。Harness 决定的，不比模型权重决定的少。如果你平时拿 ChatGPT 干活，写东西、看资料、拆产品图、搭网页，它现在基本具备"帮上忙"的能力了。人为检查还得做，只是检查的压力小了一些。对生产力工具来说，这一点已经够重要了。你平时怎么用 ChatGPT？评论区聊聊吧。

公众号尾图