
手捧 GPT-5.4 的奥特曼。图片由 AI 生成
文|晓静
剪辑|徐青阳
文安县建仓机械厂北京时辰 3 月 6 日凌晨,OpenAI 隆重发布新代旗舰模子 GPT-5.4,官定位为 " 为业职责而设想的强且的前沿模子 "。
比起"强快"的成例叙事,此次发布真刚巧得良善的是模子角的转换:GPT-5.4 是个为 Agent 而生的模子。它次将原生谋划机操控才调融入通用模子,并同期整了 GPT-5.3-Codex 别的编程才调、百万 Token 荆棘文窗口和器具搜索机制——据官先容,莫得为整而猖狂任何单项才调。昔日让 AI 操作电脑需要依赖用的 Computer Use Agent,当今编程、操控电脑、调用器具由同个模子并完成。
跑分印证了这点:GDPval 基准测试中,GPT-5.4 在 83 的任务上达到或过行业业东谈主士水平;OSWorld 桌面操控测试得手率 75,次过东谈主类基线(72.4);编程才调与 GPT-5.3-Codex 握平,天下常识比 GPT-5.2 强。
价钱面,GPT-5.4 的 API 订价为输入 $2.50/ 百万 Token、输出 $15,约为 Claude Opus 4.6($5/$25)的半,且支握订阅额度调用。不外 Pro 版已经很贵——有网友仅发了句 "Hi",GPT-5.4 Pro 就说明谛了番,径直掉 80 好意思元。平淡轻量任务,法式版可能是贤慧的遴荐。
在 ChatGPT 中,GPT-5.4 以" GPT-5.4 Thinking "形态上线,缓缓取代 GPT-5.2 Thinking(后者将保留 3 个月,于 2026 年 6 月 5 日隆重退役)。新增的前置想路概述让用户不错在模子实施过程中随时介入调度向,网页版和 Android 已上线,iOS 行将跟进。
如若用句话概述 GPT-5.4 的道理,昔日几年大模子的进化逻辑是 " 哪块短板补哪块 ",GPT-5.4 不再单点拔,而是把总共才调度进同个模子作念系统化。个能写代码的模子是器具,个能写代码、开浏览器查文档、调用 API 考证扫尾、再把输出整理成论说的模子,是职责系统。GPT-5.4 接近后者。
01 在 83 的任务中达到或过行业业东谈主士水平
GPT ‑ 5.4 与前代模子在多项业才调基准测试中的说明对比怀化隔热条设备厂家
为了评估模子在着实职责环境中的说明,OpenAI 使用 GDPval 基准测试,这项测试条目模子完成完好职业任务,而不单是是问答。GDPval 粉饰好意思国 GDP 孝顺大的九个行业和四十四种职业场景,包括制作销售演示文稿、成就管帐电子表格、安排病院急诊排班、绘图制造经过图或生成短实质。
GPT ‑ 5.4 与前代模子在 GDPval 基准测试中的对比
在测试中,GPT ‑ 5.4 在 83 的任务中达到或过行业业东谈主士水平,而 GPT ‑ 5.2 仅为 70.9。模拟初投行分析师的电子表格建模测试中,GPT ‑ 5.4 平均得分 87.3,GPT ‑ 5.2 为 68.4。演示文稿生成任务中,东谈主类评测者 68 情况下偏好 GPT ‑ 5.4 的输出,根由是视觉设想熟识、结构明晰、图像使用理。
招聘平台 Mercor 在面向业做事职责的 APEX-Agents 评测中也得出近似论断。CEO 布伦丹 · 富迪(Brendan Foody)默示,GPT ‑ 5.4 在生成财务模子、法律分析和完好幻灯片等长期委用后果面说明凸起,同期运行速率快,资本低于同前沿模子。
OpenAI 还出了 ChatGPT Excel 插件,使企业用户能够在 Excel 中径直调用模子,完好意思 AI 与传统办公软件的缝合作。
GPT ‑ 5.4 电子表格、演示文稿和文档创建及剪辑才调的晋升
OpenAI 至极良善 GPT ‑ 5.4 在电子表格、演示文稿和文档创建及剪辑才调上的晋升。在项里面电子表格建模测试中,GPT ‑ 5.4 的平均得分达到 87.3,权贵于 GPT ‑ 5.2 的 68.4。在演示文稿评估中,东谈主类评测者在 68 的情况下偏好 GPT ‑ 5.4 生成的实质,觉得其视觉设想熟识、结构明晰、视觉变化丰富,同期图像生成的应用也为有。
02 原生"操作"电脑
GPT ‑ 5.4 的大亮点大概并非编程,而是谋划机操控才调的原生整。昔日,模子要操作电脑时常需要用的 Computer Use Agent,而 GPT ‑ 5.4 次将这才调径直融入通用模子。它不仅不错编写限度谋划机的软件剧本,还能左证屏幕截图径直发出鼠标和键盘输入指示,从而完成跨应用法式的复杂操作。
GPT ‑ 5.4 与 GPT ‑ 5.2 在 OSWorld-Verified 测试中的说明
在 OSWorld-Verified 测试中,GPT ‑ 5.4 通过截图识别桌面界面并实施键鼠操作的得手率达到 75,彰着于 GPT ‑ 5.2 的 47.3,以至略于东谈主类平均水平 72.4。在 WebArena-Verified 浏览器操控测试中,得手率为 67.3,于 GPT ‑ 5.2 的 65.4。仅通过截图调理网页结构的 Online-Mind2Web 测试中,得手率达到 92.8,远于 ChatGPT Atlas 智能体模式的约 70。
房地产数据公司 Mainstay 对这才调进行了大限度实测。粉饰约三万个 HOA 和房产税流派网站的测试中,GPT ‑ 5.4 次尝试得手率 95,三次以内得手率 ,任务完成速率晋升约三倍,Token 枉然减少约 70。这意味着基于 GPT ‑ 5.4 的自动化系统(如 RPA)在可靠和资本上可能发生根柢变化。
03 视觉调理与文档贯通才调权贵晋升
GPT ‑ 5.4 与 GPT ‑ 5.2 在 MMMU-Pro 和 OmniDocBench 测试中的说明
除了谋划机操控才调,GPT ‑ 5.4 在视觉调理和文档贯通面也有高出。在里面 MMMU-Pro 测试中(需外部器具辅助),GPT ‑ 5.4 的视觉调理准确率达到 81.2,于 GPT ‑ 5.2 的 79.5;在含器具辅助的测试中,GPT ‑ 5.4 高出晋升至 82.1,塑料管材生产线相同于前代模子。
这标明模子不仅能操作电脑,还能准确地识别屏幕信息妥协析文档实质,为长周期、多才略的办公任务提供支握。
在 OmniDocBench 文档贯通测试中,GPT ‑ 5.4 的平均归化剪辑距离为 0.11,低于 GPT ‑ 5.2 的 0.14,走漏出的贯通精度和生成文档的准确。
这意味着 GPT ‑ 5.4 在措置复漫笔档实质时,能够好地调理结构、保握信息完好,同期减少不实,为企业办公、数据分析和论说生成提供可靠扶植。
此外,OpenAI 对分辩率和密度图像的措置才调也有所增强。从 GPT ‑ 5.4 运行,模子支握"原始图像输入细节"模式,可措置总量达 1024 万像素或大边长 6000 像素的全保真图像;"细节"模式支握 256 万像素或大边长 2048 像素。
这使得模子在标的定位、图像调理及精度面说明佳,同期晋升了文档生成、演示文稿和图表的质料。
04 编程与器具生态高出强化怀化隔热条设备厂家
GPT ‑ 5.4 与 GPT ‑ 5.3-Codex 的编程才调对比图
在编程才调面,GPT ‑ 5.4 与 GPT ‑ 5.3-Codex 很是以至略,同期在延伸和 Token 率上有权贵晋升。在 SWE-Bench Pro 测试中,GPT ‑ 5.4 得分 57.7,GPT ‑ 5.3-Codex 为 56.8,GPT ‑ 5.2 为 55.6。Codex 中的 /fast 模式可将 Token 生成速率晋升 1.5 倍,使征战者在迭代和调试过程中保握长远职责节拍。
OpenAI 还发布了实践 Codex 妙技 Playwright(交互版),允许模子在构建 Web 应用时自动运行浏览器测试,对生成界面和进行可视化调试。
浅薄说,这个实践妙技让 GPT-5.4 从"只会写代码"升到"能我方开浏览器玩我方写的游戏、发现问题再改代码",至极适生成像这种度交互、视觉反馈强的 Web 小游戏或应用。
OpenAI 展示了个典型案例:GPT-5.4 仅凭条苟简指示词,就生成了个完好的等距视角主题公园模拟游戏。游戏包含基于瓦片的旅途铺设与景点征战系统,搭客 AI 可自主寻路比肩队,系统同期及时新资金、搭客数目、闲隙度和清洁度四项要津预计打算。
Playwright Interactive 在此过程中实施多轮自动化测试,考证旅途铺设、录像机航、搭客举止以及界面预计打算的准确。从代码生成到测历练收,总共这个词征战经过由模子立完成。
博主 Angel 相同用 GPT-5.4 写了个 Minecraft 克隆版,模子花了约 24 分钟,运行长远,过程中莫得卡住。他在文里写谈:" Minecraft 基本上被攻克了,我当今得找个新测试了。"
GPT-5.4 在 BrowseComp 测试中的说明
此外,GPT ‑ 5.4 在网页搜索和信息整才调上也有权贵晋升。在 BrowseComp 测试中(预计 AI 代理握续浏览网页以寻找难以定位信息的才调),GPT ‑ 5.4 比拟 GPT ‑ 5.2 晋升了 17,而 GPT ‑ 5.4 Pro 是创下 89.3 的新记录。
这意味着模子在回复需要汇集多个开端信息的问题时说明强,能够通过多轮搜索锁定关联的贵府,并将信息综整理成明晰、逻辑严谨的回复。
器具调用面,GPT ‑ 5.4 引入"器具搜索"机制。以往多数外部器具界说须在每次央求时全量加载,占用多数 Token 并拖慢反馈;新机制允许模子按需查询器具界说,权贵减少 Token 支出。
GPT ‑ 5.4 总 Token 使用量缩短
实测中,在启用 36 个 MCP 做事器情况下,总 Token 使用量缩短 47,准确率保握不变。在 Toolathlon 测试中,GPT ‑ 5.4 得到 54.6,于 GPT ‑ 5.2 的 45.7。Zapier CEO 韦德 · 福斯特(Wade Foster)指出,GPT ‑ 5.4 在多才略器具调用任务中握续实施才调权贵增强。
05 使用式、价钱与部署
GPT ‑ 5.4 已在 ChatGPT、API 和 Codex 平台上线。在 ChatGPT 中,GPT ‑ 5.4 Thinking 向 Plus、Team 和 Pro 用户绽开,取代 GPT ‑ 5.2 Thinking;GPT ‑ 5.4 Pro 面向 Pro 和企业用户,适用于大型代码面孔分析、跨系统自动化经过及长周期商议任务。
在 API 中,征战者可通过" gpt-5.4 "和" gpt-5.4-pro "径直调用模子。Codex 提供百万 Token 实践荆棘文窗口,过法式 272K 部分按两倍费率计入使用量。
订价面,GPT ‑ 5.4 输入价钱每百万 Token 2.50 好意思元,输出价钱 15 好意思元,略于 GPT ‑ 5.2 的 1.75 好意思元和 14 好意思元;GPT ‑ 5.4 Pro 输入价钱 30 好意思元,输出 180 好意思元。由于模子 Token 利用率晋升,好多任务所需总 Token 数目下落,因此举座资本可能不会权贵增多。
06 写在后
GPT-4 75 的谋划机操控得手率意味着四次里仍有次失败。从"能用"到"能依赖",GPT-5.4 是迫切节点,但不是绝顶。
着实的问题不是 AI 能不颖异活,而是当它着实能接活的本领,你准备好把哪些活交出去了?
特约编译忌对本文亦有孝顺
相关词条:铝皮保温 隔热条设备 钢绞线厂家玻璃棉 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
