技术前沿

OpenAI发长文自曝家丑:搞砸了GPT-4o更新模型“拍马屁”复盘与总结

OpenAI发长文自曝家丑:搞砸了GPT-4o更新模型“拍马屁”复盘与总结

  • 发布:
  • 人气: 10
  • 评论: 0

应用介绍

  刚刚,OpenAI官网发布了一篇名为《Expanding on what we missed with sycophancy》的“复盘”长文,OpenAI这次公开“自曝家丑”,详细拆解了一次失败的模型更新,展现了AI模型开发和部署中的复杂性与挑战,我们来快速拆解一下

  4月25日,他们向ChatGPT推送了一次GPT-4o模型更新。这次更新后,模型明显变得更加“sycophantic”(谄媚、阿谀奉承)

  这种“谄媚”不只是简单的讨好,还包括:验证用户的疑虑、煽动愤怒情绪、怂恿冲动行为、强化负面情绪——这些都并非OpenAI的本意,让用户感到不适

  4月28日,OpenAI开始回滚这次更新。现在用户使用的是回滚前的、行为更均衡的GPT-4o版本。整个回滚过程耗时约24小时,以确保系统稳定

  OpenAI解释了他们更新模型的常规流程:基于预训练模型进行监督微调(SFT),然后通过强化学习(RL)根据多种“奖励信号”优化模型。这些信号决定了模型最终的行为,考量因素包括:回答是否正确、是否有用、是否符合《模型规范》(Model Spec)、是否安全、用户是否喜欢等等

  这次出问题的更新,本来是为了整合几项“看起来各自都有益”的改进,比如更好地整合用户反馈(点赞/点踩数据)、记忆功能、更新鲜的数据等。

  抽查与专家测试 (内部称“vibe checks” 直觉检查):内部专家深度互动,凭经验和感觉判断模型行为是否符合预期(有用、尊重、符合规范)。

  安全评估:检查模型是否达到安全底线,主要关注恶意使用造成的直接伤害,以及在高风险话题(如自杀、健康)上的回答。幻觉、欺骗等行为虽有追踪,但之前更多是用于衡量进展,而非直接阻止发布。

  前沿风险评估:对可能具备“前沿能力”的模型,检查其造成严重危害(如网络攻击、生物武器制造)的潜力。

  尽管内部对“谄媚”风险有过讨论,但在这次的专家测试中,它并未被明确列为重点关注问题。测试者更关注模型语气和风格的变化,虽然部分测试者确实感觉模型行为“有点不对劲”。

  OpenAI没有针对“谄媚”行为设立专门的部署评估项。虽然有相关研究(如镜像效应、情感依赖),但尚未纳入部署流程

  确解读反馈是他们的责任。定性评估(专家感觉)实际暗示了重要问题,本应给予更多关注。现有的离线评估不够深入,A/B测试未能提供足够细节揭示模型在“谄媚”这一《模型规范》明确反对的行为上的表现。

  模型行为问题需视同安全风险,足以阻止发布:对模型价值观与人类福祉的对齐非常重视,但此前对一般模型行为的评审流程不如安全风险评审那样严格和正式化。现在认识到,个性等行为问题也应是阻止发布的,并将修改流程。

  审慎对待与定性测试冲突的指标:量化信号重要,但难以衡量的定性信号同样重要。需要扩展评估范围。

  认识到ChatGPT日益增长的“个人顾问”角色:人们开始深度依赖ChatGPT获取个人建议,这在一年前还不普遍。随着AI与社会共同演进,必须极其谨慎地对待这类使用场景,并将其作为安全工作的更重要部分。这更加凸显了持续提高AI安全性、对齐度和响应用户实际使用方式重要性。

  IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

  联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

  TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

  Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

  谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

  兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

  康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

  牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

  波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

  安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

  IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

  IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

  CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

  艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

  NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

  IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

  AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

  2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

  美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

  罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

  德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

  奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

  军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

  Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

  沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

  国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

  奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

  Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

  皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

  空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

  北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

  CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

  AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

  近日,河南省教育厅官网“教育工委领导”更新显示,河南省委副书记、政法委书记张巍已同时担任省委教育工委书记职务。

  7月31日,青海省纪委监委发布消息,省供销合作社联合社原党组书记、理事会主任张晓军,被开除党籍、公职,涉嫌受贿犯罪问题移送检察机关审查起诉。

  记者从相关方面获悉,著名水稻专家、南京农业大学农学院教授、种业学科负责人张红生,因突发疾病抢救无效,于2025年7月28日上午逝世,终年62岁。

  “导弹睁眼!打掉了!” 歼-10C再亮剑震撼世界 针对这场演习,飞行员表示:没有体系基本没有机会击落隐身机,歼-10C仍在当打之年!

  大宗商品反转,经济复苏指日可待 #看懂中国 #在深圳看懂中国 #大宗商品 #投资 #宏观经济

  87个气象观测站暴雨,9个站大暴雨。据悉,今年第8号台风“竹节草”的中心今天上午10点钟位于江苏金坛境内,就是北纬31.6度、东经119.6度,最大风力有8级,中心最低气压为988百帕。

  据新疆尔自治区纪委监委7月31日消息:新疆尔自治区卫生健康委员会党组书记、副主任何永慧涉嫌严重违纪违法,目前正接受新疆尔自治区纪委监委纪律审查和监察调查。

  安徽省气象台2025年07月31日16时00分变更发布台风黄色预警。预计未来24小时受台风“竹节草”影响,我省大部分地区阵风风力7~8级,水面和山区阵风8~9级。

  广东近期天气炎热、降雨频繁,蚊虫快速繁殖,已进入蚊媒传染病流行季节,基孔肯雅热病例增多。截至7月29日,广东佛山基孔肯雅热病例累计超过6000例。

  山西男子张某未曾想到,一场寻常的棋牌室娱乐竟将自己卷入“赌博”的行政处罚漩涡。令人深思的是,二审法院与再审法院均旗帜鲜明地撤销了处罚决定。

相关应用