5熊猫网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 29|回复: 0
 细痣疣螈 发表于: 2024-12-21 05:33:00|显示全部楼层|阅读模式

[2024年] OpenAI发布了下一代模拟推理模型o3和o3-mini

 [复制链接]
  : 环球市场播报
d2ad-8a034d54f83dd891738c2754ca1f5a1e.png
  周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。该公司尚未发布这些模型,但今天将使这些模型可用于公共安全测试和研究。
  这些模型使用OpenAI所称的“私人思维链”,模型会暂停检查其内部对话,并在响应之前提前计划,你可以称之为“模拟推理”(SR),即一种超越基本大型语言模型(llm)的人工智能形式。
  为了避免与英国电信运营商o2发生潜在的商标冲突,该公司将其命名为“o3”而不是“o2”。在周五的直播中,奥特曼承认了他的公司命名的缺点,他说:“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”
  根据OpenAI的说法,o3模型在ARC-AGI基准上获得了破纪录的分数,ARC-AGI基准是一种视觉推理基准,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。
  OpenAI还报告说,o3在2024年美国数学邀请赛中得分为96.7%,只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,而其他模型都没有超过2%。
  同样在周五发布的o3-mini版本包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置可以产生更好的结果。OpenAI报告说,在Codeforces基准测试中,o3-mini的性能超过了它的前身o1。
  模拟推理正在兴起
  在OpenAI宣布这一消息之际,其他公司也在开发自己的SR模型,包括谷歌,谷歌周四宣布了Gemini 2.0 Flash Thinking Experimental。去年11月,DeepSeek推出了DeepSeek-r1,而阿里巴巴的Qwen团队则发布了QwQ,他们称QwQ是01的第一个“开放”替代品。
  OpenAI将首先向安全研究人员提供新的SR模型进行测试。奥特曼说,公司计划在1月底推出o3-mini,随后不久推出o3。
『 5熊猫网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 5熊猫网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 细痣疣螈 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 细痣疣螈 的书面同意;
  4. 本帖子由 细痣疣螈 发表,仅代表用户本人所为和观点,与『 5熊猫网 』的立场无关,细痣疣螈 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 细痣疣螈 发表,帖子内容(可能)转载自其它媒体,但并不代表『 5熊猫网 』赞同其观点和对其真实性负责。
  6. 本帖子由 细痣疣螈 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 5熊猫网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2025, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2025-5-12 23:01, Processed in 0.062400 second(s), 10 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表