5熊猫网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 24|回复: 0
 细痣疣螈 发表于: 2024-12-24 17:03:00|显示全部楼层|阅读模式

[2024年] o3意味着什么?2025年“缩放定律”继续,成本更贵也更不可控

 [复制链接]
  : 市场资讯
  Clark补充表示,最近有很多奇怪的报道,说“扩展已经遇到瓶颈”,对此,Clark反驳称:
    “从狭义上讲,这是对的,因为较大的模型在应对挑战性基准时,获得的得分提升比其前代模型要小,但从更广义上讲,这种说法是错误的,因为o3背后的技术意味着扩展仍在继续……到2025年,我们将看到现有方法(大模型扩展)和新方法(基于RL的“测试时扩展”等)的结合。”

  Clark还补充道,明年,AI界将结合“测试时扩展”和传统的预训练扩展方法,进一步挖掘AI模型的潜力。

表现出众的o3
  许多人将OpenAI发布的o3模型视为AI扩展进程没有“夭折”的证明──o3在基准测试中表现出色,在一项名为ARC-AGI的通用能力测试中,它的得分远远超过所有其他模型,某次尝试中得分甚至达到了88%,而o1的最好表现仅为32%。并且,o3在一项困难的数学测试中达到了25%的得分,没有任何其他AI模型的得分超过2%。
1112-b725e23ee610c9b13f85a9f8a1c1db68.png
  o系列模型的共同创造者Noam Brown在上周五表示,OpenAI在宣布o1模型后的仅仅三个月就发布了o3模型,AI性能的进步速度令人印象深刻:
    “我们有充分的理由相信,这一发展轨迹将继续下去。”

53e2-17bef53f575378570208c0e83dd24cf9.png

价格昂贵的o3
  尽管o3模型让人们重新相信AI扩展法则的进展,但也并非十全十美:o3使用了前所未见的计算量,这意味着每个答案的成本更高了。
  Clark在博客中写道:
    “或许唯一需要注意的点是,o3之所以表现得更好,部分原因在于它在推理时的运行成本更高──能够利用“测试时扩展”意味着在某些问题上,你可以通过增加计算资源得到更好的答案。这很有意思,因为它使得运行AI系统的成本变得更加难以预测──之前,你只需通过查看模型本身以及生成某个输出的成本,就能估算出运行生成模型的费用。”

  再一次回到这张图,除了o3在纵坐标上获得的极高得分,o3在横坐标上也一骑绝尘──o3的高得分版本在每个任务上使用了超过1000美元的计算资源,而o1在每个任务上仅仅使用了约5美元的计算资源,o1-mini在每个任务上只用了几美分。
  ARC-AGI基准测试的创造者Francois Chollet在博客中写道:
    “OpenAI为了生成88%的得分,使用了比o3高效版本多出约170倍的计算资源,而高效版本的得分仅比高得分版本低12%。”

  Chollet继续补充道:
    “o3是一个能够适应之前从未遇到的任务的系统,可以说在ARC-AGI领域的表现已经接近了人类的水平,当然,这种通用性的代价很高,且目前还不具备经济效益。”

  不过,现在讨论具体定价还为时尚早了,毕竟,AI模型的价格在过去一年中大幅下跌,OpenAI也尚未宣布o3的实际费用。更值得探究的是,o3高昂计算价格显示出,突破当前领先AI模型的性能门槛,到底需要多大的计算量。

仍有局限的o3
  虽然o3在各类测试中表现出色,但它确实不是十全十美的
  分析师指出,o3或其后继模型不会成为像GPT-4或谷歌搜索这样的“日常使用工具”,因为这些模型使用了过多的计算资源,无法回答日常的小问题,比如“克里夫兰布朗队怎么才能有机会进入2024年季后赛”。
  是的,使用了“扩展测试时计算”的AI模型可能仅适用于更宏观的问题,比如“克里夫兰布朗队如何在2027年成为超级碗冠军队”。但是,只有当你是克里夫兰布朗队的总经理时,使用这些工具来做出重大决策,可能才值得你付出如此高昂的计算成本。
  正如沃顿商学院教授Ethan Mollick在指出的那样,只有财力雄厚的机构才有可能负担得起o3,至少在初期是这样。
  目前,OpenAI发布了一个200美元的订阅层级,供用户使用高计算版本的o1,但根据报道,OpenAI最近还在考虑推出价格为2000美元的订阅层级──看到o3使用的计算资源后,可以理解为什么OpenAI会如此考虑了。
  此外,虽然o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步,但是,通过这一测试并不意味着AI模型已经达到了通用人工智能(AGI),毕竟,o3在一些非常简单的任务上仍然失败了,而这些任务人类可以轻松完成──显然,o3和“测试时扩展”仍未解决大语言模型的幻觉问题。
  风险提示及免责条款
  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
『 5熊猫网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 5熊猫网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 细痣疣螈 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 细痣疣螈 的书面同意;
  4. 本帖子由 细痣疣螈 发表,仅代表用户本人所为和观点,与『 5熊猫网 』的立场无关,细痣疣螈 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 细痣疣螈 发表,帖子内容(可能)转载自其它媒体,但并不代表『 5熊猫网 』赞同其观点和对其真实性负责。
  6. 本帖子由 细痣疣螈 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 5熊猫网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2025, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2025-5-11 21:12, Processed in 0.062400 second(s), 10 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表