OPENAI直播跟踪(一):CHATGPTPRO与O1PRO面世 强化微调计划扩展中

类别:行业 机构:海通证券股份有限公司 研究员:杨林/杨蒙 日期:2024-12-11

  200 美元/月的ChatGPT Pro 计划面世,提供最先进推理模型o1 pro。12 月5日(直播第一天),OpenAI 正式发布 ChatGPT Pro 订阅计划。随着人工智能的不断进步,它将解决越来越复杂和关键的问题。这也意味着为这些能力提供支持所需的计算能力将显著增加。在这种情况下,OpenAI 推出了 ChatGPTPro,一项每月 200 美元的订阅计划,旨在为用户提供对OpenAI 最先进模型和工具的全面访问。该计划包括不限次数地使用OpenAI 最强大的模型——OpenAI o1,以及 o1-mini、GPT-4o 和高级语音功能。 ChatGPT Pro 还提供了o1 pro 模式,这是一种通过更多计算力进行深度思考、提供更优答案的o1版本,尤其针对最棘手的问题。在未来,OpenAI 预计将为该计划增添更多强大且计算密集型的生产力功能。OpenAI 认为,ChatGPT Pro 为研究人员、工程师及其他日常使用研究级人工智能的用户提供了一种加速生产力、站在人工智能前沿的方式。

      o1 Pro 在特定领域显著强于o1/o1-preview,可靠性也进一步提升。ChatGPTPro 允许用户访问我们最智能模型的版本,这些版本会经过更长时间的思考,以提供更可靠的回答。在外部专家测试者的评估中,o1 pro 模式在数据科学、编程和案例法分析等领域,能生成更准确、全面的回答。与 o1 和 o1-preview相比,o1 pro 模式在数学、科学和编程等挑战性机器学习基准测试中表现更佳。

      为了突出 o1 pro 模式的主要优势——可靠性的提高,OpenAI 采用了更为严格的评估标准:只有当模型在四次尝试中有四次正确回答时(即“4/4 可靠性”),才认为该模型成功解决了问题,而不仅仅是一次正确回答。Pro 用户可以通过在模型选择器中选择 o1 pro 模式并直接提问来访问此功能。由于o1 pro 模式生成答案的时间会更长,ChatGPT 会(在其生成答案时)显示进度条,并在用户切换到其他对话时发送应用内通知。OpenAI 将在未来不断为Pro 用户添加更多功能,解锁更计算密集型的任务。

      OpenAI 发布强化微调计划,在法律、保险、医疗、金融和工程等领域落地有望。12 月6 日(直播第二天),OpenAI 发布强化微调(ReinforcementFine-Tuning)计划。根据OpenAI 的说法,公司目前正在扩展强化微调研究计划,以帮助开发者和机器学习工程师创建经过微调的专家模型,使模型能够在特定的复杂领域任务中表现出色。强化微调是一种新的模型定制技术,其基本原理如下:开发者使用几十到数千个高质量任务(测试模型),根据提供的参考答案对模型的响应进行评分,从而进行定制模型。这项技术强化了模型在类似问题中的推理能力,提升了其在特定领域任务中的准确性。OpenAI 目前鼓励研究机构、大学和企业申请该计划,特别是那些目前执行由专家主导的复杂任务,并且能够从AI 协助中受益的机构。OpenAI 在法律、保险、医疗、金融和工程等领域看到了有希望的成果,因为强化微调擅长处理那些有客观“正确”答案、并且大多数专家会达成共识的任务。

      我们认为,此次OpenAI 发布的ChatGPT Pro 和o1 Pro,代表推理模型的发展进入新阶段,其能够解决的任务的范围和深度也进一步提升,此外也在一定程度上推动了AI 商业化的落地。而强化微调计划则使得大模型能够更为简便的优化其在细分领域的不足,这使得未来AI 大模型在B 端的落地有望持续加速。

      建议关注:万兴科技、虹软科技、新国都、当虹科技、同花顺、新致软件、金山办公、福昕软件、泛微网络、致远互联、三六零、合合信息、商汤-W、科大讯飞、迈富时、汉得信息、鼎捷数智、赛意信息、中国软件国际、海康威视、大华股份。

      风险提示:AI 技术发展不及预期,AI 应用落地不及预期。