OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
作者:周末游戏网时间:2025-04-19 13:57:07
本站 4 月 10 日消息,OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在缺陷,而该计划将专注于创建能够“设定优秀标准”的评估体系。
随着 AI 技术在各行业的应用加速普及,深入了解并提升其在现实世界中的影响力变得至关重要。OpenAI 在其博客中指出,创建特定领域的评估指标是更好地反映实际应用场景、帮助团队在实际且高风险环境中评估模型性能的有效途径之一。
近期,众包基准测试平台 LM Arena 与 Meta 的 Maverick 模型引发的争议凸显了一个问题:如今,人们很难明确区分不同 AI 模型之间的差异。许多广泛使用的 AI 基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易**纵,或者与大多数人的偏好不一致。
据本站了解,通过先锋计划,OpenAI 希望为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。该实验室表示,在未来几个月内,将与“多家公司”合作设计定制化的基准测试,并最终将这些基准测试公开,同时提供“行业特定”的评估。
OpenAI 在博客中提到,先锋计划的第一批参与者将专注于初创公司,这些公司将帮助奠定该计划的基础。他们将从众多初创公司中挑选出少数几家,这些公司都在从事高价值、应用广泛的用例,AI 在其中可以产生实际影响。
参与该计划的公司还将有机会与 OpenAI 团队合作,通过强化微调技术改进模型。这种技术可以针对一组特定任务优化模型,从而提升其在特定领域的表现。
然而,一个关键问题是 AI 社区是否会接受由 OpenAI 资助创建的基准测试。此前,OpenAI 曾在财务上支持过基准测试工作,并设计了自己的评估方法。但与客户合作发布 AI 测试可能会被视为在道德上存在争议。
相关文章
-
在线设计平台 Canva 新增多项 AI 技能:图片生成、互动编程、电子表格等本站 4 月 11 日消息,在线设计平台 Canva 周四宣布计划向其平台添加一系列新 AI 功能,其中包括 AI 助手、通过指令生成应用的功能、电子表格支持以及 AI 驱动的编辑工具。名为 Canv
-
三星球形投影机器人专利公示,变革家庭娱乐本站 4 月 11 日消息,科技媒体 patentlyapple 昨日(4 月 10 日)发布博文,报道称三星公司获批新专利,构想了未来新型 AI 机器人的投影互动体验。与传统的移动机器人不同,这种设
-
配备 6K 分辨率 LG 面板号称苹果“平替”,Dough Spectrum Canvas 32 英寸显示器公布本站 4 月 11 日消息,制造商Dough现宣布推出一款名为 Spectrum Canvas 的 32 英寸显示器,号称是苹果Pro Display XDR Studio Display 的“平
-
亚马逊 CEO 安迪・贾西呼吁企业大力投资 AI:高投入是为了高回报本站 4 月 11 日消息,据外媒 TechCrunch 报道,亚马逊首席执行官安迪・贾西表示,企业应当大力投资 AI,以便未来能够获得丰厚的财务回报。在周四发布的致股东年度信函中,贾西指出,为了跟上
-
科技昨夜今晨 0411:苹果 iPhone 17 Pro 手机壳曝光;零跑宣布智驾软件全面免费;6499 元起 OPPO Find X8 Ultra 发布...“科技昨夜今晨”时间,大家好,现在是 2025 年 4 月 11 日星期五,今天的重要科技资讯有:1、9 98 万-12 98 万元:零跑 B10 正式上市,激光雷达高阶智驾进入 10 万级零跑旗下全
-
苹果专利勾勒未来 AR 智能眼镜,三重显示系统颠覆交互体验本站 4 月 11 日消息,科技媒体 patentlyapple 昨日(4 月 10 日)发布博文,报道称苹果公司获批一项新专利,专为计算机生成现实(CGR)环境打造,勾勒了未来智能眼镜设计。本站援引