燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,即将开幕~ 了解详情
写点什么

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

作者:Daniel Dominguez

  • 2025-04-06
    北京
  • 本文字数:954 字

    阅读完需:约 3 分钟

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。


SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。


基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。


该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。


在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。


一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。


用户 Alex Bon 表示:


终于有机会让 AI 证明它也能在零工经济中生存下来了!


独立黑客 Jason Leow 则表示:


我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。


SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。


查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

2025-04-06 10:006262

评论

发布
暂无评论

架构师训练营第四周感悟

张锐

极客大学

计算机操作系统基础(九)---存储管理之段页式存储管理

书旅

php laravel 线程 操作系统 进程

Linux 性能优化实战 笔记-IO篇

程序员老王

分布式系统架构学习总结(第四周)

~就这样~

Week4总结

王志祥

极客大学架构师训练营

年薪百万架构师推荐的888页Java王者级核心宝典,offer直接来

无予且行

Java 面试必考的 6 个技能,都在这了

架构大数据双料架构师

攻克SpringBoot底层源码后,才发现开发原来这么香

无予且行

Java spring 面试 Spring Boot 开发

使用 Flutter 快速实现请假与写周报应用

LeanCloud

flutter 后端 数据 教程

慧点OA转战政企市场,钉钉们羡慕么?

人称T客

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。

~就这样~

week 04 总结

Safufu

架构师0期04周总结

我在终点等你

如何构建你自己的 JVM (2) HelloWorld

孤星可

Java JVM 深入理解JVM

这20道微服务面试题要是不会,offer就与你无缘

犬来八荒

Java 架构 面试 微服务

系统架构:学习小结

梅子黄时雨

极客大学架构师训练营

系统结构:作业

梅子黄时雨

极客大学架构师训练营

ARTS 第 4 周

乌拉里

谈一谈年终奖中的那些坑

张小方

程序员 面试 offer 薪资 年终奖

聊一聊 HashMap

江城子

Java hashmap

极客大学架构师训练营 系统架构 第8课 听课总结

John(易筋)

极客时间 系统架构 极客大学 极客大学架构师训练营 系统架构演化

一文读懂 TypeScript 泛型及应用

阿宝哥

Java typescript 大前端

环信荣登36氪WISE2020企服金榜-智能客服榜首

DT极客

架构师0期04周命题作业

我在终点等你

让你秒懂Spring中Mybatis的花样配置

小谈

Java spring 面试 Spring Cloud mybatis

从0-1学习项目方案设计

赵孔磊

【思考】-产品等级与市场定位匹配

superman

定位 产品定位

从 0 到 1 搭建技术中台之推送平台实践:高吞吐、低延迟、多业务隔离的设计与实现

伴鱼技术团队

kafka 缓存 分布式架构 消息推送 push

javascript 部分数据类型的用法

Isuodut

week 04 作业

Safufu

原创 | TDD工具集:JUnit、AssertJ和Mockito (二十四)编写测试-内建扩展

编程道与术

Java 编程 TDD 单元测试 JUnit

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer_AI&大模型_InfoQ精选文章
OSZAR »