认识 Devin,世界上第一位完全自主的 AI 软件工程师。
Devin 是一位孜孜不倦、技术娴熟的队友,同样愿意与您一起构建或独立完成任务供您查看。
有了 Devin,工程师可以专注于更有趣的问题,工程团队可以为更雄心勃勃的目标而奋斗。
Devin的能力
随着我们在长期推理和规划方面的进步,Devin 可以计划和执行需要数千个决策的复杂工程任务。Devin 可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误。
我们还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。
最后,我们赋予了 Devin 主动与用户协作的能力。Devin 实时报告其进度,接受反馈,并根据需要与您一起完成设计选择。
以下是 Devin 可以执行的操作示例:
Devin 可以学习如何使用不熟悉的技术。
在阅读了一篇博文后,Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。
Devin制作了一个模拟生命游戏的互动网站!它以增量方式添加用户请求的功能,然后将应用部署到 Netlify。
Devin 可以自主查找和修复代码库中的错误。
Devin 帮助 Andrew 维护和调试他的开源竞争性编程书籍。
Devin 可以训练和微调自己的 AI 模型。
Devin 为大型语言模型设置了微调,只给出了指向 GitHub 上研究存储库的链接。
Devin 可以解决开源存储库中的错误和功能请求。只要有一个指向 GitHub 问题的链接,Devin 就会完成所需的所有设置和上下文收集。
Devin 可以为成熟的生产存储库做出贡献。
此示例是 SWE-bench 基准测试的一部分。Devin 解决了 sympy Python 代数系统中对数计算的错误。Devin 设置代码环境,重现错误,并自行编码和测试修复程序。
我们甚至尝试在 Upwork 上给 Devin 提供真正的工作,它也可以做到这些!
在这里,Devin 编写和调试代码以运行计算机视觉模型。Devin 对生成的数据进行采样,并在最后编制一份报告。
德文的表现
我们在 SWE-bench 上评估了 Devin,这是一个具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。
Devin 正确地解决了 13.86%* 的端到端问题,远远超过了之前最先进的 1.96%。即使给定要编辑的确切文件,最好的以前模型也只能解决 4.80% 的问题。
*Devin 是在数据集的随机 25% 子集上进行的。Devin 是无辅助的,而所有其他模型都是辅助的(这意味着模型被确切地告知哪些文件需要编辑)。
我们计划很快发布更详细的技术报告,请继续关注更多细节。
关于认知
我们正在培养 AI 团队成员,其能力远远超出当今现有的 AI 工具。通过解决推理问题,我们可以在广泛的学科中解锁新的可能性——代码只是一个开始。我们希望帮助世界各地的人们将他们的想法变为现实。
我们资金充足,包括由 Founders Fund 领投的 2100 万美元 A 轮融资。我们感谢行业领导者的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等。