开源AI新突破:机器学习论文瞬间变身可运行代码库!

一水 发自 凹非寺

量子位 | 公众号 QbitAI

最近又有一个开源AI工具在国外引起了热议!

这个工具叫做PaperCoder,它是一个多智能体的LLM(大语言模型)系统,能够自动化地生成机器学习论文中的代码。

开源AI新突破:机器学习论文瞬间变身可运行代码库!

据说,这个工具的推出源于一个统计数据:

在2024年,NeurIPS、ICML和ICLR等顶会上,只有21%的机器学习论文附上了代码

开源AI新突破:机器学习论文瞬间变身可运行代码库!

这导致了研究成果复现和构建的速度非常缓慢。

于是,来自韩国科学技术院的四位研究者决定推出PaperCoder。这个工具在规划、分析和代码生成的每个阶段,由不同的智能体来分别处理各自的任务,最终完成顶会论文的代码生成。

智能体的工作流程揭秘

最终生成的代码不仅超越了不少现有的基准,甚至得到了参与研究的77%原论文作者的认可,真是令人惊喜!

开源AI新突破:机器学习论文瞬间变身可运行代码库!

接下来,我们一起深入了解一下。

智能体提示词解析

PaperCoder通过模仿研究人员编写代码的整个过程,基本上可以分为三个关键步骤:

  • 规划(Planning):这一步主要涉及整体计划、架构设计、逻辑设计以及配置文件的制定;
  • 分析(Analyzing):将规划转化成详细的文档规范,确保每个细节都清晰可见;
  • 代码生成(Coding):最终生成代码,以实现论文中所提到的方法和实验。
开源AI新突破:机器学习论文瞬间变身可运行代码库!

在研究的每个环节中,使用的提示词如下:

1)规划阶段生成整体计划。

轻松搞定实验设计,像聊天一样简单!

嘿,大家好!今天我们聊聊如何把一篇研究论文中的实验重现得像模像样。说白了,你得先搞清楚论文里提到的每一个细节,比如方法、实验设置和评估指标。这样才能确保你的计划跟论文保持一致。

首先,制定一个整体的计划,确保每个步骤都没有遗漏。你知道的,细节决定成败!接着,把这个计划整理得清晰明了,最好是分成几个可操作的步骤,这样自己和他人都能轻松跟上。

最后,确保你的计划高效可行,不仅要忠实于原始实验,还得让实施过程简单明了。这样一来,无论是用 wordpress采集深度改写插件还是其他工具,都会让你事半功倍!

当然,这只是一个开始,后面还有更多内容等着你去探索!

3)规划阶段要生成逻辑设计。

用户提示:

你的任务是根据产品需求文档(PRD)和技术设计来分解任务,创建一个任务清单,并分析各个任务之间的依赖关系。简单来说,就是要把任务拆解开来,弄清楚它们之间的联系。

你需要清楚地概述一下复现论文方法和实验的PRD或技术设计。

接下来,咱们就根据PRD和技术设计来分解任务,列出任务清单,并分析这些任务的依赖关系。逻辑分析时,不光要关注文档间的依赖,还得提供详细描述,帮助你编写复现论文所需的代码。

格式示例+1。

开源AI新突破:机器学习论文瞬间变身可运行代码库!

4)规划阶段生成配置文件。

用户提示:

你要写出优雅、模块化并且容易维护的代码,记得遵循Google的风格指南哦。

根据之前提到的论文、计划和设计,按照“格式示例”生成代码。别忘了从论文中提取一些训练细节,比如学习率、批量大小和周期数等等,严格遵循“格式示例”来生成代码。记住,不要自己编造细节,得根据论文提供的信息来写。

你必须创建一个‘config.yaml’的文件。

要注意哦:用“##”来分隔各个部分,而不是“#”。你的输出格式必须严格按照下面的例子来执行。

如何生成文件规范与编写代码

开源AI新突破:机器学习论文瞬间变身可运行代码库!

5)分析阶段的文件规范生成。

系统提示你:

你是一位在实验设计和科学研究复现领域非常有经验的专家,还是个战略规划者和软件工程师哦。

接下来你会接到一份以JSON格式呈现的研究论文,里面有计划概述、实现方法、文件列表、数据结构和接口,还有程序调用流程,以及一个“config.yaml”的配置文件。

你的任务是进行全面的逻辑分析,确保能正确复现论文中提到的实验和方法。这分析要和论文的研究方法、实验设置还有评估标准一一对应。

(这里有一些具体要求)……

开源AI新突破:机器学习论文瞬间变身可运行代码库!

6)进入代码生成阶段。

这次的系统提示里,除了上面提到的内容,还新增了关于编码部分的要求:

你的任务是写代码来复现论文里描述的实验和方法。

你写的代码要优雅、模块化并且易于维护,得遵循Google的风格指南。而且代码的逻辑必须和论文的研究方法、实验设置及评估指标保持一致,确保使用三重引号的代码格式。

77%的论文原作得到了认可

根据这些提示,研究团队使用了四个不同的模型来进行实验,具体包括:

  • DS-Coder:DeepSeek-Coder-V2-Lite-Instruct
  • Qwen-Coder:Qwen2.5-Coder-7B-Instruct
  • DS-Distil-Qwen:DeepSeek-R1-Distill-Qwen14B
  • o3-mini-high

评估的对象包括90篇顶级会议论文

具体来说,研究团队挑选了ICML 2024、NeurIPS 2024和ICLR 2024中得分最高的30篇论文,建立了Paper2Code的基准测试。

在这个过程中,他们利用OpenReview API筛选出公开的GitHub存储库的论文。

在这些论文中,他们选择了总代码量少于70,000个tokens的存储库,以便在可控范围内确保结果的可重复性。

此外,他们还使用了一个名为PaperBench Code-Dev的基准测试,这个测试包含了ICML 2024的20篇论文,以进一步验证他们的框架。

对比不同AI代码生成框架的实测结果

为了进行有效的比较,研究团队在当前缺乏完整论文到代码生成的框架情况下,挑选了一些多智能体的软件开发框架来进行测试,

其中包括了ChatDev和MetaGPT这两个热门的选择。

评估的方式主要有两种:

首先,他们会对比生成的代码在准确性、规范性和可执行性上的表现。

其次,团队邀请了13位计算机专业的硕士和博士生参与,让他们评价AI生成的代码是否符合他们的预期。

实验结果显示,

在Paper2Code的基准测试中,PaperCoder的表现优于其他多智能体框架

。通过人类评估,约77%的论文原作者

(10人)

表示他们更喜欢PaperCoder生成的代码,认为它是首选。

关于o3-mini-high的研究发现,真是让人惊喜!

说到研究,最近有个有趣的发现:研究人员注意到o3-mini-high的评估结果和人类的判断之间关系最密切。因此,在实验过程中,大家通常会优先选择它来作为评估模型。

开源AI新突破:机器学习论文瞬间变身可运行代码库!

如果想了解更多的细节,欢迎查阅原论文哦!

论文链接:
https://arxiv.org/pdf/2504.17192
代码地址:
https://github.com/going-doer/Paper2Code?tab=readme-ov-file

参考链接:
[1]https://x.com/akshay_pachaar/status/1915818238191276138
[2]https://x.com/Mahesh_Lambe/status/1916114076310110668

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态!

来源:今日头条
原文标题:又一开源AI神器!将机器学习论文自动转为可运行代码库 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论