AI一周写出ICLR研讨会论文，成果简洁有效获审稿人大赞 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

AI一周写出ICLR研讨会论文，成果简洁有效获审稿人大赞

9 小时前 / 阅读约8分钟

来源：36kr

同行评审得分7/6/7

AI写的论文已经在ICLR的研讨会上通过了同行评审，还是一口气中就中了两篇。

其中一篇获得了7/6/7的同行评审分数，另一篇的审稿人也给出了7/7的成绩。

而且从假设生成到同行评审出版整个流程都是AI自主完成，一篇用时仅需不到一周。

这个“AI科学家”名为Zochi，由名为的Intology初创企业打造，成立刚刚不到两个月。

两名联创分别是连续创业者Ron Arel和前Meta华人研究员Andy Zhou，两人均毕业于伊利诺伊大学厄巴纳-香槟分校。

Zochi入选的两篇论文，是以Andy Zhou名义进行投稿的，内容分别是：

子空间级别微调方法CS-ReFT，能够让7B的Llama-2在AlpacaEval中超过GPT-3.5，同行评审7/6/7；

大模型安全漏洞检测框架Siege，针对GPT-3.5-Turbo的检测准确率为100%，审稿人打分7/7。

并且在基于NeurIPS规则的自动打分程序的评审中，Zochi两篇论文均获得了8分的成绩。

两篇论文入选ICLR

Zochi被ICLR研讨会相中的两篇论文具体内容，接下来就一起来了解~

让7B Llama-2超越GPT-3.5

第一篇论文，提出了一种名为CS-ReFT的子空间级别微调方法。

Zochi发现了AI发展中的一个关键瓶颈——参数高效微调中的跨技能干扰。

也就是说，当同时将模型应用于多个任务时，一项技能的改进往往会降低其他技能的性能。

研究之后，Zochi提出了CS-ReFT方法，部分基于ReFT改造而来，但重点是表示编辑而不是权重修改。

具体来说，不同于LoRA等方法在权重级别实现正交性约束，CS-ReFT将这些约束直接应用于隐藏状态表示。

这种方法使得每个任务都有其专用的子空间变换，反之，每个变换都专注于一项独特的技能，从而消除了跨技能干扰。

当应用于Llama-2-7B时，CS-ReFT在AlpacaEval上取得了93.94%的胜率，用不到万分之一的参数超过了GPT-3.5-Turbo（86.30%）。

评审人员称赞，这是一个“聪明的想法”，并且“有效解决了ReFT 的一个关键限制”。

发现大模型安全漏洞

第二篇论文，关于大模型安全。

从现有的安全文献出发，Zochi提出了Siege框架，它使用树搜索算法增强了多轮越狱策略。

Zochi发现，模型在轻度违规在对话中累积的过程中会表现出“部分服从”行为，即在看似维护安全规则的同时附带产生一些违规的信息片段。

Siege就是利用这种现象，系统地识别和利用对话分支中的轻微违规，通过积累实现越狱攻击。

它将每个对话状态视为搜索树中的一个节点，采用定向搜索来并行探索多种攻击策略。

该框架其核心创新是一种复杂的部分合规性跟踪机制，可以识别和利用增量政策泄漏。

与以前的方法相比，Siege使用更少的查询，在GPT-3.5-Turbo上实现了100%的成功率，在GPT-4上实现了 97% 的成功率。

审稿人评价称，Siege是一种“有效、直观的方法” ，并且告知了人们需要重新评估现有的人工智能防御策略。

预测蛋白质-核酸结合位点

除了这两篇之外，还有一篇论文和计算生物学相关，由于完成时已经错过了ICLR会期，转而投稿期刊，目前正在接受审查。

这项研究提出了一种名为EGNN-Fusion的架构，能够预测蛋白质-核酸结合位点。

它的性能可与最先进的方法相媲美，同时将参数数量减少了95%，体现了Zochi跨领域迁移知识和解决AI之外的复杂科学挑战的能力。

和前面两篇一样，这篇论文也进行了程序自动化评分，得分为7分，所以Zochi三篇论文的平均成绩为7.67。

多智能体协作完成科研流程

除了能在不到一周的时间内自主写出一篇高质量论文之外，Zochi还挑战了MLE-Bench的Kaggle子集。

结果在没有任何特定任务优化的情况下，Zochi直接取得了SOTA水准，并且在80%的任务上超越了人类的平均表现、在一半的任务当中获得金牌。

那么，Zochi是怎么做到的呢？其中的关键，就在于当下流行的多智能体协作框架。

Zochi将科学方法分解为专门的组件,每个组件处理研究过程中不同的过程，具体包括四个阶段：

文献分析和知识综合；

假设生成和细化，确定研究方向；

实验设计和实施、评估；

数据分析和解释以及科学交流。

给Zochi设定的研究目标，既可以是一般的研究领域（如“AI安全”），也可以是一个细粒度问题或思路（如“多模态表征对齐方法”）。

系统进行广泛的探索和迭代过程，Zochi生成多个候选假设，设计并执行实验来测试这些假设，分析结果，并根据发现迭代优化其方法。

最后，Zochi以研究论文的格式起草一份报告，不断完善直到质量足以提交同行评议。

此外Zochi的另一个关键，是其结构化验证过程，类似于学术研究中的导师-学生关系。

在研究过程的关键节点，人类专家需要在下一步骤进行之前验证Zochi的工作，具体包括三个关键阶段——大规模实验开始之前、准备文稿之前，以及文稿完成之后。

反馈侧重于验证方法的合理性，并验证报告的结果是否准确反映实验结果，以确保完整性。

除了强制性验证外，人类专家还可以选择随时提供高层次的反馈，这一过程主要用于论文写作，因为Zochi经常难以遵循预期的提交格式（如页面限制）。

不过人类输入通常包括几句简短的评论，用于指出潜在问题或建议替代方向，而不是给予详细指示。

“AI科研”仍然争议不断

Zochi这次取得的成绩，在AI当中确实是一个不错的水平，但并不是最早的AI科研系统。

去年，“Transformer八子”之一的Llion Jones创立的Sakana AI，推出了一个基于AI的自动化科研系统。

而且这个系统名字简单粗暴，就叫AI Scientist，并且已经有了第二代。

也是在这届ICLR上，第二代AI Scientist的论文在其中的一个研讨会上通过了同行评审，分数为6/7/6。

不过，研讨会和ICLR主会议的录用标准也存在不同，前者的录用率大约是后者的两到三倍。

在Sakana内部基于ICLR主会议规则进行的评审中，AI Scientist-v2的论文并未通过。

这似乎也和Intology基于NeurIPS规则进行的机器评测结果形成了对应，AI Science v2的平均成绩不到四分，甚至还不如前一代。

当然，Zochi的成绩相对高出不少，但最终能不能入选主会议也要等待最终结果。

但是，由于学术界针对AI科研还存在很大争议，即使成功入围，研究团队可能也会在正式发稿之前撤回。

Intology就表示，出于维护学术诚信的考虑，认同AI不应当被列为学术作品的作者，但正在和研讨会组织者进行讨论，决定是否向研究界展示。

而在前段时间，另一家顶会CVPR就拒绝了19篇论文，其原因正是和滥用AI有关。

甚至CVPR还明确要求，审稿人撰写评审意见同样不能使用AI，也不能把任何实质性内容交给AI（哪怕是用于翻译也不可以）。

学术会议之外，国内外诸多高校也开始针对学生论文使用AI的情况加强审查，并出台限制措施。

的确在现实情况当中，确有滥用AI的行为存在，颁布这类规定的目的也是基于学术诚信的考量。

但一禁了之不应是长久之策，还应该对学术研究从事者，特别是学生群体给予正确引导，并积极探索AI提效与学术不端之间的合理边界。

那么，你认为AI在学术活动当中，怎样被利用才是合理的呢？

上一篇：接入DeepSeek，小红书要谨慎一“点点”

下一篇：元宝“粘”不过豆包

返回列表

热文阅读

2 天前

英伟达GB300将亮相：代工厂议价能力转弱，仅台积电有能力涨价

2 天前

美光、三星电子、SK海力士等NAND厂商均将从4月起提高报价

2 天前

这家美国初创企业，试图为整个“星际之门”供电

2 天前

三星集团会长李在镕强调面对AI挑战需'拼死一搏'

2 天前

AMD 董事长苏姿丰来华，到访联想总部探讨合作

2 天前

从蛰伏到王炸，RL启示录

2 天前

宁德时代：正在开发第二代钠电池，性能指标已经与磷酸铁锂电池接近

2 天前

盘点英伟达GTC大会6大值得期待的亮点

2 天前

“神童”Manus，“麻瓜”小试通义千问AI魔法

1 天前

另辟蹊径：日本NIL与中国LDP，谁能撼动ASML EUV？

上一篇：接入DeepSeek，小红书要谨慎一“点点”

下一篇：元宝“粘”不过豆包

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园