科学家都开始用起了AI,事实果真如此吗?
6 小时前 / 阅读约10分钟
来源:36kr
哪些学科和AI的结合有哪些错位?

去年的诺贝尔奖梅开二度,两次颁给了AI相关领域,让所有人惊讶于AI4science的潜力。然而近日密西根大学的一项覆盖16万篇文献的大规模研究指出,AI和科学的结合仍存在错位。这项研究还使用了复杂网络中的链路预测及大模型+RAG,预测在那些领域,AI和科学的交融可能在未来结出果实。

一、研究方法的进步-用AI研究AI

随着技术的发展,“AI”这一概念包含的范围越来越广。这使得对AI及其应用的研究,也不能局限于定性的,局部领域的文献综述,而需将AI+看成一个生态系统,来通过定量的大数据研究,获得全景式的鸟瞰。

那为何之前的研究者难以完成大规模的文献研究呢?那自然是研究者自身能够看的文献有限,熟悉的领域也有限,综述性文章通常只能覆盖自己所处学科内的相关话题。

可如今不同了,有了大模型之后,研究者能够以一个统一的标准来分析堆积如山的文献。而这项研究的第一步,就是使用大模型识别顶级科学期刊(如《Nature》《Science》)和 AI 会议(如NeurIPS、ICML)文献中涉及的科学问题和 AI 方法,并构建一个新颖且平衡的 AI4Science 数据集,以分析 AI 在科学研究中的作用(图1)。该数据集覆盖五大顶级科学期刊和七大顶级AI会议,时间跨度为2014-2024年,共162,656篇论文,其中7,542篇被标记为AI4Science研究。

图1: AI4Science 数 据集的示意图 

这项研究通过GPT-4o等大语言模型进行语义解析,团队构建了一个包含12.9万科学问题与4.2万AI方法的新数据集,之后经过语义聚类,最终形成390个科学问题簇和355个AI方法簇。这一过程突破了传统分类体系的桎梏,实现了数据驱动的动态映射。

有了数据,还需要能将数据梳理清楚的筛子——不止是发现当下数据的统计规律,还需要根据数据中涌现的趋势来预测未来。AI+科学这个公式的两端,一边是日新月异的AI工具,另一方则是各个细分领域的科学问题。考虑到AI是一项通用的技术,预期其适合各个领域,只是有些领域接触AI更早,因此出成果更快。

由此,这项研究使用复杂网络的方法,将AI方法和科学问题作为节点,构建二分图,图2a中每个节点的大小对应其无权度,表示应用于科学问题的 AI 方法数量,或应用了 AI 方法的科学问题数量。而边的分布不均表明AI与science的连接不平衡,对应AI4Science的应用存在错位。图b-c展示了AI 方法节点的度遵循对数正态分布,而科学问题节点的度分布更为肥尾,表明存在“枢纽”连接 AI 和科学。

图2:AI-Science 二分图及节点分布

二、哪些学科和AI的结合有哪些错位?

有了上述的AI4Science数据集(图1),就可以将科学问题按照该领域内的论文数量,以及该领域内应用AI的论文数量进行对比,如果这个比例偏低,那么就可以说明这个领域使用AI的进度相对落后。

图3,4 科学问题及AI方法中,每个聚簇使用AI的研究多少,图中x 轴表示每个聚簇的总出版物数量,而 y 轴反映每个聚簇中的跨学科 AI4Science 出版物数量。

结果显示,AI应用高度集中于少数领域,如蛋白质设计、材料科学、基因组分析。与之相对的是,存在大量科学问题尚未被充分探索,如不对称合成、磁性材料挑战、森林与气候变化等关键领域的AI渗透率不足10%,这些科学问题可能会更多地从采用 AI 方法中受益。

类似的逻辑也可以用来分析那些AI方法,例如注意力机制、梯度基方法/梯度下降、嵌入技术、策略优化、正则化技术、对抗训练、对比学习和变分推断等还没有被广泛应用。这些技术未来可能在更广泛的科学应用中得到探索。

之后在上述的二分图中(图2)查找枢纽节点,可发现代表最互联的科学问题和 AI 方法的关键词。例如与最广泛种类的 AI 方法相关的科学问题主要是计算或数据处理问题,如:神经网络挑战、统计推断、语言和听觉处理。其次是更具体的领域问题,如:城市交通管理、电子健康数据挑战、社交媒体动态、决策过程、市场经济学。

在 AI 方法上,应用于最多科学挑战的技术包括通用方法,如:机器学习、深度学习、神经网络、分类方法、数据分析、贝叶斯推断。此外,还有针对科学领域的专门技术,包括:基因组分析、计算生物学、蛋白质设计、分子建模、材料信息学。该研究所采纳的文献,一部分来自诸如Nature、Science这样的科学期刊,一部分来自机器学习领域的顶级会议。由此可看出两个学科间对AI4Science关注点的差异。具体来看,在利用 AI 促进科学发现方面,科学社区更重视如蛋白质结构与设计、材料设计、单细胞 RNA 测序、癌症检测等问题;相比之下,AI 社区则更倾向于关注如城市交通管理、电子健康数据挑战、统计推断、社交媒体动态、市场经济学等领域。

在将 AI 方法应用于科学问题时,两个社区也显示出不同的偏好。除了通用方法如机器学习和深度学习外,科学社区经常使用专门针对科学挑战的 AI 技术,如针对基因组分析、蛋白质设计和计算生物学的AI模型。相比之下,AI 社区则使用更广泛的通用 AI 方法,涵盖多种领域,如因果推理、强化学习、优化方法、生成模型、无监督学习等。

小结:当前AI4Science存在的错位,首先是“旱的旱死涝的涝死”,少数枢纽节点(如机器学习、深度学习)连接大量科学问题,形成跨学科桥梁;而80%的节点仅与不足5个伙伴连接,处于边缘地位。其次是不同社区间存在错位,科学家倾向于问题驱动,优先选择领域定制化AI工具(如基因组分析软件);而AI研究者更注重方法创新,试图将通用模型(如生成对抗网络)推广至科学场景。

三、链接预测:AI4Science的「未来地图」

除了描述现有数据,还可以根据当前网络,基于节点间的特征,通过node2vec等链路预测的方法,去预测未来AI4Science的发展趋势。这项研究除了采取传统复杂网络中的方法,还使用了大模型结合检索增强生成(RAG),让大模型结合所有收集到对16万篇论文,直接生成科学问题与AI方法的关联建议。例如,输入“抗生素耐药性”,阅读了所有2014-2022年所有论文的大模型,可能推荐“图神经网络用于耐药基因预测”,之后再根据2023-2024年的数据,验证大模型的预测结果。

实验表明,基于LLM的链接预测方法在大多数情况下优于传统方法,突显了其在预测 AI4Science 研究方向方面的强大潜力。

表1: 不同模型的链接预测结果。 

粗体数字突出 每个场景中的最高性能。 

实验还发现,大模型对AI+science的预测会给出更多在实际数据 (2023-2024年的论文) 中未经验证的想法,这些想法大多是全新的,意味着基于大模型的语义聚类有潜力为研究者带来全新的研究方向。这对于科研人员可是个好消息,那岂不是说大模型有可能在人类探索之前,指出有价值AI4science连接,让研究者眼前一亮吗?而传统的链路预测,则擅长通过节点自身的特征,预测在现有路径下学科交叉的发展轨迹。 

表2:传统方法和基于大模型的方法,使用2014-2022年的数据进行训练,预测模型发现的新链接数量与训练集对比。2023 年和 2024 年真实论文数据引入了 683 个新链接。

四、AI研究AI所带来的局限

这项研究引入了一个全面的大规模 AI4Science 出版物数据集,其中的科学问题和 AI 方法使用大语言模型提取。通过对该数据集的定量分析,有如下三条发现:(1)不同的 AI 和科学子领域在 AI4Science 研究中的参与程度不同,导致大量科学问题和 AI 方法未得到充分研究;(2)科学问题与 AI 方法之间的连接性存在长尾效应,某些节点作为“枢纽”存在,而其他外围节点则连接较少;(3)科学界和 AI 社区在将 AI 整合到科学研究中的方法上采取了不同的途径,优先解决不同的问题和方法。

上述描述性的观察,验证科研工作者及AI从业者的模糊直觉,该研究用定量的方式指出了AI4Science的探索仍有很大的潜力空间。当我们看到诸如DeepSeek这样的技术的进步,并想借此提升科研人员的生产力时,需要明白真正的突破不仅在于技术层面的结合,更在于认知范式的革命。在这种持续的“纠缠”中,科学发现与算法创新将同步演进,推动人类认知的边界不断扩展。这或许是AI4science未来持续要面临的挑战与机遇。

相比传统的基于单个学科的综述论文,由领域专家给出问题及方法的总结还有未来研究方向的建议。这项研究的亮点是用大模型作为工具,从而能够广泛地去进行跨学科的全景式审视。当然以大模型为工具进行研究,也会引入相应的局限性。

例如由于大模型无法完整访问文献中的全部内容(该研究尽集于论文标题与摘要进行科学问题与AI方法的提取),因此其只能在较高的层次上,得到某篇研究使用了哪些方法,研究了哪些问题,然而对于在这些问题上,为何没有使用其它方法,则难以回答。这使得该研究难以更进一步地深入回答为何某些领域,如前文提到的以基因组代表的生物+AI,为何会取得成功,以及从中科学界和AI学术界又能吸取哪些经验。

这项研究首次将大模型这项工具引入到了AI4Science的大规模文献分析中,让研究人员得以看到更完整、更广阔的AI4Science图景。这种大模型及网络驱动的分析范式,或将推动科学发现从“经验驱动”迈向“数据智能驱动”的新阶段。

郭瑞东 集智俱乐部作者