维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量
2 天前 / 阅读约1分钟
来源:IT之家
该数据集在设计时考虑了机器学习工作流程,可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。

IT之家 4 月 18 日消息,维基百科运营方维基媒体基金会下辖 Wikimedia Enterprise 当地时间 16 日宣布其在 Kaggle 平台上发布了 JSON 格式、英语和法语版本的测试版维基百科结构化内容快照数据集。

该数据集可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。

这也意味着 AI 爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。

相关阅读:

  • 《维基媒体基金会:为 AI 训练数据集抓取资源的网络爬虫正带来运营开支压力》