《自然》周刊报道,神经网络可以识别维基百科中不太可能支持文章主张的参考文献,并在网络上搜索更好的来源。

维基百科是世界上浏览量第五大的网站
人工智能整理维基百科的参考文献
维基百科的生死存亡取决于它的引用,以及支持在线百科全书中信息的来源的链接。但有时,这些引用是有缺陷的——指向损坏的网站、错误的信息或不可靠的来源。

人工智能工具可以节省编辑检查维基百科条目准确性的时间
10 月 19 日发表在Nature Machine Intelligence上的一项研究表明,人工智能 (AI) 可以帮助清理维基百科条目中不准确或不完整的参考列表,从而提高其质量和可靠性。
总部位于伦敦的 Samaya AI 公司的法比奥·佩特罗尼 (Fabio Petroni) 和他的同事开发了一种名为 SIDE 的神经网络驱动系统,该系统可以分析维基百科参考文献是否支持与其相关的主张,并为那些不支持的主张提出更好的替代方案。
“考虑到 ChatGPT 臭名昭著的拙劣引用和幻觉引用,使用人工智能来帮助引用似乎很讽刺。但重要的是要记住,人工智能语言模型不仅仅是聊天机器人,”马萨诸塞州沃尔瑟姆本特利大学研究人工智能的 Noah Giansiracusa 说。
人工智能滤镜
SIDE 经过训练,可以使用现有的维基百科精选文章来识别良好的参考文献,这些文章在网站上进行推广,并受到编辑和版主的广泛关注。然后,它能够通过其验证系统识别页面中引用质量较差的声明。它还可以在互联网上扫描信誉良好的来源,并对选项进行排名以替换不良引用。

给定维基百科声明的决策流程示例
SIDE 从维基百科上的声明到新引文建议的决策流程如下:(1)将声明发送到 Sphere 检索引擎,该引擎从 Sphere 语料库中生成潜在候选文档列表;(2) 验证引擎对候选文件和与权利要求相关的原始引文进行排名;(3) 如果原始引文的排名不高于候选文献,则建议从检索到的候选文献中使用新的引文。请注意,验证引擎的分数可能表明验证可能失败,如示例中报告的那样。
为了测试该系统,Petroni 和他的同事使用 SIDE 来建议以前从未见过的维基百科特色文章的参考文献。在近 50% 的情况下,SIDE 的首选参考文献已在文章中引用。对于其他人,它找到了替代参考。
当 SIDE 的结果向一组维基百科用户展示时,21% 的人更喜欢人工智能找到的引文,10% 的人更喜欢现有的引文,39% 的人没有偏好。
瑞士苏黎世大学计算通信科学家 Aleksandra Urman 表示,该工具可以节省编辑和版主检查维基百科条目准确性的时间,但前提是部署正确。“该系统在标记那些可能不合适的引文方面可能很有用,”她说。“但话又说回来,问题实际上是维基百科社区会发现什么最有用。”
Urman 指出,测试 SIDE 系统的维基百科用户不喜欢任何参考文献的可能性是喜欢人工智能建议的参考文献的两倍。“这意味着在这些情况下,他们仍然会去网上搜索相关引文,”她说。
维基百科被引用最多的学术文章
维基百科上被引用最多的期刊文章包括有关月球陨石坑名称以及人类和小鼠基因 DNA 序列的论文,许多最受欢迎的作品在在线百科全书中的引用次数比在科学文献中的引用次数还要多。
“令人难以置信的是,几乎所有被高引用的文章都是科学文章,”纽约市的数据科学家兼图书馆员马特·米勒 (Matt Miller) 说。米勒分析了维基媒体基金会三月份发布的引文数据,维基媒体基金会是一家位于加利福尼亚州旧金山的非营利组织,负责运营维基百科。该数据集包含约 1570 万条记录,显示了维基百科近 300 种语言版本中引用 ISBN(国际标准书号)和 DOI(数字对象标识符)等正式标识符的来源的次数。维基媒体指出,维基百科上标识符引用的大多数出版物都是书籍,但米勒专门研究了英文版维基百科上带有 DOI(最广泛使用的期刊文章标识符)的出版物数量。他的数据集包含 120 万条使用 DOI 的引用,引用了超过 835,000 篇独特的文章。
引用次数最多的论文是2002 年收集的超过 15,000 个人类和小鼠基因序列的集合,在英语维基百科中被引用了 4,702 次(参见“英语维基百科”)。引用该研究的维基百科页面几乎都是有关单个基因或蛋白质的条目。“这是一个惊喜,”领导该项目的癌症研究人员、现任纽约市路德维希癌症研究所副科学主任的罗伯特·施特劳斯伯格 (Robert Strausberg) 说道。
英文维基百科:十大学术文章
英语维基百科上引用次数最多的十种 DOI 出版物:
4,702 次引用: 超过 15,000 个全长人类和小鼠 cDNA 序列的生成和初步分析(2002 年)
3,387 次引用: NIH 全长 cDNA 项目的状态、质量和扩展:哺乳动物基因保藏 (MGC) (2004)
2,895 次引用:新 Hipparcos 减少的验证(2007 年)
2,212 次引用:21,243 个全长人类 cDNA 的完整测序和表征(2004 年)
1,452 次引用:IAU 第 17 委员会工作组关于月球命名的报告(1971 年)
1,297 次引用:Oligo-capping:一种用寡核糖核苷酸取代真核 mRNA 帽结构的简单方法(1994)
1,294 次 引用:绘制人类蛋白质-蛋白质相互作用网络的蛋白质组规模图(2005)
1,251 次引用:全长富集和 5' 端富集 cDNA 文库的构建和表征(1997 年)
931 次引用:Pan-STARRS PS1 观测到的 250,000 个小行星的绝对星等和斜率参数 - 初步结果(2015 年)
878 次引用: 分光光度分类小行星的 NEOWISE 研究:初步结果(2011)
该基因集的扩展版本发表于 2004 年,是被引用次数第二多的文章,约有 3,400 条参考文献(相比之下,根据 Google Scholar,它在科学文献中被引用了 487 次)。马里兰州贝塞斯达美国国家癌症研究所的癌症遗传学家、该论文的合著者 Daniela Gerhard 表示,这些出版物可能被如此频繁地引用,因为它们提供了有关表达基因序列的可获取信息。
总共,前十名中的五篇文章是关于 DNA 目录的,其中包括一篇详细介绍生成此类集合的方法的研究。2005 年绘制的近 3,000 种人类蛋白质相互作用图也名列其中,排名第七。(维基媒体的原始帖子注释:“毫不奇怪,维基百科喜欢参考书。”)
天文学文章构成了列表的其余部分,共有四篇文章。引用次数排名第三的论文是2007 年的一项研究,被近 3,000 个英文维基百科页面引用,该研究帮助研究人员解释了依巴谷 (Hipparcos) 的结果,这是第一个测量恒星位置、距离和亮度的太空任务。
名单上的其他空间科学论文涵盖了小行星的大小和亮度,以及月球陨石坑的名称(根据谷歌学术搜索,1971 年发表的出版物在科学文献中仅被引用 16 次)。英国剑桥大学的天文学家弗洛尔·范·列文 (Floor van Leeuwen) 撰写了依巴谷研究,他说,这些论文可能被高度引用,因为它们是许多拥有自己的维基百科页面的天体的可靠参考。
维基百科于 2001 年推出,每月浏览量约为 160 亿次,目前是世界上访问量第五大的网站。任何人都可以创建文章或编辑现有文章,但该网站的指南要求作者和编辑必须将引用和信息归因于已出版的来源,例如书籍或学术论文。
Ross Mounce 负责伦敦慈善基金会 Arcadia Fund 的开放获取项目,他对维基媒体数据转储进行了单独分析,揭示了百科全书所有语言版本中被引用次数最多的 10 篇 DOI 文章(请参阅“所有维基百科语言版本”) ')。其中六篇文章是相同的,但第一篇文章明显不同。引用次数最多的 DOI 文章是一篇2007 年的论文,更新了具有百年历史的全球气候分类,该分类的引用次数高达 280 万次,但在英文维基百科上只有 169 次(所有版本中被引用次数第二多的来源仅有 21,000 多条)参考)。
气候研究被大量引用,因为数以百万计的引用来自自动计算机程序创建的页面。据维基百科称,该机器人由瑞典法伦达拉纳大学的物理学家 Sverker Johansson 开发,截至 2014 年 7 月已生成近 300 万篇文章。三分之一的文章是瑞典语,其余是菲律宾使用的两种语言宿务语和瓦雷语。约翰逊说,该机器人已经生成了数百万篇有关城镇和岛屿等地理位置的文章,其中大多数文章都包含有关当地气候类型的信息,这些信息引用了气候研究。他补充说,他没有关于机器人生成的气候论文引用的准确数字,“但大概有 280 万次”。
所有维基百科语言版本:十大学术文章
维基百科所有语言版本中引用次数最多的 10 种 DOI 出版物:
2,830,341 次引用:柯本-盖革气候分类的更新世界地图(2007 年)
21,350 次引用: 使用片段方法预测有机小分子的疏水(亲脂)特性:ALOGP 和 CLOGP 方法的分析(1998)
20,247 次引用: NIH 全长 cDNA 项目的状态、质量和扩展:哺乳动物基因保藏 (MGC) (2004)
5,937 次引用: 超过 15,000 个全长人类和小鼠 cDNA 序列的生成和初步分析(2002 年)
5,854 次引用: Asiago 超新星目录 — 10 年后(1999 年)
4,592 次引用: 新 Hipparcos 减少的验证(2007 年)
4,450 次引用: 小行星带的原始激发和清理(2001)
3,062 次引用: IAU 第 17 委员会工作组关于月球命名的报告(1971 年)
2,587 次引用: 21,243 个全长人类 cDNA 的完整测序和表征(2004 年)
2,525 次引用: 固体行星体分类(2007)
Mounce 指出,其他文章可能在维基百科上被大量引用,但并未通过其 DOI 正式引用,而是通过其他方式引用,例如其 PubMed ID 号。
加州大学伯克利分校策展中心主任约翰·乔达基 (John Chodacki) 表示,如果人们要信任信息,引用非常重要。“对于期刊文章和维基百科页面来说都是如此,”他说。但历史上,仅使用付费服务就可以分析和比较学术论文的引文数据。“最有趣的事情之一是这些信息是可用的。”
参考文献
Chris Stokel-Walker. AI tidies up Wikipedia’s references — and boosts reliability. doi: https://doi.org/10.1038/d41586-023-02894-x
Petroni, F., Broscheit, S., Piktus, A. et al. Improving Wikipedia verifiability with AI. Nat Mach Intell 5, 1142–1148 (2023). https://doi.org/10.1038/s42256-023-00726-1
Giorgia Guglielmi. Wikipedia’s top-cited scholarly articles — revealed. Nature 557, 291-292 (2018) doi: https://doi.org/10.1038/d41586-018-05161-6
评论留言