为对该系统展开测试,Petroni 及其同事运用 SIDE 去建议此前从未见过的维基百科特色文章的参考文献,在将近 50% 的情形下,SIDE 的首选参考文献已在文章里被引用,对于其他人而言,它寻觅到了替代参考。
向一组维基百科用户展示 SIDE 的结果时,21% 的人更倾向于人工智能找到的引文,10% 的人更青睐现有的引文,39% 的人并无偏好。
计算通信科学家Aleksandra Urman,乃是来自瑞士苏黎世大学,其表示,那个工具能够节省编辑以及版主去检查维基百科条目准确性所花费的时间,不过这得要是部署得正确才行。她说,该系统在标记那些有可能不合适的引文方面,或许会是有用的。但话又说回来,问题实际上是维基百科社区能够发现什么是最为有用的。
Urman表明,对SIDE系统进行测试的维基百科用户,存在这样一种情况,即不喜欢任何参考文献的可能性,是喜欢人工智能所给出建议的参考文献的可能性的两倍呢 “这就意味着在这些情形之下,他们依旧会前往网络上去寻觅相关的引文,”她如此说道。
维基百科被引用最多的学术文章
被引用最多的期刊文章在维基百科上,其中涵盖有关月球陨石坑名称的论文,还有涉及人类和小鼠基因DNA序列的论文,许多最受欢迎的作品在科学文献中的引用次数比不上在在线百科全书中的引用次数,是这样的情况。
马特·米勒,纽约市的数据科学家兼图书馆员,说道:“令人难以置信的是,几乎所有被高引用的文章都是科学文章。”米勒分析了引文数据,该数据由维基媒体基金会三月份发布,维基媒体基金会是一家位于加利福尼亚州旧金山的非营利组织,负责运营维基百科。约 1570 万条记录含在该数据集中,这些记录表明了维基百科近 300 种语言版本里引用 ISBN 及 DOI 等正式标识符来源的次数,维基媒体称。维基百科上标识符引用的多数出版物是书籍,然而米勒专门针对英文版维基百科上带有 DOI 的出版物数量展开了研究。他的数据集有 120 万条使用 DOI 的引用,引用数目超过 835,000 篇独特文章。
引用次数居于最多的那篇论文,是在2002年所收集的,那是超过15,000个人类以及小鼠基因序列的集合,它在英语维基百科里被引用了4,702次,这里要参见“英语维基百科”。引用该研究的维基百科页面,几乎全都是有关单个基因或者蛋白质的条目。“这是一个惊喜,”说出这话的是领导该项目的癌症研究人员,这位人员是现任纽约市路德维希癌症研究所副科学主任的罗伯特·施特劳斯伯格 (Robert Strausberg)。
英文维基百科:十大学术文章
英语维基百科上引用次数最多的十种 DOI 出版物:
第4,702次引用:在(2002年),生成以及初步分析了超过15,000个全长人类和小鼠cDNA序列。
第3387次引用,关于NIH全长cDNA项目的状态,以及质量,还有扩展情况,涉及哺乳动物基因保藏,即MGC内容,时间是2004年。
2895次引用:新的Hipparcos,减少了验证,在2007年。
在2004年,有着2,212次引用,内容是对21,243个全长人类cDNA进行完整测序以及表征。
其中,1,452次出现引用情况,所引用的是国际天文学联合会第17委员会工作组关于月球命名的报告,该报告时间为1971年。
引用次数为一千二百九十七次:寡核糖核苷酸帽结构置换法,这是一种针对真核信使核糖核酸帽结构,采用寡核糖核苷酸予以取代的简便方式,时间为一九九四年。
2005年,有1,294次引用,涉及绘制人类蛋白质和蛋白质相互作用网络的蛋白质组规模图。
有1,251次引用,内容是关于全长富集以及5'端富集的cDNA文库的构建,还有对其的表征,时间是1997年。
有 931 次引用,其内容是关于 Pan - STARRS PS1 观测到的 250,000 个小行星的绝对星等以及斜率参数,这是初步结果,时间为 2015 年。
对小行星进行分光光度分类的 NEOWISE 研究,有 878 次引用,其呈现了初步结果,时间为 2011 年。
发表于2004年的该基因集的扩展版本 ,是被引用次数为第二多的文章 ,它有约3400条参考文献。相比之下 ,根据Google Scholar ,它在科学文献中被引用了487次。马里兰州贝塞斯达美国国家癌症研究所的癌症遗传学家 、该论文的合著者Daniela Gerhard表示 ,这些出版物可能被如此频繁地引用 ,原因是它们提供了有关表达基因序列的可获取信息。

总共,前十名里有五篇文章是关于DNA目录的,其中一篇研究详细介绍了生成这类集合的方法。2005年绘制的近3000种人类蛋白质相互作用图也在其中,排第七名。(维基媒体的原始帖子注释:“毫不奇怪,维基百科喜欢参考书。”)
列表的其余部分由天文学文章构成,这些文章一共有四篇。引用次数排第三的论文是2007年的一项研究,它被近3,000个英文维基百科页面引用,这项研究助力研究人员解释了依巴谷(Hipparcos)的结果,依巴谷是首个测量恒星位置、距离以及亮度的太空任务。
名单里的别的空间科学相关论文,涉及到小行星的尺寸与亮度,还有月球陨石坑的名字,按照谷歌学术搜索,1971年发布的出版物在科学文献里仅被引用16次。英国剑桥大学的天文学家弗洛尔·范·列文撰写了依巴谷研究,他讲,这些论文也许会被大量引用,原因是它们是诸多有自己维基百科页面的天体的可靠参照。
于2001年推出的维基百科,每月大概有着约160亿次的浏览量,它目前是世界上访问量排第五大的网站。任何人能够创建文章也能够编辑现有的文章,但其网站的指南规定作者以及编辑必须要把引用和信息归源于那些已出版的来源,像是书籍或者学术论文这样的。
Ross Mounce 承担着伦敦慈善基金会 Arcadia Fund 的开放获取项目工作,他针对维基媒体数据转储开展了单独分析,此分析揭示出在百科全书所有语言版本里被引用次数位居前列的 10 篇 DOI 文章(可查看“所有维基百科语言版本”),其中有六篇文章是一样的,然而第一篇文章显著不同。被引用次数最为频繁的 DOI 文章,是一篇刊于 2007 年的论文,此论文对有着百年历史的全球气候分类予以了更新,该分类的引用次数多达 280 万次,可是在英文维基百科上仅有 169 次(在所有版本里被引用次数排第二多的来源也才只有 21,000 多条参考)。
气候研究得以被大量引用,缘至于那数以百万计的引用源自自动计算机程序所创建的页面。按照维基百科的说法来讲,那个机器人是经由瑞典法伦达拉纳大学的物理学家Sverker Johansson予以开发的,截止到2014年7月的时候已然生成了将近300万篇文章。其中三分之一的文章的语言是瑞典语,而其余的文章所使用的语言则是菲律宾所使用的两种语言宿务语以及瓦雷语。约翰逊讲,那个机器人产出了几百万篇涉及城镇以及岛屿等地理位置的文章,其中大部分文章涵盖了有关当地气候类型的信息,这些信息引用了气候研究。他还补充道,他没有机器人生成的气候论文引用的精确数字,“但大概有280万次”。
所有维基百科语言版本:十大学术文章
维基百科各个语言版本里,被引用次数处于最多之列的,10种DOI出版物:
世界地图,柯本 - 盖革气候分类的更新版,在 2007 年,遭受到了 2,830,341 次引用。
21350次引用,采用片段方法预测有机小分子的疏水亲脂特性,对ALOGP和CLOGP方法展开分析,时间为 1998年。
20247次对NIH全长cDNA项目的状态、质量以及扩展进行引用:哺乳动物基因保藏(MGC),(2004)。
5,937次被引用,涉及超过15,000个全长人类以及小鼠的cDNA序列被生成,还有对其进行的初步分析,时间是2002年。
5854次被参考引用,涉及,Asiago超新星目录,在10年之后,也就是1999年。
引用次数为4,592次,关于新Hipparcos减少的验证,时间是2007年。
4,450 次引用: 小行星带的原始激发和清理(2001)
3062次被引用,是IAU第17委员会工作组关于月球命名的报告(1971年),有这样的情况。
具有2,587次引用的:针对21,243个全长人类cDNA所开展的完整测序以及表征(时间为2004年)。
2,525 次引用: 固体行星体分类(2007)
Mounce有所指明,别的文章也许于维基百科之上被大量引用,然而并非借助其DOI进行正式引用,而是经由其他途径进行引用,像是其PubMed ID号这般。
约翰·乔达基 (John Chodacki) 为加州大学伯克利分校策展中心主任,他说如果人们要信任信息那么引用极重要,他说期刊文章和维基百科页面皆是如此,然而从历史角度看仅借助付费服务方可对学术论文的引文数据进行分析与比较,他还说最有趣的事情当中有一件便是这些信息是可获取的。