编者按:本文来自微信公众号“新智元”(ID:AI_era),来源:林墨(ID:linmo_wx),编辑:克雷格;36氪经授权转载。
谷歌学术、百度学术等学术搜索引擎以收录范围广泛、免费访问等优势逐渐抢占了学术文献全文的入口,这一点让web of science和Scopus等数据库商紧张不已。
收录范围广便能够建立更庞大的引文网络,因此,谷歌学术、百度学术等学术搜索引擎收录的文献的被引次数更高,所以,一些学者在委托图书馆出具引文报告时,希望以谷歌学术的被引次数为依据,作为自己论文影响力的佐证。
但是,学术搜索引擎中随意的数据给造假提供了极大的空间。
辛辛苦苦几十年,不如一键生成?
格勒诺布尔大学的CYRIL LABBE教授利用MIT研究人员发明的SCIgen,以“IKE ANTKARE”作为作者名(注意哦,作者并非真实存在),自动生成了102篇科研论文,让IKE ANTKARE在谷歌学术中的h指数一下飙升到了94,成为计算机科学领域科学家H指数排名第6的学者。
下图显示了该研究中使用的工具SCIgen,只要在SCIgen网页上的作者栏中输入作者名,程序就可以自动生成一篇拥有完整结构的computer science论文,包括Titles, authors, sections, bibliography, graphs, figures等等。
注:SCIgen 论文生成器
请看用SCIgen 论文生成器自动生成了一篇我的论文,是不是挺吓人?
注:SCIgen 论文生成器自动生成的论文
如何让谷歌学术收录自动生成的论文?
注:图片来源于参考文献中的论文(伪造论文的引用关系)
为了让谷歌学术能够对这100篇论文进行索引,CYRIL LABBE在这100篇伪造论文的参考文献中加入了1篇真实的已被谷歌学术索引的论文,然后将这100篇论文上传到网上。不久,IKE ANTKARE的h指数就已经飙升到了94,甚至高于爱因斯坦的h指数84。
目前,谷歌学术已经对这批论文进行了处理,但是在百度学术中,仍能看到这些用软件生成的论文及其被引频次。
注:你可能引用了百度学术中的虚假论文
从这个案例中我们可以看到,数据随意的学术搜索引擎,很容易被人为操纵,因此不宜使用其引文数据作为学术评价的数据源。
参考文献:LABBÉ, C. (2018). One of the great stars in the scientific firmament. ISSI NEWSLETTER, 6(2), 48-52.