三个学生开发的学术***软件,成功忽悠了整个学术圈

举报
竹叶青 发表于 2019/10/28 22:49:45 2019/10/28
【摘要】 今天看到一个有意思的新闻,有几个学生搞了一个软件可以自动生成论文,其实生成的论文基本是没法读的,但是他们然后拿去投稿,居然还中了...后来他们又搞了一些事情,真的有点意思,分享给大家看看。只需输入作者名,电脑就能帮你生成一篇“SCI 级别”的计算机论文。摘要、背景介绍、实验结果、图表、讨论以及结论等都一应俱全。世上就是有这等美事。只要你想,一口气就能搞个几百篇计算机论文。尽管 SCIgen ...
今天看到一个有意思的新闻,有几个学生搞了一个软件可以自动生成论文,其实生成的论文基本是没法读的,但是他们然后拿去投稿,居然还中了...后来他们又搞了一些事情,真的有点意思,分享给大家看看。

只需输入作者名,电脑就能帮你生成一篇“SCI 级别”的计算机论文。

摘要、背景介绍、实验结果、图表、讨论以及结论等都一应俱全。


世上就是有这等美事。

只要你想,一口气就能搞个几百篇计算机论文。


尽管 SCIgen 只是一个网页程序,但它产出的论文格式可能比一些本科论文还要规范。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

这是本人用SCIgen自动生成的论文,SCIgen官方网站为https://pdos.csail.mit.edu/archive/scigen/感兴趣的可以自己一试

 

不过也别高兴得太早,到目前为止 AI 还无法取代人类完成科研任务。


别看这些生成的论文有模有样,但根本没有地球人能看得懂。

不是因为太高深,内容纯属是“一本正经地胡说八道”


但这并不要紧,因为在学术界总是会有人上当。

将这些计算机论文,投稿到一些国际学术期刊还会被录用,极具讽刺意味


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

SCIgen界面

学术出版界也是个江湖,同样鱼龙混杂。

并不是所有人,都奔着证明自己或是发现真正有价值的东西而来。


而 SCIgen 这个程序的诞生,就是为了戏耍学术界的那些“野鸡期刊”。

这些只以盈利为目的的野鸡期刊也叫掠夺性期刊(Predatory journals

),学术质量与信誉都很低。


他们的日常就是疯狂地给科研人员发送垃圾邮件,以“征集论文”之名吸引那些没有发表经验的学者上当。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


一般来说在论文发表前,学术刊物主编会邀请专业领域内有一定造诣的同行学者,评议论文的质量。


这也叫同行评议,刊物会按评议结果决定是否发表。

但掠夺性期刊,只要钱到位他们都能安排论文的发表,连审都不用审。


因为日常不堪骚扰,麻省理工学院(MIT)计算机科学与人工智能实验的几个学生就看不过去了。

2005年,Dan Aguayo、Max Krohn 和 Jeremy Stribling三人,决定向这种”水”得不行的期刊和会议宣战。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

从左到右分别为Dan Aguayo、Max Krohn和Jeremy Stribling


那时已临近学期末,但这 MIT 三剑客还是花了一两星期去开发这个小程序。


SCIgen 的原理很简单,有些类似于填词游戏

学术论文的格式是非常相似的,它本身就充满了专业词汇和固定的句式。


而 SCIgen 则能够从固定的词库中,随机抽取出这类计算机领域内的专业术语,以符合语法的方式生成文本。

再加上一些漂亮的图表和详细的参考文献等,就能骗过不少外行。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

SCIgen生成的论文中带有的图表


但这个软件真没多厉害,内行人一看就知道全文是在“胡说八道”。

要怪,就怪一些期刊和会议灌水得太过分了。


不出所料,他们第一篇自动生成的论文就攻破了 WMSCI(World Multiconference on Systemics, Cybernetics and Informatics)会议的防线。


这篇论文名为《Rooter:处理接入点与冗余的典型合一方法》,看似高大上其实内容根本不知所云。

而 WMSCI 会议,不但接受了这篇假论文,还邀请作者出席会议作报告。

 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


这下可高兴坏了 MIT 三剑客。


毕竟在这之前,他们就听说 WMSCI 会议以接受水货著称,但没真想到他们居然这么水。

于是,他们便把 SCIgen 攻陷 WMSCI 的事情经过发到网上。


一波嘲讽下来,这在科研圈立马引起了广泛的关注。

毕竟大家早就看不惯这些掠夺性期刊和会议。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


这下 WMSCI 会议是颜面扫地,立马撤回了对他们团队的邀请。

不过,失去报告资格,这三剑客反倒来了兴致。


利用在网络上众筹来的 2500 美金,他们决定将恶作剧升级,搞一波大的。


这三人,长途跋涉地在同一天赶往了会议所在的佛罗里达州奥兰多市。

就在大会举办的同一地点,他们租了一块场地,用“假身份”开了一场属于自己的“分会场”。


640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1

“假会议”现场,该有的都有


想要伪装一场学术会议并不难,和论文灌水一样只要有钱就够了。

而报告内容用 SCIgen 就能无限生成,这种垃圾想要多少就有多少。


除此之外,他们还置办了一批假的宣传海报、假名片、假胡子和假发等。

反正,这场学术会议的一切都是假的。


但这并不妨碍有人上当,当时来听他们装模作样演讲的人还不少。

如果不明真相,或许这些人到现在都仍以为自己是在听 WMSCI 的报告。

 

640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1

演讲现场,图中为戴着假发的Jeremy Stribling


但这场闹剧,并没有随着这场假学术会议的结束而收场。


刚开始,只是 IEEE 撤销了对 WMSCI 会议的资助。

到后来,越来越多人开始使用 SCIgen 产出的“***文”在其他学术期刊“试水”。


现阶段,这三位 SCIgen 元老已步入职场,深藏功与名。

而他们留下的这款软件,则将学术界搅得天翻地覆。


640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1


例如,德国的学生利用这款神器,就攻下了 2008 年和 2009 年在中国武汉举办的两个 IEEE 国际会议。


当时,Schlangemann 教授就被当成知名学者,还被邀请作为会议的主持人出席。


但 Schlangemann 教授并非真有其人,他只是一个由这位学生创造的虚拟角色。

而这个名字,则源于一部名为 Der Schlangemann 的德国电影。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

Schlangemann 教授还有虚拟的个人网站,感兴趣可以自行搜索 Der Schlangemann 的形象,比想象中还要讽刺


现在 SCIgen 的访问量依然惊人。每年的浏览量仍超过 60 万次,无数***文在源源不断地产出。

这导致了这个页面,隔几个月就要崩溃一回。


2013年,法国格勒诺布尔大学的研究员 Cyril Labbé 就透露了一个令人不安的事实。

他在 IEEE 和 Springer 出版公司旗下的期刊中,就发现了超过 120 篇 SCIgen生成的诈文。

 

640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1


对于自己是否已彻底排查出所有乱入的伪论文,Labbé 自己心里也没底。


因为他本人也无法从有限的订阅源内下载所有的论文。

这也是学术出版商常常遭到诟病的一点。


想在期刊上发论文需要收取高昂的版面费,但想在上面下载论文则又要付另外一笔费用。

就算是作者本人在学术期刊上发表的论文,想要下载都不能例外,一律收费。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


而除了期刊的审核不严格,Labbé 还揭示了另一个漏洞。

那就是,利用 SCIgen 这类垃圾论文软件,竟可以给自己狂刷 h 指数(H index)


一名科研人员的 h 指数,是指他至少有h篇论文被引用了至少 h 次

这是评价个人学术成就的一个新方法。


例如,某人的 h 指数是 20,这表示他已发表的论文中,每篇被引用了至少 20 次的论文总共有 20 篇。

但所谓的 H 指数,在 SCIgen 的捣乱下就无法起效了。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


当时,Labbé 就以“IKE ANTKARE”作为作者名(注意,IKE ANTKARE 这人并不存在),用 SCIgen 生成了102篇垃圾论文。


这让 IKE ANTKARE 在谷歌学术中的 h 指数,一下子飙升到了 94。

他还一度挤进了计算机科学领域科学家中h指数排名的前六。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


当然,为了让 h 指数变高,他也用了一点小技巧。

这 100 篇假论文中,每篇都会对所有作者名为 IKE ANTKARE 的假论文进行引用。


而为了让谷歌学术能够对这100篇论文进行索引,Labbé 还在参考文献中加入了唯一一篇真实的,已被谷歌学术索引的论文。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


“我自己引用自己”,就这样 IKE ANTKARE 凭一己之力就成了学术界冉冉升起的新星。

这一虚拟人物的 h 指数,甚至比爱因斯坦还要高。


当然,IKE ANTKARE 这颗学术新星陨落得也很快。

因为 Labbé 已经将自己的一系列骚操作写成论文,对世人公开了 IKE ANTKARE 的虚拟身份。


随后谷歌学术,就对 IKE ANTKARE 进行了封杀并删除了他的论文。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

Cyril Labbé本人

因为一些知名学术期刊,会对这些计算机生成的诈文照单全收。

那么,我们就有理由相信一些作者会把 SCIgen 当作赚钱的工具。


于是,为了揪出这些混入科学期刊的诈文,Labbé 就与 Springer 合作特意开发了一款针对 SCIgen 的软件——SciDetect

这款开源软件,能够自动检测出哪些是由 SCIgen 生成的假论文。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


但在这之后,SCIgen 的创始人之一 Stribling 是这样评价此事的。

“他们开发了一个新程序,而不是制定更好的政策让所有被接受的论文有更好的评审过程,这事本身就挺搞笑的”。


事实上,SciDetect 的作用并不大,想要绕开这个程序的检测并不难。

Stribling 表示,如果这是一场军备竞赛,他敢打赌再次骗过 SciDetect 只是时间的问题。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


事实上,学术***从上个世纪就已经存在了。

早在 1996 年,量子物理学家艾伦·索卡尔(Alan Sokal)撰写的一篇科学诈文,就引起了一场“科学大战”


他将一篇充满了常识性错误的论文,投稿至著名的文化研究杂志《社会文本》。

标题为《超越界限:走向量子引力的超形式的解释学》。


结果《社会文本》的五位主编,都没有发现这是一篇诈文,还一致通过将文章发表。

东窗事发,这立即触发了一场席卷全球的科学大论战,世界众多著名的媒体都参与其中。



640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

艾伦·索卡尔


相比 SCIgen,艾伦·索卡尔还是比较有诚意的。

尽管内容还是一本正经地胡说八道,但论文毕竟还是他自己亲手炮制的。


他将量子物理学中的术语、后现代主义领军人物的术语,还有他自己捏造词句糅合在了一起。

于是便得到了一篇毫无学术内涵,但又充满“后现代”风格的诈文。


而作为学术***的鼻祖,之后的学术***事件都被称为“索卡尔的平方”

那么学术***,何时能消失?很简单,只有鱼儿不上钩,***就会自动失去意义。


*参考资料

Adam Conner-Simons.How three MIT students fooled the world of scientific journals.MIT News.2015

Jerrusalem.“三傻”大闹科研坞:我们怎么钓出了那些水货?.果壳网专访.2015

李慧翔.给我一篇假论文,我能骗倒半个地球.南方周末.2013

John Bohannon.Hoax-detecting software spots fake papers.Science.2015

CYRIL LABBÉ.One of the great stars in the scientific firmament. ISSI NEWSLETTER.201

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

转载声明:本文转载自公众号【进击的Coder】。

原文链接:https://mp.weixin.qq.com/s/OuiTPsy9x-WG__fFORLzng

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。