介绍一个工具,能够检测一段内容是否通过 AI 工具生成

举报
Jerry Wang 发表于 2024/05/05 21:27:18 2024/05/05
【摘要】 随着 AI 工具的普及,越来越多的写作者,开始使用 AI 来辅助创作了。不同的内容创作平台,对于 AI 辅助的内容创作,态度可能略有差异,但有一点是共通的,就是这些平台,都不欢迎纯粹基于 AI 生成的内容。我日常写作使用的一个工具,叫做 CopyLeaks,能帮助检测一段内容是否由 AI 生成。我们可以直接在 Google 上根据关键字,CopyLeaks 进行搜索,找到这个工具的官网。使用...

随着 AI 工具的普及,越来越多的写作者,开始使用 AI 来辅助创作了。

不同的内容创作平台,对于 AI 辅助的内容创作,态度可能略有差异,但有一点是共通的,就是这些平台,都不欢迎纯粹基于 AI 生成的内容。

我日常写作使用的一个工具,叫做 CopyLeaks,能帮助检测一段内容是否由 AI 生成。

我们可以直接在 Google 上根据关键字,CopyLeaks 进行搜索,找到这个工具的官网。

使用很方便,打开网页后,点击 My Scans,能看到当前登录用户过去的历史扫描结果。

比如下图高亮的内容,意思是 Sample-report.pdf 这个文件内的内容,有 43% 内容疑似 AI 生成,有 44% 内容同互联网上已有内容完全一致。

双击 Sample-report.pdf, 能看到扫描明细。比如紫色高亮的文字,就是 CopyLeaks 检测出来疑似 AI 生成的内容。而右侧 Matching Text Results 区域,显示的则是 PDF 里同互联网一致内容的原始出处。

新建一个 Scan 也比较容易,点击 New Scans 按钮,选择要扫描的内容载体。比如我们选择 Text,然后直接把要扫描的文本内容,拷贝进网页,点击 Scan 即可。

扫描之前可以进行一些定制化设置,比如在扫描 AI 内容时,是否同时开启 Plagiarism Detection 即剽窃检测(下图图例1)。如果开启剽窃检测,那么 Online Sources 必须也保持开启状态,这样才能将用户指定内容,同互联网上的内容进行比对。

对于学术论文领域,作者可能会引用一些其他的论文或者权威文献,这些引用内容,可以在 Omit Settings 里进行配置,以免误伤。

Internal Database 则是将用户指定内容,同 CopyLeaks 本身内部数据库里其他用户提交的内容进行比对,从而提高内容检测的准确性。

对于像笔者这样的英语非母语写作者来说,在这个 AI 辅助写作泛滥的年代,一个苦恼就是,自己的英文文章会被 AI 检测工具判定为部分内容是通过 AI 生成的,有点尴尬。

比如有研究人员,从国内某教育论坛上获取了 91 篇托福作文,又从美国 Hewlett 基金会的数据集中,抽取了 88 篇美国八年级学生写的作文,用 7 个流行的 AI 内容检测工具进行扫描。

结果如下,棕色条状图例,代表中国考生写的托福作文,被工具识别为 AI 生成内容的误判率,可以看到这个误判率太高了,最少的也接近 50%,而美国八年级学生的作文,这些母语写作者的文章,被工具误判的几率则小得多,最高的误判率也才 12%.

所以国内不少留学生在论坛上吐槽,抱怨这些 AI 内容检测器,应该多看一些非英语母语写作者的文字,样本多了,才能消除偏见。

我目前也在不断和一些同行交流,如何优化 ChatGPT 的 Prompt,使其生成的内容,能逃过这些 AI 检测工具的扫描。人工修改和润色当然是一种方法,但我太懒了,不愿意花时间去做这件事。

大家如果有类似的需求,欢迎私下和我交流。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。