- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

再续：网络爬虫的法律边界和数据风险

孔皮皮发表于 2019/09/03 16:50:42 2019/09/03

【摘要】上一篇《网络爬虫的法律边界》引起了讨论和争议，不少朋友问我，本篇试着再阐述一下。一些缘由和细节可以看上文，本篇接着上文说。数据抓取的门槛越来越低，会点程序，或使用网络工具都可以薅点数据，新入行了不少爬虫选手，但是对抓取使用数据的法律风险可能缺少认识。尤其是从去年的《网络安全法》实施开始，被新闻公开报道的相关法律诉讼已有好几起。有人会争议互联网本质是鼓励分享，很多UGC的网站内容还是用户贡献的...

上一篇《网络爬虫的法律边界》引起了讨论和争议，不少朋友问我，本篇试着再阐述一下。一些缘由和细节可以看上文，本篇接着上文说。

数据抓取的门槛越来越低，会点程序，或使用网络工具都可以薅点数据，新入行了不少爬虫选手，但是对抓取使用数据的法律风险可能缺少认识。尤其是从去年的《网络安全法》实施开始，被新闻公开报道的相关法律诉讼已有好几起。

有人会争议互联网本质是鼓励分享，很多UGC的网站内容还是用户贡献的，网络公开数据应该都可以使用。

我也希望是这样，但现实不是这样。

所以抓取数据前你最好看下被抓取对象的知识产权申明，如果你是公司职员也关心下公司让你抓取数据的用途，多少了解下潜在风险。

以下是几个典型的爬虫选手爱光顾的网站知识产权申明。

经常抓点评数据的小哥们看下，上述是点评网的知识产权申明：用户发布的商店点评，评论，图片知识产权属于大众点评，未经许可，任何使用都是非法。

上述是微博的申明，未经书面许可，任何抓取微博内容都是非法抓取。爬虫老哥们有哪一个没抓过微博的？

上述是穷游网的知识产品申明，用户发布的旅游攻略所有权是穷游网的。

上述是比较典型的几个UGC网站，做点评的，做社交的，做攻略的。创业公司数据冷启动时，有几个没有抓过他们家的数据？

这个潜在风险是存在的，就看你有没被对方顶上。

以下是几个法院判决案例：

大众点评诉讼百度地图非法使用点评数据，百度败诉，赔钱。

来自网易新闻

酷米客状告车来了非法抓取他家的公交信息，车来了败诉，车来了老板被三年刑期缓刑。

来自金融界百家号

新三板上市公司“数据堂”，公司业务是数据标注和数据交易，他家也是大量抓取数据。后涉嫌倒卖用户数据，公司高管被起诉。

从上面可以看出:

大公司斗法输了赔钱，小公司输了是人身自由。

还是那句，爬虫有风险，开爬要谨慎。

什么样的行为容易踩雷：

双方业务是竞争关系，比如：上述酷米客和车来了都是提供公交信息查询。
有商业利益关系。比如：上述点评网和百度地图。
涉及用户隐私。
你的爬虫扰乱了对方的业务，遭对方狠，比如前一篇所讲的刷搜索引擎排名。

法院的定罪依据条例有哪些：

《刑法》第285条，非法获取计算机信息系统数据罪。
最高处七年有期徒刑。比如上述车来了案例。
《刑法》第286条，破坏计算机信息系统罪。
最高处五年以上。比如为了抓取数据，破解登陆密码，反编译APP。
《网络安全法》，倒卖隐私数据链条上的一环。
你把抓取的数据倒卖给坏人，坏人拿数据做了坏事，你就是这其中一环。

以下是一些引起争议的话题，我以问答对的形式展开。

问：百度，谷歌是世界最大的爬虫工厂，他们为什么没遭殃呢？

答：这涉及商业利益，用户在搜索引擎点击链接后，流量会引回被抓取网站，某方面来说是一个双赢。对方没被必要去搞百度。

谷歌在欧洲其实遇到了一些问题，欧洲一些新闻媒体认为谷歌抓取他们的内容，谷歌应该向他们支付费用。

今日头条之前把抓取的新闻内容留在自己网站上，而不是跳转回对方网站，这其实是违法的，所以也遭遇了十几起的诉讼，这主要还是商业利益问题。现在内容创业你抓取的内容，最好只提供摘要，全文链接要跳回对方网站。

问：公司让我抓的，跟我没关系？

答：错！上图。

《刑法》第285条解释，对公司处罚金，直接主管和直接人员也game over。

所以公司的损失是钱，你和项目主管的损失可能是人身自由。

问：互联网是公开的，UGC内容为什么不能用？

答：上面说UGC网站的知识产权已经申明清楚了，而我们在注册这些网站账号时，你也就默认认可了这个协议，这是受法律认可的。

问：robots.txt能限制爬虫吗？

答：不能。那只是一个不成文的约定，一没有法律效应，二也没有强制作用。道德感强点的也许会遵守robots.txt规定。就算你在robots.txt里写明了不允许搜索引擎爬虫抓取，搜索公司照样若如无人之地来光顾你的网站。

而且，现在一些搜索公司的爬虫已经不会把user-agent都写成Spider字样了，有的user-agent都是正常浏览器的头信息，有兴趣的，可以看下你家网站web服务器的访问日志IP记录。

问：提供爬虫工具的有风险吗？

答：有！上图。

还是《刑法》第285条，提供工具的，一样有上述风险。比如网络上某某爬虫软件，可以直接帮助抓取很多网站数据，万一使用数据的人干出惊天大案，这有连带责任。

但上述都是商业公司的商业竞争行为，相互斗法，个人爬虫爱好者的风险较小。但随着数据安全，网络安全，用户隐私方面的法律越来越健全，很容易踩雷。

但你要遵守一个规则：小爬怡情，大爬over。

还是那句：不要直接商用抓取的数据，不要涉及用户隐私数据，

在老板让你抓数据前，先把这篇文章留给他看下。

注：所写文章的初衷是希望爬虫选手们了解抓取和运用数据的潜在风险。

注：若你涉及相关上述法律问题，请咨询专业的知识产权律师，上文不是专业建议。

本文转载自异步社区。

原文链接：https://www.epubit.com/articleDetails?id=N46fd281d-a772-48de-a642-22fd9edc279a

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

再续：网络爬虫的法律边界和数据风险

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

再续：网络爬虫的法律边界和数据风险

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品