法律实务——爬虫业务的合规管理和风险管控

举报
虞元坚律师 发表于 2021/01/26 11:19:00 2021/01/26
【摘要】 爬虫业务应该在大数据的时代背景下,越来越应用广泛,各大厂商一方面增强了自身业务的技术反爬,另一方面同时也在哼哧哼哧地爬着各种的数据源。对大厂的爬虫业务部门来说,风险有所保障,毕竟是地头纳税大户,政商关系良好,自身也有法务把关,很难出现重大的风险。但是对小公司或者小作坊甚至是个体户,情况就不那么乐观了。根据笔者近几个月接受咨询的情况来看,公安根据报案人提供的线索抓人的情况不少,虽然大部分“嫌疑...

爬虫业务应该在大数据的时代背景下,越来越应用广泛,各大厂商一方面增强了自身业务的技术反爬,另一方面同时也在哼哧哼哧地爬着各种的数据源。对大厂的爬虫业务部门来说,风险有所保障,毕竟是地头纳税大户,政商关系良好,自身也有法务把关,很难出现重大的风险。但是对小公司或者小作坊甚至是个体户,情况就不那么乐观了。

根据笔者近几个月接受咨询的情况来看,公安根据报案人提供的线索抓人的情况不少,虽然大部分“嫌疑人”都获得了取保候审,但另一方面也反映出,许多被爬大厂的容忍度在降低,意图直接通过刑事手段来斩断虫源。

那么为什么大厂偏爱刑事手段,而非民事司法途径解决问题呢?简而言之就两个字——“效率”。民事途径追究爬虫责任的难点在于:

  1. 取证困难。许多爬虫使用代理等途径,即使不使用代理,企业也很难通过IP找到侵权责任人,而且侵权行为很难固定;
  2. 司法周期漫长。即使有幸找到了侵权责任人,也固定到了证据,司法周期的漫长和低效,也会极大影响追责的意义。
  3. 经济效益低。从经济的角度来看,通过民事途径,不仅耗时耗力,诉讼费律师费及其他差旅等杂项也是大笔费用,但是最终法院能判决的侵权责任人承担的费用或侵权责任人有能力承担的费用,非常不乐观。

基于以上几个理由,大部分企业,对爬虫行为只能听之任之。但是对于一些脾气不太好的大厂来说,最不缺少的就是政府资源,毕竟还有什么比国家机器解决问题更快呢?

以上就是笔者习惯性正题前的啰嗦,作为一个精通法律和技术的法律行业从业者,今天笔者,就好好讲一讲,如何合规使用爬虫业务,避免法律风险,尤其是刑事风险。


一、侵犯公民个人信息罪。

最重要的先说,不要触碰公民个人信息及隐私信息。即使是因为被爬网站管理不善造成该信息直接显示在前端的,也不要主动去获取。如果意外获取的,也不要主动去使用,建议进行删除。在知情的情况下主动进行存储,也有可能构成犯罪。

主要罪名:侵犯公民个人信息罪。情节严重者,可判刑3年以下。特别严重者,可判3-7年。需要注意的是《网络安全法》对个人信息的定义:个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

注意《网络安全法》的用词是“包括但不限于”,笔者认为个人信息的范畴还包括:

  • 通信信息、聊天内容
  • 有个人信息元素标识且未公开的照片
  • 电子凭证(用户的唯一电子标识码、密钥等)
  • 财产信息元素(房产、汽车等可以做登记的财产信息)
  • 其他能与个人联系的信息元素

二、著作权侵权与犯罪

版权领域的侵权与涉罪也是程序猿朋友们经常涉及到的问题。根据《中华人民共和国刑法》第二百一十七条规定,侵犯著作权罪,是指以营利为目的,未经著作权人许可复制发行其文字、音像、计算机软件等作品,出版他人享有独占出版权的图书,未经制作者许可复制发行其制作的音像制品,制作、展览假冒他人署名的美术作品,违法所得数额较大或者有其他严重情节的行为。

因此,如果爬取了有版权的信息或者内容,并加以出售的话 ,是可能涉及犯罪的。常见的版权内容有文章、图片、音乐、游戏、动漫等等。

许多程序猿说,我只爬,我不用,不违法吧。其实是错误的。《著作权法》规定了未经著作权人许可复制,也是侵权行为。只不过这种侵权行为,不一定构成侵犯著作权罪,看到这里,不要觉得长吁口气,还有一个罪名可以套上去,作为补充。也就是接下来提到的:

三、非法获取计算机信息系统数据罪 ,非法侵入计算机信息系统罪,提供侵入、非法控制计算机信息系统程序、工具罪

严格来讲,这些个罪名应该都是黑客技术犯罪,而爬虫技术,并不是一个需要获取到计算机系统权限的技术。但是实践当中,仍然有部分地区法院以此作为罪名判决。笔者认为主要原因,是法律人士知识结构的不同,造成无法从技术角度进行罪名精准解析。更有甚者以破坏计算机系统罪来定罪,笔者认为是不妥的。但是作为爬虫从业者,仍然要警惕这种风险。

那么如何规避涉及这些罪名呢?笔者认为爬虫技术的技术方案的采用,也非常的重要。相比于侵犯公民个人信息犯罪和知识产权犯罪,不需要考虑爬虫技术手段细节之外,其余的爬虫如果想规避刑事风险,对技术手段的采用,也是需要研究的哦。因为目前几乎所有的大厂都会做反爬虫措施,而中高级爬虫技术的关键就在于,是如何绕过反爬虫技术从而实现自己的目的。这些中高级爬虫技术的运用,往往会被“认为”或“误认为”的一种入侵计算机系统的行为,虽然可能打不着边。但谨慎起见,笔者还是给出以下几点建议:

1、对非密集型数据采集,尽量使用浏览器运行环境模拟框架。大部分的反爬,其实都是通过JS技术来进行反扒,使用浏览器运行环境模拟的方式,不需要编写解密或者反向函数,以免落人口实。

2、有条件的情况下,使用自身的UA,本身UA不像固定IP,不是一种稀缺资源,一个浏览器就个一个UA,安装10个浏览器就有10个UA了。在今日头条爬虫案件当中,检察院和法院,就以伪造UA作为定罪证据。

3、相比于UA,使用代理,我并不认为是违法行为。但依然会有可能被认为是非法绕过防护行为。所以有条件的情况下,对非密集型数据采集行为,能不用代理就不用。

4、制作文档。这里的文档,不是仅指技术文档,而是合规使用文档。一种常见的场景是,爬取信息的行为不违反,下游使用却违法,尤其是代第三方开发软件的时候,最好和其有书面的书面文档或和其在合同中进行合规性约定。 有条件的公司,可以在法务的帮助下,制作业务文档。这是风险隔离的重要一步。否则下游涉罪,上游说不清的情况下,很可能被认定为是共犯!

5、区分被爬网站内容是否是限制公开的信息。如果网站内容明显为具有版权的内容,大量爬取风险较大。还有一部分是,在网页上其实是不公开的,但是在接口中其实是显示的,或进行混淆的,比如仅针对付费会员开放的内容,但是网站管理者一样将内容输出到了前端(虽然这种方式不专业),这种情况下,也是风险比较大的,通过直接破解接口参数或通过解密反混淆获取这部分内容,有可能涉罪。

6、定期对数据库或存储服务器中存储的数据进行筛查和管理。有时候爬虫行为就算获得了授权,但是超期存储、二次使用,一样会有风险,更别说大部分爬虫行为根本提不上有授权或者允许。不怕一万就怕万一,万一哪天公安上门将你服务器作为证据固定,发现里面还有一大堆乱七八糟的爬来的数据,公安是可以并案处理的。

7、提升法律意识,不要认为爬什么都不违法,也不要以为爬什么都违法。区分违法与犯罪,犯罪与非罪的区别。如果万一被诉或抓了之后,要知道自己是否侵权或涉罪,并作出正确的应对。有条件的,聘请法律顾问,或在涉罪后聘请有技术背景的辩护律师进行辩,最好不要找一点不懂技术的,大概率最终都是无效辩护。

请程序员记住,许多爬虫涉案情况,公检法与程序员对技术的理解并不是对称的,所以掌握一定的法律知识,懂得从技术角度去给自己辩护非常重要。否则一到看守所,在那个压力环境下,很有可能明明不涉罪却直接就认罪了。初具规模的公司,一定要配备懂技术的法律人士进行辅助,防患于未然。

风险链条:

业务禁止类(色情、政治敏感等)>个人信息类>版权内容类>数据资产类>企业商业信息类>政府公共信息服务类

那么什么情况下,爬虫业务是完全合法的呢,通过风险链条很容易就可以归纳出,被爬信息完全公开,内容中不涉及个人信息、版权内容及数据资产的,爬虫频率适当不会影响被爬网站正常响应的,一般来说,都是合法合规的爬虫行为。当然,这里有个概念区分,就是爬虫行为的合法,不代表公司业务完全合法。爬虫仅仅是种数据采集手段,如果你的业务中包含国家命令禁止的业务种类,那肯定也是不合法的。比如你采集证券交易信息,在没有金融证券行业牌照的情况下,却从事金融证券交易平台业务,那显然属于业务违法。程序猿朋友们在入职公司或自己开办业务的时候,也要关注公司的业务是否合法合规,这才是最重要的防火墙

其实爬虫作为一种非常普及的技术手段,在科技行业、学术行业、金融等行业运用广泛,甚至逐步在向其他传统行业拓展。比如说我们法律行业,也可以通过爬虫技术进行法律检索,和网络侵权证据搜集。高效使用爬虫工具,可以使信息更加集约化,促进信息的高效流转,给各行各业带来方便,也可以促进大数据行业和AI行业的繁荣。

因此,对于爬虫业务,不要杯弓蛇影,也不要谈虎色变。正确使用爬虫工具、合规管理爬虫业务,并不会导致太大的风险。社会也在进步,既懂法律又懂技术的专业人士数量也在增长,社会信息会越来越对称。作为从业者,自身也要积极补充法律知识,懂得用法律保护自己。


 

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。