在大数据时代,网络信息量呈指数级快速增长,数据已经成为一种重要的新型战略资源。网络爬虫作为一种高效数据挖掘技术,被广泛应用于用户分析、内容聚合等场景,在促进数据流通的同时,亦可能因不当使用侵犯数据权利而构成刑事犯罪。近年来,我国涉网络爬虫刑事案件日趋增加,刑事风险不断扩张,但网络爬虫入罪构成要件仍有待厘清。
一、网络爬虫的技术属性和入罪标准
(一)网络爬虫的技术中立性
网络爬虫(Web Crawler)诞生于1993年,是一种按照设定好的规则自动爬行网络抓取数据的计算机程序,通过伪装成客户端自动、持续地与服务端进行交互,高效地获取数据。作为一项已被广泛使用的数据搜索技术,网络爬虫在诞生之初被认为是提升搜索效率的进步技术,但如今却被打上了“非法”的标签,常被认为是道德上可疑的,并可被视为是违法的。
司法实践中,对网络爬虫的技术中立性存在不同观点(详见图表1):有法院认为爬虫技术本质上是专门用于侵入、非法控制计算机信息系统的程序、工具;有法院认为技术本身不存在价值选择,但对技术的使用行为存在边界,需要结合案情判断使用行为的本质和对法益的侵害是否已经构成犯罪;有法院则回避了对爬虫技术原理的法律评判。最高法院在2021年大连某数据平台管理中心与崔某某侵害技术秘密纠纷一案中肯定了爬虫技术的中立性,针对被告提出的爬虫技术本身即为违法技术的抗辩,最高法院认为爬虫技术本身并不违法,仅在被不法分子不当利用时才构成违法。
图表1:司法实践对网络爬虫中立性的认定
(二)我国网络爬虫入罪标准的实践检视
根据Imperva公司发布的Bad Bot Report,在2021年,有42.3%的互联网访问是由网络爬虫完成的,其中恶意爬虫的比例高达27.7%(详见图表2)。恶意爬虫频繁开展撞库攻击、凭证滥用攻击、爬取竞争对手数据等行为,在侵占网络资源的同时亦威胁到网络数据安全。
图表2:网络访问的主体类型
从2013年法院判决奇虎公司违反爬虫协议抓取百度公司网站内容构成不正当竞争,到近年来爬虫行为频频入刑,我国对网络爬虫的规制亦日趋收紧。笔者以“爬虫”“刑事”为关键词,通过“威科先行·法律信息库”进行全文检索(截至2022年6月22日),检索出相关判决65份。从罪名类型上看,涵盖12个罪名,其中侵犯公民个人信息罪最多,为26件,占案件总数的40%;非法获取计算机信息系统数据罪次之,为12件,占18.5%;侵犯著作权罪和传播淫秽物品牟利罪均为6件,各占9.2%。从收案量趋势看,2013年至2015年间,收案量稳定在每年1件,自2017年起数量逐年上升,到2019年、2020年收案量快速攀升至30件,到2021年又回落至9件。
分析涉网络爬虫案件的刑事判决书可以发现,司法实践中对网络爬虫的入罪呈泛化态势:一是行为涵摄宽泛,入罪的爬虫行为中既有违反网站书面规则的爬取,亦有强行突破网站反爬技术措施的爬取。二是对爬取数据的类型未做区分,爬取的数据既包括网站上公开的数据,也包括网站服务器上存储的数据。当前在处理网络爬虫案件时,对网络爬虫所违反的网站授权类型和所抓取的数据类型未予以厘清,模糊了民刑适用的边界,网络爬虫入罪范围呈扩大化趋势。
(三)域内外网络爬虫入罪态度分野
由于刑法在面对新兴技术所带来的负面影响时,总是难以摆脱处罚的惯性,域外实践对网络爬虫的刑事规制,亦一度呈现泛化的趋势。但近几年,在鼓励数据流通和创新技术发展理念的影响下呈现出更为审慎的态度。
美国《计算机欺诈与滥用法》第a条第2款规定,在未经授权或超出授权访问范围的情形下进入计算机获取信息的,将被予以刑事处罚。过去,法院在认定“未经授权”或“超出授权”时采用了较为宽泛的标准,一旦网络爬虫违反网站书面规则(如爬虫协议)都被归入该种情形。但这种做法也被批评是以网站的利益作为网络爬虫入罪的判断标准,具有将合同中的违约行为扩大为刑事犯罪的风险。因而,近年来有学者主张应以技术标准作为“授权”的判断标准,即网络爬虫是否突破了网站所采取的反爬技术措施。在2017年的HiQ v. Linkedln案中,法院认为对于公开数据的爬取,即使违反了网站的爬虫协议,亦不构成违法,并确立了“明确分割规则”,对于满足下列条件的网络爬虫将免于诉讼:(1)抓取行为没有在技术上使目标网站的负担过重;(2)抓取的是公开而不具有技术保护措施的数据;(3)抓取数据没有侵犯他人的信息权、知识产权等权利;(4)所抓取的数据被用于创建变革性产品,而非以类似产品来窃取数据网站的市场份额。
在德国,网络爬虫入罪的边界受到《德国基本法》第5条第1款“人人都享有自一般公开之来源了解信息而不受阻碍之权利”规定的限制。除非严重干扰其他数据的处理或者涉及非可公开访问的数据,网络爬虫爬取公开数据一般不会违反刑法或数据保护相关法律规定。虽然《网络犯罪公约》规定,对于未经授权访问整个计算机系统或其任何部分的行为,缔约国有义务予以刑事处罚,但作为缔约国的德国另将“越过访问保护”作为定罪的必要条件。部分学者认为,立法者应设定明确、具体的网络爬虫入罪构成要件,而非将其泛泛规定为访问数据或启动数据处理操作,模糊规定不仅存在过度定罪的风险,也可能阻碍新兴技术的有益使用。
二、网络爬虫入罪构成要件的厘清
(一)争议焦点一:违反合约型授权
网站上的声明、弹窗、用户协议等是网站所有者对网站访问者(包括网络爬虫)获取数据的一种合约型授权,违反合约型授权的网络爬虫是否构成犯罪是司法实践中亟待厘清的问题。爬虫协议是专门针对网络爬虫给出网站指令的协议,最初是荷兰籍网络工程师于1994年发起的技术规范。该协议是网站所有者存放在网站根目录下的一个纯文本文件,用于指引到访网络爬虫该网站内允许或禁止被抓取的数据类型及范围。学界对爬虫协议的法律性质存在争议,笔者倾向于该协议是网站所有者与网络爬虫之间的信息服务合同格式条款,网络爬虫到访网站时就应受到该协议的约束。
爬虫协议不具有强制性,其存在不会对网络爬虫获取网站数据构成任何技术上的实质障碍,因而是网站所有者对其数据的一种“弱保护”。对爬虫协议的违反仅构成合同法上的违约,应适用民事领域的规则予以规制。近年来违反爬虫协议的案件,原告也多以反不正当竞争法作为请求权的基础。若将违反爬虫协议认定为“未经授权”进而苛以刑事处罚,则是将网络爬虫入罪的边界划定交给了网站所有者本身。出于维护自身竞争优势、打击竞争对手的考量,网站所有者会倾向于扩大限制爬取数据的范围,导致网络爬虫入罪的风险大大提升,这与刑法的谦抑原则是相违背的。以网络爬虫常涉罪名“非法获取计算机信息系统数据罪”为例,该罪中的“未经授权”是指侵入计算机信息系统或采用其他技术手段获取数据,可见采取突破计算机系统的技术手段是该罪的构成要件,而爬虫协议并不属于任何阻碍网络爬虫获取数据的技术手段,故违反爬虫协议不应认定为该罪。
(二)争议焦点二:绕开或突破反爬技术措施
随着恶意爬虫的增多,网站所有者为了保护自身数据,通常会采取一定的反爬技术措施,限制网络爬虫的访问。常用反爬技术措施包括设置验证码、检测User-Agent、限制Cookies、数据加密等。这些措施实际上是网站所有者通过计算机代码来创建一个屏障,以阻止网络爬虫超越其在网络上的访问权限,当网络爬虫绕过受保护的计算机的代码屏障时,就是未经授权访问计算机、抓取数据。
相比于爬虫协议这种“君子协定”,反爬技术措施是网站所有者对其数据所设置的更为强力的保护,宛如一堵坚实的城墙,横亘在网站数据和网络爬虫之间。当网络爬虫故意绕开或强行突破技术封锁进入计算机获取数据,就属于“未经授权”侵入网站所有者对其数据所划定的不容他人踏入的网络空间。该种网络爬虫对数据主体权利的侵害更为严重,故应予以刑事规制。而反爬技术措施的防御强度越高,网络爬虫开展数据爬取的侵入性就越强,这应在入罪时作为情节严重性的考量因素。
(三)争议焦点三:公开数据的获取边界
公开数据是指任何主体可在任何时间、地点获取的数据。数据一旦被公开,意味着数据所有者向社会公众让渡了其对数据的控制权,私有数据转而成为公共物品,权利人同意公众自由地获取并使用数据,这其中亦包括利用网络爬虫获取数据。在刑法领域,基于权利人同意可以排除行为犯罪性的理论,网络爬虫对公开数据的爬取,一般不宜轻易动用刑法予以规制。
以网络爬虫常涉罪名“侵犯公民个人信息罪”为例,根据《中华人民共和国个人信息保护法》第十三条,收集个人信息应取得个人的同意,但是在合理的范围内收集个人自行公开或者其他已经合法公开的个人信息,则不需取得个人同意。可见,已合法公开的个人信息由于已经取得了个人的同意,故网络爬虫在收集该类信息时无需再次取得个人的同意。但目前司法实践中对“合理范围”的界定仍较为模糊,而利用网络爬虫自动、大量获取数据,很可能被认为是超出了合理的收集范围。如(2019)闽0524刑初397号范某某、徐某某、李某某等侵犯公民个人信息罪案中,法院认为,徐某某通过“爬虫”软件从“企查查”“天眼查”等网站上获取企业法定代表人的联系方式等信息414994条,整理成excel表格后出售给范某某获利12420元,属于非法获取公民个人信息予以出售获利,构成侵犯公民个人信息罪,且属情节特别严重。但本案中,徐某某利用网络爬虫所获取的信息为“企查查”“天眼查”等网站上已公开的姓名和联系方式,而收集已合法公开的个人信息,是不需再次取得个人同意的,故该种情形下徐某某被认定为犯罪很有可能是法院认为利用网络爬虫大量收集个人信息超出了合理的收集范围。
三、网络爬虫刑事规制的完善路径
(一)将刑事合规引入网络爬虫的规制
在大数据时代,互联网的海量数据已经超出了人力所能处理的范畴,网络爬虫虽被不法分子频频不当利用,但这项技术有效解决了信息过载的问题,大幅提高了数据利用的效率,具有积极的意义。而刑事合规是国家以刑法为工具,为企业开展合规管理,由此建立的一套督促机制、约束机制和激励机制。网络爬虫常涉及的侵犯公民个人信息罪、非法获取计算机信息系统数据罪等罪名中,单位均可成为犯罪主体,且高新技术企业在开展互联网、金融等新业态过程中,也极易踏入网络爬虫刑事犯罪的边界。故将刑事合规引入网络爬虫的规制,可在推动有益技术使用的同时,对超越合法边界的网络爬虫进行处罚,以提升企业对于网络爬虫入罪的可预期性,有效预防犯罪的发生或在涉及刑事犯罪时获得刑事责任的减免。
涉网络爬虫相关企业刑事合规体系的构建包括事前合规机制建设和涉案后刑事合规整改。就事前合规机制的建设而言,应根据不同企业的行业属性、经营模式,筛查其在业务开展中因使用网络爬虫可能引发的民事、刑事领域的违法风险,明确刑事合规管理的重点领域、重点环节、重点人员,并建立相应的合规机制。具体而言,应建立刑事合规管理框架,包括设置专门的合规部门并配备专业人员,制定有效的刑事合规管理制度、风险识别预警机制、风险应对及处置机制、违规问责机制;加强刑事合规管理的运行保障,包括落实刑事合规考核、监督,加强刑事合规管理信息化建设,开展刑事合规培训与文化建设。对于已在事前制定并有效实施合规计划的企业,司法机关应在刑法上给予正向激励,作为其免除或减轻刑事责任的依据。二是对于已发生网络爬虫涉罪违规违法行为的企业,可针对企业制度建设和监督管理存在的漏洞,制定切实可行的专项合规计划,并在检察机关和第三方机构的监督下在一定期限内进行合规整改,以此换取检察机关不批准逮捕、不起诉、变更强制措施等决定。目前,最高人民检察院、司法部等九部委已就企业刑事合规联合发布了《涉案企业合规建设、评估和审查办法(试行)》,并积极在实践中探索刑事合规机制的适用。
(二)把握数据控制权与数据流通的平衡
随着数据经济的兴起,数据已成为日益重要的生产要素,只有让数据更为充分的共享互通,更为高效地被利用,才能更好发挥其蕴含的巨大价值。对于网络爬虫的刑事规制应该在数据控制权与数据流通之间寻找平衡。一方面,数据所有者在生产数据的过程中通过时间、金钱、人力的投入,获得了竞争优势,应保护其合法数据权益。另一方面,数据利用者运用网络爬虫高效获取、利用数据,提升了数据流通的速率,推动了产业发展,故不宜对数据过度保护而阻碍流通。笔者认为,对于互联网中已公开的数据,由于权利人已授权任何到访公众获取数据,而网络爬虫获取数据相比普通人类用户仅存在速率上提升的区别,故不应构成未经授权的犯罪。一旦允许数据所有者针对网络爬虫自行确定数据可被获取的边界,则数据所有者会更偏好于垄断而非开放数据,由此会增加数据流通的壁垒和成本。此外,从技术创新角度而言,目前的科学研究、产业升级都离不开大数据的支撑,如人工智能领域的研发,就是在数据分析的基础上结合算法开展的,面对互联网中的海量数据,势必要利用网络爬虫开展数据收集和分析,如果一味降低网络爬虫入刑的门槛,将阻碍前沿科技、产业的创新发展。因而,应审慎并清晰划定爬取行为的边界,明确网络爬虫入罪的构成要件,细化量刑标准,在精准打击网络爬虫犯罪的同时更好发挥其作为创新技术工具的积极作用,推动社会生产力的发展。
编者注:转载自《浙江审判》2022年第6期,略有删减。为方便阅读,已隐去注释。
作者:张梦琪
作者单位:宁波市北仑区人民法院
会员登录关闭
注册会员关闭