随着近年来大数据产业的持续发展,爬虫技术的应用主体从搜索公司逐渐延伸到各行各业。当爬虫、数据与网贷等行业碰撞在一起时,便产生了奇妙的化学反应,将一大批业者送进了监狱,仅今年下半年以来,就有新颜科技、同盾科技、摩羯科技等知名企业被警方调查。业界也逐渐产生了“爬虫玩的好,监狱进得早”的顺口溜。那么,到底爬虫是怎样把使用者送进监狱的的呢?
网络爬虫也叫网络蜘蛛,只是一种从互联网上抓取各种信息的工具。作为一种起源很早而又非常成熟的计算机技术,其本身并没有明显的违法性。造成爬虫应用违法的根源在于部分从业者急功近利,为爬虫添加了本不该有的功能,并借助这些功能爬取了不该爬取的内容。
一、披着爬虫外衣的病毒
如前所说,爬虫本来只是为了部分有特殊需求的人从全网获取数据而诞生的技术,但随着数据的经济价值被不断挖掘,很多新进企业为了尽快建立自有数据库或者获取受到特殊保护的数据,会为爬虫附加很多额外的功能,这就导致爬虫由数据爬取工具变成了系统侵入工具,也就是所谓的病毒。
1、利用爬虫开展类DDoS攻击
由于爬虫本质上是一种机器访问,如果不对访问次数、频率等进行必要的限制,很容易产生类似于DDoS攻击(分布式拒绝服务攻击)的效果。
在创业初期,很多搜索公司和大数据公司都会采用多线程的方式进行野蛮爬取,这样可以尽快增加自有数据库的内容,提升用户体验。另一面却会害苦很多中小网站的站长,多线程爬取带来的瞬时流量可能抵得到某些小网站一两个月的访问量了。这些爬虫大量占用了被访问网站的网络带宽并且增加了网络服务器的处理开销,网站瘫痪在所难免。
而一旦造成网站瘫痪,就有可能构成刑法第286条破坏计算机信息系统罪。类DDoS攻击的行为明显构成了第286条第一款所说的干扰计算机信息系统并造成不能正常运行。同时,根据《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》,造成“为10000以上用户提供服务的计算机信息系统不能正常运行累计一小时以上的”即为“后果严重”。
为了保证行业长远健康发展,维护中小站长切身利益,百度牵头另外11家开展搜索业务公司于2012年制定并签署了《互联网搜索引擎服务自律公约》。《公约》要求各方从业者都要遵守相应的行为规范,保证良性竞争。
2、为爬虫添加入侵功能
虽然搜索行业已经有了一定的行业标准,但大数据产业的兴起导致野蛮爬取的情况有增无减。因此,许多网站会采取反爬措施,包括IP频率、流量限制,请求时间窗口过滤统计,爬虫种类识别等。
为了突破这些反爬措施,一些开饭着会给爬虫增加IP代理、伪装UA、AI识别等功能。带有这些功能爬虫已经不再是单纯的数据获取工具,而是具备了系统入侵能力的类病毒软件。
因此,如果网站运营者已经采取了一定的反扒措施,而爬虫开发人员基于经营的目的、强行突破网站运营者采取的反爬措施,并客观上导致了网站无法正常运行,则很有可能构成违法,视情节还有可能构成“非法获取计算机信息系统数据罪”“提供侵入、非法控制计算机信息系统程序、工具罪”等罪名。
视频导购app秀淘的技术人员宋某、侯某利用网页爬虫技术来获取今日头条的视频数据,被北京市海淀区人民法院以“非法获取计算机信息系统数据罪”定罪。此案例中,宋某、侯某二人仅伪造了UA(useragent的缩写,意思就是“用户身份”)来绕过今日头条的反爬措施,爬取Web端视频即被认定为符合刑法意义上的侵入行为。
二、爬取了不该爬的东西
在功能上涉嫌违法犯罪外,爬虫爬取的内容也有可能导致使用者身陷囹圄,特别是在爬取个人信息的情况下。随着网贷产业的不断发展,各家平台为了在提升放款速度的同时进行有效的审核与风控,会自建或者委托第三方数据库用于放贷审核。与此同时,催债业对数据库也有着旺盛的需求,联系方式修复是很多大数据公司的重要业务之一。而无论是放贷审核还是联系方式修复,都离不开海量公民信息数据库的支持。不法机构为了降低公民信息获取成本,或者获取本不应尤其掌握的高价值数据,就会利用爬虫通过各种渠道非法获取公民个人信息。
根据刑法第253条之一规定,“窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。”未经用户授权,直接从个人信息实际控制者处爬取公民个人信息的行为完全符合“非法获取”的定义。同时,为了有效打击侵犯公民信息犯罪,国家本就制订了较低的入罪门槛。具体而言,只要非法获取“行踪轨迹信息、通信内容、征信信息、财产信息”50条,“住宿信息、通信记录、健康生理信息、交易信息”500条即可够罪。可以说,非法爬取公民个人信息是近年来涉爬虫犯罪的主要犯罪形式。
除了爬取公民个人信息,爬虫批量爬取还有可能构成侵犯著作权罪。根据刑法第217条规定,侵犯著作权罪是指以营利为目的,未经著作权人许可复制发行其文字、音像、计算机软件等作品,出版他人享有独占出版权的图书,未经制作者许可复制发行其制作的音像制品,制作、展览假冒他人署名的美术作品,违法所得数额较大或者有其他严重情节的行为。这反面最典型的便是各类免费小说网站,他们利用爬虫大量爬取别人享有著作权的作品并免费提供给网民,在通过广告植入等方式盈利。在上海闵行区法院判决的一起案件中,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。何某通过在“车城小说”网站网页内刊登广告获取广告收益,非法营利数额达人民币19万余元。法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。
会员登录关闭
注册会员关闭