最了解你的人,不是男票或女友,是爬虫。充分说明爬虫在互联网行业的定位。
什么是爬虫了?
通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。
据说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。
但繁荣背后,一个行业的生存状态就越发明显,光明与黑暗也在这个时候会迎来真正的爆发。
爬虫的光明与黑暗
爬虫技术也并不神秘,无非分为三步:“爬”上页、“铲”下数据,进行加工清洗。
一、爬虫光明的一面
类似百度谷歌这样的搜索引擎,其核心逻辑,也是爬虫——爬到用户要的关键词,再展现搜索结果。
“让有价值的东西,更好地呈现,这是爬虫最大的行物埋功劳”.
二、爬虫黑暗的一面
大数据时代,爬虫成为低成本获取数据的捷径,经常沦为“黑暗武器”。
2014年,互联网创业高潮中,爬虫技术迎来了一次小爆发。
“爬虫生态链里有这么一类公司,专门替人爬虫,增加APP的虚拟访问量”,网友称,1万浏览量,报价10元.
2013年,互联网金融还是当红炸子鸡的时候,行业里冷不丁得出现了一家叫“**力”的公司,爬虫服务开始被业内人所熟知。
当时P2P、消费贷款兴起,用户需要在手机端填写很多个人信息,姓名身份证号家庭住址银行卡号等等,早期整个行业发展也不完善,很多公司的app属于那种一用就卡,一卡就死的水平。
填这么多信息很麻烦,后期处理也是个问题。这个时候,爬虫服务就应运而生了。
你可以简单把互金行业的爬虫服务理解为开发票。吃饭开票每次都手打太费劲了,现在大多数开票服务只要微信扫一扫,或者输入头一两个字给档蚂你自动联想出来了,省时省力,当时大概就是这么个作用。
特别要指出得是,这时候的爬虫服务还仅限于运营商数据。
2016年,现金贷行业成为爬虫产品的最大买家。
爬虫公司为其提供五花八门的服务:例如爬取淘宝、社交网络、网上银行等。
“不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬”,某数据负责人声称,“技术好,就没有爬不到的数据”。
这其中最火的产品,是通话记录(运营商数据)爬取。
而爬取方式也很简单,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。
运营商数据对贷后催收最管用,淘宝、支付宝数据、信用卡详单、邮箱账单这些都代表了你的消费能力。
保险保单这个在互金行业实际业务操作中很少用,社保、公积金这些数据也是帮助放贷机构来衡量的你贷款资质和还款能力。
不同的甲方,对这些数据的需求程度也不尽相同。比如,大家猜一下,714高炮最喜欢谁?
事实上,714高炮并不需要这么多的爬虫数据,它的真爱只有一个,那就是运营商数据,至于原因,很简单,方便催收,方便收取高额的逾期罚息就可以了。
那剩下的爬虫服务是提供给谁的呢?这里面消费金融公司、银行、消费贷款蚂拍都有。但相对来说,稍微正规的公司,都不会像714高炮那么变态的使用爬虫业务。
爬取一个人的运营商数据干什么呢?这里面用处可大了。对互金行业来说,最直接有效的是:贷后催收。
当你知道了一个人父母、配偶、同事等社会关系联系方式,一旦这个人不还钱,所谓的暴力催收、电话轰炸“呼死你”软件就来了。因为运营商数据在手啊,暴力催收不要太容易。
很多提供爬虫服务的公司也没想到,自己最后会死在暴力催收上面,“兴于斯,亡于斯”
技术无罪:但是利润的趋使让很多使用者剑走偏锋。
金融行业最疯狂也最迷人也最危险,不是离钱太近了,而是离赚大钱太近了。
三、爬虫未来之路
今年6月1日,《网络安全法》开始实施,无比严苛:
未经授权爬取用户手机通讯录超过50条记录,公司法人最高可获刑3年;
有媒体报道,行业内正在筹划《个人金融信息保护试行办法》,《办法》的出台,或将对征信机构的资质做进一步的明确。未来《个人信息保护法》的出台,体现出在个人隐私信息保护领域立法逐渐趋严的趋势。
会员登录关闭
注册会员关闭