查看原文
其他

大数据公司接连被查,爬虫技术惹的祸?| 数据观

陈近梅 数据观 2020-08-30
来自专辑
数据观原创出品

全文共计3609字,预计阅读时间9分钟



作者 | 陈近梅

来源 | 数据观

编辑 | 蒲蒲



2019年,大数据行业迎来了“大清洗”。


今年3月以来,北京、上海、深圳、杭州等地大数据公司被查消息陆续传出。这些地区监管部门与警方正加大对行业乱象整治力度,十余家大数据公司或被查、暂停业务,或被警方带走配合调查。


2019年大数据公司被查事件回顾


10月21日,“51信用卡”位于杭州西溪谷的办公地点被警方调查。该公司于2018年香港主板上市,天眼查数据显示,51信用卡的运营主体为杭州恩牛网络技术有限公司,业务涵盖个人信用管理服务、信用卡科技服务、线上信贷撮合及投资服务。

 


截至发稿时,警方除了通报其涉嫌寻衅滋事等犯罪外,并未透露太多被查原因,但多位业内人士猜测可能还与爬虫程序不正当获取用户信息有关。这一猜测主要来源于在21日当天,一封某银行致51信用卡公司的函件,该函件称,该行技术监控发现,51信用卡通过爬虫程序对该行用户信息进行抓取,但51信用卡并未与银行签署授权书、同意书或默认其获取用户个人信息。


9月26日,有媒体报道知大数据公司同盾科技有限公司爬虫类产品“数聚魔盒”负责人被查。9月27日,同盾科技发表公开声明回应此事,称“为配合警方调查曾经服务的某第三方单位,杭州信川(即“杭州信川科技有限公司”)及有关人员正积极协助警方调查取证,以协助相关部门查清该第三方单位的情况。”


公开资料显示,数聚魔盒运营主体为杭州信川科技有限公司,成立于2016年5月,同盾控股有限公司为全资控股股东。数聚魔盒以“爬取互联网公开数据+打通同盾体系内数据+用户授权数据采集”交叉关联的形式,通过用户授权,利用网页极速抓取技术获取各类用户个人数据,通过海量数据比对和分析,交叉验证,最终为各类机构提供用户的风险分析判断。


9月11日,公信宝运营公司杭州存信数据科技有限公司办公室被杭州市公安局西湖分局古荡派出所查封。据了解,公信宝成立于2016年,是一家以区块链为核心技术的数据科技公司。根据公信宝官网,公信宝为全球数据经济服务,并开发了一条名为公信链(GXChain)的底层基础链,旨在提供企业间、个人间、企业与个人之间的数据交易/交换服务。从公信宝合作方看,公信宝所售出的个人信息大规模流向网络借贷领域,而这些信息数据来源除了顶着挖矿的名义获取外,公信宝还通过爬虫途径来获得用户隐私数据。


9月12日上午,据业内人士爆料,中国电信控股的子公司天翼征信的总经理、副总经理以及市场人员约十人被警方带走。据内部员工透露:“因为我们跟前面两家被调查的爬虫公司有合作,去主动说明情况。”


9月6日,杭州魔蝎数据科技有限公司疑似被相关执法人员控制,与此同时,魔蝎科技为合作方提供的服务已经停止,官网也无法登陆。但到目前为止警方尚未披露相关信息。相关资料显示,魔蝎科技成立于2016年,是国内大数据智能风控服务供应商,主要业务包括提供精准营销模型、反欺诈、多维度用户画像、授信评分、贷后预警、催收智能运筹等全面风险管理服务。



同日,多方消息称,上海新颜人工智能科技有限公司CEO黄向前被带走,新颜科技人士表示,协助调查是因为与其合作的一家持牌网贷平台涉及暴力催收问题,新颜科技本身的业务并未受影响。据官方网站信息显示,新颜科技通过云计算、机器学习等技术,逐步打造了以人工智能为核心的先进技术体系,向银行、保险、证券、基金理财、社交平台、电商、共享平台等多个行业进行定制化的产品设计与应用开发。


4月22日,北京海淀公安在官方微信公号上披露,招聘信息创业公司巧达科技(北京)有限公司王某某等36人因非法获取计算机信息系统数据,已被检察机关依法批准逮捕,其中王某某曾多次被公安机关处理。公开资料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库。据北京警方披露,巧达科技公司在未经授权的情况下,通过利用大量代理IP地址、伪造设备标识等技术手段,绕过某公司服务器防护策略,大量恶意窃取放在服务器上的用户数据。在窃取过程中,由于传输数据量过大,还曾导致该公司的服务器数十次中断服务,影响上千万用户正常访问,给其带来了严重的经济损失。


以上只是部分公开报道的大数据被查公司事件,从中可以看出,国家以及各地相关部门对大数据行业的监管力度在逐步加大,整顿态势趋严。


公司被查,“爬虫业务”成为导火线


随着市场对于数据服务的需求逐渐增大,数据就成为了某些公司的主要盈利工具。但数据从何而来?


据中国互联网络信息中心(CNNIC)发布的第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达8.54亿人,这些人无时无刻都在“生产”数据,各个方面的数据不断在汇集。正是有了这些数据,让某些“大数据公司”看到了商机。


互联网平台上的数据有些是公开的,也有非公开的,但只要通过网络爬虫技术,获取这些数据并不难。而且,在这个竞争激烈的市场环境下,如果有人提供所需要数据,不用就是“损失”。所以,供需方市场条件已经满足的情况下,这条产业链逐渐形成,其中不凡有许多正规持牌金融机构、咨询公司等也参与使用第三方数据公司通过各种渠道抓取的用户数据。


网络爬虫技术成为第三方数据公司获取网络数据信息的基础工具,而伴随“爬虫业务”而来便是数据窃取、泄露、滥用等问题。从这些被查大数据公司可以看出,大部分公司与爬虫业务及违规抓取、贩卖个人隐私数据、助力暴力催收等有关。


据了解,网络爬虫又称为网页蜘蛛或网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫技术并不难,而且爬虫技术本身是中性的,关键在于是否合规使用。也正是数据获取与使用的门槛较低,大量不具备基本从业素质、缺乏风险意识的企业参与到了这场大数据发展浪潮中,过度依赖“数据采集”进行无序竞争。


因为此次行业整顿的影响,目前部分依赖于“数据采集”的公司主动或被动地关停了爬虫业务。而且,此番严查仍在继续,有些抱着侥幸心理继续触碰法律红线的企业,相信也不会逍遥太久。



大数据行业发展需及时“止痛”


大数据是一个新兴行业,具有良好的发展和应用前景,但它所存在的一些痛点问题正在阻碍其健康发展,相关部门的此番监管行动无疑是在为大数据行业及时“止痛”。
 
目前,行业内除了被查的大数据公司,很多涉及数据业务的公司也存在或多或少的问题。比如,墨迹科技IPO被否,证监会明确指出该公司关于经营资质、收益用户数据、收入来源单一、关联客户等四大问题。另外,也还存在其他一些比较典型的行业痛点问题需要引起重视。

 

首先,技术应用的边界问题被忽视。数据成为新的生产资料和无形资产,企业要想在大数据时代领先,需要多方合作获取更多的数据。而部分大数据公司,尤其是创业公司,因为没有原始数据的积累,也没有可产生数据的业务或产品支撑,一些企业选择通过购买或者运用相关技术窃取他人隐私信息,忽略技术应用边界问题,碰触法律红线,甚至在各种变现的压力下,不惜成为信息贩子。


其次,数据归属权不明确,数据共享和交易工作推进受阻。数据应用过程中,涉及其所有权、隐私权等,其中所有权问题最为模糊。数据到底归谁所有?是至今一直没有明确答案的命题,这让部分数据在使用过程中无法被界定是否构成侵权,容易出现数据滥用的情况。


数据共享可以加强企业间的联合,可以加快数据与产业的融合,可以促进产业优化升级。同时,如果交换数据权,数据整合会更加完善。目前,我国除了部分地区政府部门建立政府数据共享交换平台,推动政府数据陆续得到有效应用外,各地所成立的大数据交易企业或平台几乎没有太明显的工作推进成效,其原因包括企业要保护商业机密不愿意交易自身数据、企业交易机制不健全、法律法规不完善等。


再次,数据安全保障工作意识薄弱,专业人才短缺。公民个人信息经常在网上被以白菜价格倒卖;多数企业数据中心安全防护措施薄弱,被恶意攻击、内鬼泄露等问题大量存在。主要因为大家对个人用户、密码以及相关数据保护意识不足,企业对于数据安全的保障工作往往处于被动状态。此外,我国大数据产业人才培养体系处于建立初期,在短期内专业人才供不应求,限制了大数据产业创新发展的成效。


写在最后


解决行业发展痛点刻不容缓,但大数据行业的发展也不会因为部分公司被调查而溃不成军。发展大数据,最终目的是与各个行业深度融合,促进各行业各领域转型升级,并建立良好的产业生态。这是一个需要慢慢探索和推进的过程,如果想要在这个风口上投机取巧,牟取暴利,最终只会害人害己。


合法合规的大数据企业一定是靠技术形成核心竞争力,随时把握好发展契机,积极探索合规可行的商业模式,不断成长和壮大自己。正如畅销书《失控》作者凯文·凯利所言,大数据会缔造大公司,十年、二十年之后,在全世界最大的公司就是有最多数据、最大数据的公司。将来谁在数据方面能胜出,谁有最大的数据公司,谁就是最大的胜者。


END -


推荐阅读 | SUGGESTED READING


“网红”贵阳的驭数之道 | 数据观

信息泄露事件频发,你还在视而不见吗?| 数据观

一图了解数字货币的今生 | 数据观

🔼“数据观”亮相纽约时代广场 ,向世界传达“中国数谷”魅力


关注我们

欲了解更多大数据,

区块链,人工智能

行业相关资讯 ,干货,

报告等,可搜索

数据观微信公众号

进入查看。








数据观


公众号:cbdioreview

官网:www.cbdio.com  

微博:数据观官微

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存