400-026-3721

中国数据安全知名品牌 | 成立15周年

成立于2006年

注册资金1001万

连续七年全国销量领先



2015年携手小米集团

2009年携手阿里巴巴

2014年携手上汽大众

2018年携手招商银行

首页 >> 新闻中心 >>行业新闻 >> 大数据产业遭整顿,网络信息安全告急!企业与个人该如何防范?
详细内容

大数据产业遭整顿,网络信息安全告急!企业与个人该如何防范?

在使用爬虫的过程中,爬取的数据类型、爬取数据的方式以及爬取之后的使用都是可能触犯法律的。其中,使用爬虫得到的数据进行盈利、损害他人利益、不正当竞争等一般都是针对经营者的。


出国,被捕,裁员,查封,大数据行业面临有史以来最大的风波。

自今年9月以来,多家大数据公司接连被查,巨变启幕,行业“一夜入冬”。

9月,摩羯科技、新颜科技、聚信立、公信宝、集奥聚合深圳分公司等相关人员一周内相继被调查。

紧接着,有传言称百融云创数据查询受影响、个人征信数据业务被暂停,深圳分公司员工被带走,后被官方否认。9 月27日,同盾科技子公司信川科技高管被带走协助调查;10月21日,51信用卡委托外包催收公司因涉嫌寻衅滋事等罪被调查;10月25日,新京报报道称,央行发文紧急调研银行与上述第三方数据公司合作情况,排查的合作内容主要涉及数据采集、信用欺诈、信用评分、风控建模…

即便认为自己没有违规,很多大数据公司依旧不敢营业,处于停业观望状态。

据 AI 前线不完全统计,此次清查波及的大数据公司至少 15 家左右。

timg (9).jpg

他们如何拿到你的数据?

在这个行业,付费是大前提,互联网世界的免费逻辑在这里行不通。TalkingData CEO崔晓波就曾表示,企业的核心诉求是服务质量和安全性,如果免费,人家会怀疑你是要用他的数据。

这本是一个赚钱的行当。所以总是有不少创企挤得头破血流。只是,越来越多的大数据公司“揭竿而起”,但数据从哪里来。

天猫、京东等电商平台,数据来源于平台内的交易行为;腾讯的社交平台,数据则来源于微信、QQ生态内的用户动作。

没有平台让用户产生UGC内容的第三方数据公司,数据大多来源于厂商合作。比如那家拿到智能电视观影数据的公司,其内部员工表示,他们会直接和电视厂商底层合作,在硬件出厂之前就会植入自己的SDK(软件开发工具包)。

在IoT生态里,几乎每个智能家电硬件中都有这样的SDK以供厂商数据分析,从而反馈市场需求。在偌大的数据池中,一个个用户就是多维标签组成的字串符,任由厂商们拆解分析。

但这是一种零和游戏。全国智能硬件的存量是有限的,要得到更广泛的数据就需要更多的SDK植入。据称,这家公司的设备激活量已经超过存量的一半。

这预示着,新进入者就无法再一次通过硬件合作的方式获取数据。在利益的面前,歪门邪道的东西就出来了。

初级版本是瞒着用户进行数据共享。多年前,大学同学曾报名了一次银行从业资格考试。信息录入交钱结束后,便有一个培训公司的电话打来,他知道这位同学要考试、并知道他将在哪里考试。

问及数据来源,对方曾说是公司与考试办公室建立了合作。只要我们报名,这些数据就会同步到这家培训公司。考试方和培训公司,在用户不知情的情况下用于了商业用途。按理说,这是不太合规的。

但很多人对这方面的信息泄露并没有追究,毕竟带来的骚扰并不多。

高级版本是爬虫。不少公司会拿这些技术爬取用户信息,进行销售。《三秦都市报》曾报道,在一个二手商品交易平台上,一份简历的收费标准0.25元,一份判决书低至1毛钱,一篇论文不到1块钱。

而其他个人私密信息,他们会被用于精准营销,或是精准诈骗。之前,浙江金华警方侦破一起诈骗案,该团伙通过搭建钓鱼类网站收集用户信息,最后通过网站后台,导出上述具有贷款意向的客户精准信息,贩卖给诈骗嫌疑人实施诈骗。据称,这个团伙爬取了190多万条公民信息,受害人涉及全国20多个省份。

爬虫,是互联网时代一项普遍运用的网络信息搜集技术。该项技术最早应用于搜索引擎领域,是搜索引擎获取数据来源的支撑性技术之一。

随着数据资源的爆炸式增长,网络爬虫的应用场景和商业模式变得更加广泛和多样,较为常见的有新闻平台的内容汇聚和生成、电子商务平台的价格对比功能、基于气象数据的天气预报应用等等。

网络爬虫技术为数据收集者提供了极大的便利,也给专业网络爬虫公司带来巨大的收益。所以,很多公司都会有爬虫部门,或者负责开发爬虫的团队,在招聘网站上,也随处可见关于"爬虫工程师"的招聘贴,。

目前,关于网络爬虫相关的约束,主要是2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》。这份文件主要包含了数据收集、数据处理使用以及数据安全监督管理三个章节。

基本可以确定的是,如果爬虫使用不当,那么爬虫的开发者是有可能触犯法律的,而根据情况不同,获得的刑罚也有可能有差异。

要看开发和使用爬虫是否犯法,需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下:

爬什么数据犯法?

1、属于著作权法保护的作品

有些网站发表的内容,如文章、评论等都是有著作权的,如果只是单纯的通过浏览器查看是不会触犯法律的。

但是,对于有著作权的作品,如果未经著作权人许可,以盈利为目的,对其作品进行复制是会触犯法律的。

根据《中华人民共和国著作权法》第46条:有下列侵权行为的,应当根据情况,承担停止侵害、消除影响、公开赔礼道歉、赔偿损失等民事责任,并可以由著作权行政管理部门给予没收非法所得、罚款等行政处罚:(一)剽窃、抄袭他人作品的;(二)未经著作权人许可,以营利为目的,复制发行其作品的;(三)出版他人享有专有出版权的图书的;(四)未经表演者许可,对其表演制作录音录像出版的;(五)未经录音录像制作者许可,复制发行其制作的录音录像的;(六)未经广播电台、电视台许可,复制发行其制作的广播、电视节目的;(七)制作、出售假冒他人署名的美术作品的。

如果是使用爬虫技术手段爬取数据之后将其保存下来或者传播,并且进行盈利,这种都是属于犯罪的。

2、用户的个人信息或者个人隐私

个人用户的个人信息,即使是用户自己放到一些网站上进行公开或者部分公开,如微博、微信等,不代表这些数据就可以被其他人随便获取!

根据《民法总则》第111条:任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息;

根据《网络安全法》第44条:任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。

所以,如果爬取的数据涉及到个人信息,都是违法的!

还有些爬虫企图绕过权限校验等,爬取用户未公开的信息,如个人私密相册照片等,都是属于侵犯用户的个人隐私的,这种也是违法的。

3、反不正当竞争保护的数据

目前有很多网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。如大众点评上面的店铺评价、评论等信息,携程网上面的关于酒店的评价评论等信息等。

根据《反不正当竞争法》第2条:经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。

那么,未经允许,爬取其他网站的核心数据,很明显并没有遵守《反不正当竞争法》中规定的自愿、平等、公平、诚实信用的原则。

在大众点评诉百度不正当竞争案件、以及新浪微博诉脉脉不正当竞争等案件中,法院都认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。

因此,如果抓取大众点评、微博、豆瓣电影、知乎等UGC模式的网站上用户发布的信息,并在自己的产品或者服务中发布、使用该等信息,则有较大的风险构成不正当竞争。

怎么爬犯法?

如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。

那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:

1、未遵守Robots协议

Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。

根据《互联网搜索引擎服务自律公约》第7条:机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。具体而言,robots协议是网站所有者通过位于置于网站根目录下的文本文件robots.txt,提示网络机器人哪些网页不应被抓取,哪些网页可以抓取。

根据《互联网搜索引擎服务自律公约》第8条:互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

虽然《互联网搜索引擎服务自律公约》仅适用于中国互联网协会会员单位和自愿加入《中国互联网行业自律公约》的互联网从业单位,但在司法实践中,Robots协议已经被认定构成互联网行业搜索领域内的商业道德。

因此,无视网站设置的Robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第2条的违反,即违反诚实信用原则和商业道德的不正当竞争行为。

2、绕过防护措施对数据的访问,强行突破反爬措施

由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。

所以,很多爬虫工具为了爬取数据,会想办法通过各种手段绕过防护措施,但是,这种行为也是会触犯法律的。

根据《刑法》第285条第二款:违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

企图通过技术手段,绕过网站的反爬机制,都属于《刑法》中规定的"侵入",都是要被处罚的。

怎么用犯法?

很多公司开发的爬虫遵守了Robots协议,也没有爬取不该爬取的数据,难道这样获取到的数据就可以随便使用了吗?其实也不是,如果使用不当,也会触犯法律的。

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

小结

在使用爬虫的过程中,爬取的数据类型、爬取数据的方式以及爬取之后的使用都是可能触犯法律的。

其中,使用爬虫得到的数据进行盈利、损害他人利益、不正当竞争等一般都是针对经营者的。

但是对于程序员来说,如果你的老板让你开发的爬虫,是用来爬取用户的个人信息或者个人隐私,并且该爬虫未遵循Robots协议、或者有意的躲避反爬机制就可能触犯到法律了。

大数据时代,如何确保网络信息安全?

2019年可能是大数据行业经历的最寒冷的一个冬天。多次监管动作不断提醒和鞭策着大数据公司,是时候告别野蛮生长的时代了,合规才是正途。

而在互联网高度发达的今天,我们用位置信息换来了更精准的外卖和打车服务;用阅读习惯获得更精准的新闻推送;用购物喜好得到了更精准的商品推荐;用搜索偏好收获了更精准的内容……但这不代表我们愿意用隐私交换便利。

从facebook泄密丑闻到华住集团5亿用户数据在暗网被贩售,每一次泄密的体量都令人瞠目结舌。

现实是,当我们在安装软件和使用线上服务时,用户协议几乎把我们出卖了。各种权限的开通,在不知不觉中将我们的信息盗走,我们还没得选择,因为如果不开通权限,意味着我们将无法使用这项服务或软件。

可是将用户数据和信息收集之后,企业却无法做到应有的保护。为了更大利益进行信息倒卖、因为系统漏洞造成信息泄露、由于疏忽管理导致信息偷盗……这些都严重影响了人们的生活,并可能造成非常严重的后果。保护隐私,注重网络信息安全,刻不容缓!那么,企业和个人究竟该如何做?

对企业而言

1、拒绝违规收集个人信息、强行捆绑等行为

经营者收集、使用个人信息,应当遵循合法、正当、必要原则,不能收集与其提供的服务无关的个人信息。

2、对操作系统进行及时更新,堵塞操作系统的安全漏洞

通过定期对操作系统进行升级和更新的办法有效堵塞操作系统的安全漏洞,从而满足操作系统的安全性能指标,提高操作系统的防御能力。所以,我们应在网络使用过程中,对操作系统进行及时更新,防患于未然。

3、在网络终端系统中安装杀毒软件,提高防御能力

为了保证网络终端能够满足安全性能要求,我们应在网络终端系统中安装杀毒软件,定期对网络终端系统进行杀毒,保证网络终端系统能够抵御病毒攻击,提高网络终端系统的安全性。

4、采用信息加密技术,提高数据库的安全性

结合数据库的使用特点,对数据库中的信息采取加密技术,防止数据库中的数据被盗用,提高数据的安全性。

5、部署SSL证书,使用HTTPS加密传输协议

HTTPS是一项相对安全的加密传输协议,是HTTP的升级版。HTTPS=HTTP+SSL,其中SSL及其继任者TLS是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密,防止传输数据被他人窃取、窥视或篡改。


客服中心
联系方式
400-026-3721
- 售前技术
- 售后支持
新浪微博
扫一扫,访问手机站
技术支持: 杭州网站建设 | 管理登录