【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

news2024/12/24 2:14:39

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

2018年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。2019年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。目前还没有从公开数据中查到此案件的判决文书。

警方查明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手段爬取而来。“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完整的简历和用户画像。

针对爬虫获取简历的手段,一位巧达科技前员工告诉燃财经,巧达在智联、猎聘等网站上,建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。

据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。

办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。

据网络上暴露的一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

01

根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。

此外,这份商业计划书中单独有5页来讲述业务合规性,其中展示了数据的获取来源于3个途径,巧达科技自称都是合法取得:

1,自有招聘网站:求职者用户直接授权,包括简历中敏感数据和非敏感数据;

2,招聘工具产品:HR/猎头用户授权,包括简历中敏感数据和非敏感数据;

3,第三方数据源:合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。

获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。

02

巧达科技提供的多项服务都指向用户个人,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。

03

反思总结

我们知道招聘网站,普通用户是无法查看他人简历的,所以巧达科技建立了上千个企业账户,通过企业账户能看到投递人或网站上全量求职者的完整简历,这很正常,也完全合法,重点在于巧达科技通过爬虫技术使用几千个企业账户大批量检索并获取招聘网站上的简历数据,并未经求职者本人同意,将原始数据及其多项未经授权的关联数据合并加工后对第三方开放交易且获取巨额利润

此业务的合法前提:一是,要有求职者本人的授权,即便巧达科技是通过自有招聘入口合法获取求职者的简历,使用用户信息也必须限于求职者投递简历的目的范围之内。超过为求职者直接推荐工作机会之外的行为都是违反用户意愿,属于擅自利用用户信息并侵犯用户隐私。

二是,巧达科技是从第三方获取求职者的简历数据,第三方既要合法获得求职者的简历,同时需要取得求职者对公开和转售简历的许可,这两个条件缺乏其一都会导致其获取、购买和再利用求职者简历数据的行为不具有合法性。

我们还注意到,在巧达科技获取数据过程中,还因爬取的数据量过大导致报案公司的服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失,这和K哥前期的案例《【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?》中介绍的一样,里面的反思总结同样适用于本案例。

个人用户的隐私数据碰不得,这句话已经说了千百遍了,更何况求职者简历中包含了大量的个人和曾任职企业的隐私和商业信息。了解规则,敬畏法律,利用爬虫技术获取信息,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。

还值得一提的是,类似智联、猎聘、boss直聘等涉及到求职者个人隐私信息的平台,应当重视对客户信息的保护工作,boss直聘前段时间因某些原因还被审查过。对于求职者个人用户信息的下载、获取,应当设置严格的权限,对于企业客户的注册应当严格审查,对于后台大量获取简历的行为应当做好严格监控和反制,官方理应及时介入处理。巧达科技之所以能够在这些平台建立上千个企业账户肆无忌惮的大批量检索、爬取、下载简历,无疑和平台的监管机制缺漏脱不了关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mysql忘记密码怎么办(附免密登录和修改密码)

前言 博主个人社区:开发与算法学习社区 博主个人主页:Killing Vibe的博客 欢迎大家加入,一起交流学习~~ 一、打开MySQL(能打开请跳过此步) 第一种:安装完MySQL之后,MySQL提供大家的客户端程序 …

DASCTF X GFCTF 2022十月挑战赛-hade_waibo

这是一个非预期解&#xff0c;但是得到出题人的赞许&#xff0c;莫名开心&#xff0c;哈哈&#xff1a; cancan need处存在任意文件读取 <!DOCTYPE html> <html lang"en" class"no-js"> <head> <meta charset"UTF-8" />…

引爆记忆广告语盘点

在数字化、流量红利见顶、营销环境巨变的进程中&#xff0c;品牌传播的节奏从快到稳。品牌出圈更需要产品、渠道、内容、文化等方面的共振影响&#xff0c;其中广告语作为品牌定位和价值主张的核心载体&#xff0c;是连接消费者心智的重要品牌资产。 根据益普索Ipsos《引爆记忆…

uni-app、小程序项目分包经验之谈与天坑异常:RangeError: Maximum call stack size exceeded

小程序分包经验之谈与天坑异常&#xff1a;RangeError: Maximum call stack size exceeded小程序分包概述分包配置参数&#xff1a;subPackages分包预载配置参数&#xff1a;preloadRule如何使用实际小程序项目分包项目结构配置分包配置分包预载天坑异常场景分析猜想尝试解决解…

springboot配置多个数据源

一.多数据源的典型使用场景 在实际开发中,经常可能遇到在一个应用中可能要访问多个数据库多的情况,以下是两种典型场景 1.业务复杂 数据分布在不同的数据库中,数据库拆了,应用没拆.一个公司多个子项目,各用各的数据库,设计数据共享 2.读写分离 为了解决数据库的性能瓶颈(读…

C++内存管理和模板

目录 内存管理 new T[N] new和delete关键字的总结&#xff1a; 定位new表达式(placement-new)&#xff1a; 作用&#xff1a; 使用格式&#xff1a; 使用场景&#xff1a; 实例&#xff1a; 调用析构函数的两个方法&#xff1a; 池化技术&#xff1a; 面试题&#xff1…

Unity 分享 功能 用Unity Native Share Plugin 实现链接、图片、视频等文件的分享+ 安卓 Ios 都可以,代码图文详解

Unity 分享 功能 用Unity Native Share Plugin 实现链接、图片、视频等文件的分享 安卓 Ios 都可以&#xff0c;代码图文详解前言环境效果一、Unity Native Share Plugin导入1.下载2.导入二、案例1.分享文字1.脚本2.发包注意2.分享视频1.完善下刚才的脚本2.给复制按钮添加点击事…

【Linux】Linux环境搭建

​&#x1f320; 作者&#xff1a;阿亮joy. &#x1f386;专栏&#xff1a;《学会Linux》 &#x1f387; 座右铭&#xff1a;每个优秀的人都有一段沉默的时光&#xff0c;那段时光是付出了很多努力却得不到结果的日子&#xff0c;我们把它叫做扎根 目录&#x1f449;Linux的介…

【QT 自研上位机 与 STM32F103下位机联调>>>通信测试-基础样例-联合文章】

【QT 自研上位机 与 STM32F103下位机联调>>>通信测试-基础样例-联合文章】1、概述2、实验环境3、联合文章&#xff08;1&#xff09;对于上位机&#xff0c;可以参照如下例子&#xff08;2&#xff09;对于下位机&#xff0c;可以参照如下例子4、QT上位机部分第一步&a…

python中os库的使用

目录介绍1 listdir(path: str)2 path.isdir(path: str)3 path.isfile(path: str)4 path.join(path: str, file: str)5 path.getsize(path: str)介绍 本博客记录python中os库的一些函数使用。 1 listdir(path: str) listdir()函数输入一个目录&#xff0c;返回该目录下的所有…

web前端 html+css+javascript游戏网页设计实例 (网页制作课作业)

&#x1f389;精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

数字化浪潮下,低代码能否加速企业的数字化转型

随着加快建设数字中国的目标明确下来&#xff0c;市场上与数字化相关的企业都得到了极大鼓舞&#xff0c;这不仅意味着后续数字领域的加速发展&#xff0c;更是代表着数字化已经完全可以向各行各业拓展&#xff0c;大力推进数字化建设。数字中国也说明了数字化并不能只是限制在…

FastTunnel Win10内网穿透实现远程桌面

目录 一、需求 二、购买公网服务器 三、远程公网服务器 四、FastTunnel 的使用 1.下载 FastTunnel 2.启动服务器端 3.启动客户端 五、测试 六、安装服务 结束 一、需求 FastTunnel 简介 高性能跨平台内网穿透工具&#xff0c;使用它可以实现将内网服务暴露到公网供…

【数据结构与算法】时间复杂度和空间复杂度

✨ 个人主页&#xff1a;bit me ✨ 当前专栏&#xff1a;数据结构 &#x1f31f;每日一语&#xff1a;窗外有风景 笔下有前途 低头是题海 抬头是鹏程 时间复杂度和空间复杂度的认知&#x1f30e; 一. 如何衡量一个算法的好坏&#x1f319; 二. 算法效率&#x1fa90; 三. 时间…

Word处理控件Aspose.Words功能演示:在 Python 中将 TXT 文件转换为 PDF

各种人使用记事本以TXT格式记下重点或快速创建笔记。此外&#xff0c;TXT 文件用于在各种应用程序中存储纯文本。但是&#xff0c;由于记事本不提供高级功能&#xff0c;因此 TXT 文件通常会转换为PDF。为了以编程方式自动将 TXT 转换为 PDF&#xff0c;本文介绍了如何在 Pytho…

WEB API 接口签名sign验证入门与实战

目录参考什么是加解密加密方式分类对称加密技术非对称加密技术&#xff08;RSA加密算法&#xff09;&#xff08;数字证书&#xff09;场景1&#xff1a;公钥加密&#xff0c;私钥解密场景2&#xff1a;秘钥加密&#xff1a;数字签名&#xff0c;公钥解密&#xff1a;验证签名M…

从位运算理解位图

位图是一种较难理解的数据结构&#xff0c;想了解位图&#xff0c;我需要先温习一下基础&#xff0c;复习下一些二进制的知识 位运算 1个字节8个二进制位 二进制每逢二进一&#xff0c;下面是二进制对应的十进制转换方式 二进制十进制0000 00012^010000 00102^120000 00112…

用户故事地图怎么用?实践才能出真知

在产品设计和交互过程中&#xff0c;用户体验是一个非常重要的部分。 随着产品的逐渐完善&#xff0c;主创团队也需要通过各个维度来了解用户需求&#xff0c;完善用户的整体体验。在这里&#xff0c;我们经常用到的一个实践是用户故事地图。 一、用户故事地图是什么&#xff…

【Linux】指令及权限管理的学习总结

文章目录1️⃣ Linux的文件系统结构简介2️⃣ Linux下的基本指令1. ls2. pwd3. cd4. touch5. mkdir6. rm7. rmdir8. cp9. mv10. cat11. more12. less13. head14. tail15. find16. grep17. zip18. unzip19. tar20. uname3️⃣ Linux下的权限权限管理1. 文件的访问者分类&#xf…

【C++】多态

1.多态 1.1多态的概念&#xff1a; 多态&#xff1a;就是多种形态&#xff0c;具体点就是去完成某个行为&#xff0c;当不同的对象去完成时会产生出不同的状态。李明要吃饭&#xff0c;那就要吃早饭&#xff0c;午饭&#xff0c;晚饭&#xff0c;而不是一天只吃午饭这种单一…