【K哥爬虫普法】字节前高管,离职后入侵今日头条数据库,是阴谋、还是利诱?

news2024/11/28 16:28:08

00

案情介绍

2016年至2017年间,张洪禹、宋某、侯明强作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用技术手段抓取北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。

上海晟品网络科技有限公司系有限责任公司,经营计算机网络科技领域内的技术开发、技术服务、电子商务、电子产品等业务。张洪禹系上海晟品网络科技有限公司法定代表人兼 CEO,负责公司整体运行;宋某于担任联席 CEO,系产品负责人;侯明强担任 CTO,系技术负责人;郭辉系爬虫工程师。张洪禹、宋某、侯明强经共谋,于2016年至2017年间采用技术手段抓取北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯明强指使郭辉破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制。

法院观点

上海晟品网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处。

判决情况

一、被告单位上海晟品网络科技有限公司犯非法获取计算机信息系统数据罪,判处罚金人民币二十万元;

二、被告人张洪禹,公司法人,判处有期徒刑一年,缓刑一年,罚金人民币五万元;

三、被告人宋某,公司联席 CEO,判处有期徒刑十个月,罚金人民币四万元;

四、被告人侯明强,公司 CTO,判处有期徒刑十个月,罚金人民币四万元;

五、被告人郭辉,公司爬虫工程师,判处有期徒刑九个月,罚金人民币三万元。

判决文书

https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=MPLip4EWDjh9zFMynhJEDY2kWOpbFwvZtPEdVrbJScMcXmVREqnhq5/dgBYosE2gc2cTGVpSTHaQan7hFsr1Z6mYwI6RzsnUzvVPy0+MTg3rOSlgqYAVDwEt8REDgSY9

案例分析

本案中上海晟品网络科技有限公司,采用技术手段获取今日头条服务器中存储的数据并存储到自己的数据库中,内容包括头条号视频列表、分类视频列表、相关视频及评论三个接口,符合我国《刑法》第二百八十五条关于非法获取计算机信息系统数据罪的认定:“违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重”。

当然,有人会问了,视频及评论都是正常用户可以看到的公开数据,爬取为什么会触犯法律?这里需要注意的一点是”信息公开不等于数据公开“,就像政府信息公开主要在保障公众的知情权,知情并不等于获得,获得也不等于可利用,真正意义上的数据开放主要是指原始数据的开放。头条号之所以将视频信息内容允许用户观看,无非是网站或平台吸引用户的一种商业操作,并不意味着用户可以永久地享有该视频信息内容,具体到本案,今日头条采用的是流媒体技术播放,用户在观看视频时需要同时缓存该视频,但是观看完毕后,该视频的数据文件也随即消失。缓存与复制下载的区别在于,缓存意味着断电即无,而复制下载则意味着可以永久保存。因此,网站采用流媒体播放这一技术本身即意味着视频数据的非公开性,也同时意味着行为人爬取其视频文件的非法性。反之,如果网站允许用户复制、下载视频,或者说并未采取技术措施对视频数据予以保护,则意味着视频数据的公开,即使是行为人采用爬虫技术一次性大量抓取数据,也由于数据的公开性而丧失了刑法规制的必要性。

值得探讨的是,晟品网络公司在数据抓取的过程中,虽然使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制,但并不属于破解系统登陆密码或利用系统安全漏洞的爬虫行为,只是让反爬虫措施无法识别,本身并不具有刑法上的违法性,被告是否通过冒用用户 ID 并破解密码等方式进行未经授权的访问,无法得知,如果仅仅是设备 ID、UA、IP 的变换,本文认为并不具有特定的刑法意义,判决文书中也并未对此进行详细的描述。

反爬机制主要是针对网络爬虫的技术特征而对其实施的反制。网络爬虫的技术本质在于模拟人工手动点击从而可以一次性大量地获取数据信息,因此一般反爬机制的主要目的并非禁止对方对于网站或平台的访问,而是禁止或拒绝采用不合适的方式进行访问与浏览,例如并发过高引起的类 DDOS 行为。而身份认证机制的设置,其根本目的则在于划定网站或平台自身的隐私范围与控制领域,换言之,是为了确定计算机信息系统安全的领域与范围。据此反爬机制与身份认证机制在范围上可以产生交叉,但绝非一致,混为一谈的行为可能会降低刑事入罪的门槛从而增加了互联网用户的刑事风险,绕过反爬不一定属于刑事犯罪。

从最终的判决情况可以看出,和K哥之前写过的深圳快鸽案一样,CTO、CEO 负责并授权程序员开发涉案的爬虫程序,系主犯,程序员受指派开发爬虫软件,在共同犯罪中起次要作用,系从犯,但是!程序员同样承担了相应的法律责任!刑事犯罪留下的档案记录可能会影响三代人,也就意味着子女和孙儿都会受影响! **爬虫工程师们要多对需求进行理性分析,隐患大的需求该拒绝就拒绝,以目前已经判决了的各类爬虫案例来看,越过了法律的红线,无论最后是不是“集体买单”,爬虫工程师都不可能置身事外!愿各位爬虫工程师们:知敬畏、存戒惧、守底线,警钟长鸣**!

本案很有意思的一点是,宋某和侯明强都为前字节视频项目组的高管,一个是项目经理、一个是技术负责人,从字节离职后反手爬头条视频及评论做利益转化,大家对此有什么看法呢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/402213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23模式--代理模式

本篇主要聊一些23中模型中的代理模式: 看一下百度百科的解释: 代理模式的定义:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目…

Python连接MySQL实现增删改查详细教程

文章目录前言一、环境准备二、操作步骤1.安装Python依赖库2.创建测试数据表3. 编写操作数据库核心类4. 测试数据添加5. 测试数据删除6. 测试数据更新7. 测试数据查询三、完整代码总结前言 Python语言经过了很多年的发展,生态非常丰富,热度只增不减&…

微搭问搭001-如何清空表单的数据

韩老师,我点关闭按钮后,弹窗从新打开,里面的数据还在,这个可以从新打开清除不? 点关闭的时候清掉 就是清楚不掉也?咋清掉 清掉表单内容有属性可以做到? $page.widgets.id**.value “” 就可以实…

HCIP-5.4OSPF路由聚合、缺省路由

1、路由聚合 OSPF 是一种链路状态路由协议,因此 OSPF路由器不传输路由,而是传输链路状态信息。因此,OSPF 路由通过汇总 LSA 来控制链路状态信息的传输,从而减小 LSDB 数据库的大小,进而控制路由的汇总。 由于OSPF路由…

Object对象键值的输出循序到底如何排列的?

1.日常摸鱼看八股 今天又是复习八股文的一天,发现还是彻底懂得原理才好和面试官吹牛批呀。 接着来看看我chat大宝贝的回答: 在现代浏览器中,Object 对象的键值输出循序是比较稳定的,通常是按照如下顺序输出: 所有的数…

打怪升级之如何发送HEX进制的数据出去

Hex数据老大难 不少人都困扰于如何将电脑中读取到的string类型的数据变成整形发送出去。一半来说,不论你调用的通信方式是串口的还是网络的,亦或是PCIE的,其在电脑端的实际情况都是以系统API的形式呈现的。而系统API函数提供的接口&#xff…

项目实战典型案例23——-注册上nacos上的部分服务总是出现频繁掉线的情况

注册上nacos上的部分服务总是出现频繁掉线的情况一:背景介绍二:思路&方案解决问题过程涉及到的知识nacos服务注册和服务发现一:背景介绍 spring cloud项目通过nacos作为服务中心和配置中心,出现的问题是其中几个服务总是出现…

【电子通识】案例:从YS-CH341T USB转IIC和UART模块使用学习如何找资料

最近在调一个充电芯片,要用到IIC与充电芯片通信来读取和写入充电芯片寄存器,控制充电芯片的各种参数。从以前老员工那里捡到一个这样的模块,模块背面写了YS-CH341T。看着有IIC通信的样子,所以先在网上找一下资料。首先先在网上找到…

npm安装依赖包:405 Method Not Allowed...

运用npm安装依赖包时报错,错误如下。 解决思路: 关注到错误信息上写明了 Method Not Allowed,其后注明了 GET请求以及一个url,说明极有可能是不允许向这个路由发送GET请求; 在浏览器中尝试打开这个地址,结…

在分析了共50亿美元的加密融资之后,我们发现了这些

对加密市场嗅觉敏锐的玩家来说,市场中项目融资是不得不关注的选项,不少优质项目拿到了巨额融资之后,被大家所关注,在20-21年期间,行业内也出现了不少一级机构,布局早期项目,获取时代红利已经成为…

圆桌(满足客人空座需求,合理安排客人入座圆桌,准备最少的椅子)

CSDN周赛第30期第四题算法解析。 (本文获得CSDN质量评分【91】)【学习的细节是欢悦的历程】Python 官网:https://www.python.org/ Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单…… 地址:https://lq…

什么是业务运营?关键组成部分有哪些?

企业领导者使用收入运营和智能软件等技术来分析买家的不同接触点。这些见解决定了客户互动的成败,从而改善了业务运营,从而带来了成功。 什么是业务运营? 业务运营包括企业为保持盈利而执行的一系列日常任务。虽然这些任务可能因业务类型或行…

主辅助服务市场出清模型研究【旋转备用】(Matlab代码实现)

👨‍🎓个人主页:研学社的博客💥💥💞💞欢迎来到本博客❤️❤️💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密…

【已解决】Python的坑:os.system()运行带有空格的长路径和双引号参数有bug

在Python代码里运行DOS命令,可以使用os库的os.system()函数。其用法很简单,需要注意的是os.system不会返回输出的结果赋予一个变量。今天我发现了一个bug:当DOS命令行带有双引号路径、双引号参数时,os.system()运行的结果总是显示…

带你认识什么是485通信

在现代工业控制系统中,常常需要实现分布式控制,而分布式控制需要实现不同设备之间的通信。其中,485通信协议是一种被广泛使用的通信协议之一。1. 介绍A. 485通信的定义485通信协议是一种串行通信协议,也被称为RS-485。它是由美国电…

300. 最长递增子序列——【Leetcode每日刷题】

300. 最长递增子序列 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的子…

leetcode 1648. 销售价值减少的颜色球

1648. 销售价值减少的颜色球这道题不知为何总想记录下来,思路很简单,但是实现总是出错,这也许就是要记录的原因。再一个觉得题解写的比较难以理解,所以再细致一些解析。希望可以帮到实在搞不懂的同学 思路: 目的:我们…

聚观早报|谷歌发布最大视觉语言模型;王兴投资王慧文ChatGPT项目

今日要闻:谷歌发布全球最大视觉语言模型;马斯克预计Twitter下季度现金流转正;王兴投资王慧文ChatGPT项目;美国拟明年 11 月开展载人绕月飞行;慧与科技宣布收购Athonet谷歌发布全球最大视觉语言模型 近日,来…

RocketMQ重复消费的症状以及解决方案

RocketMQ重复消费的症状以及解决方案 生产消息时重复 症状 当一条消息已被成功发送到 消费者 并完成持久化,此时出现了网络闪断或者客户端宕机,导致服务端对客户端应答失败。 如果此时 生产者 意识到消息发送失败并尝试再次发送消息,消费者…

学习 Python 之 Pygame 开发魂斗罗(十一)

学习 Python 之 Pygame 开发魂斗罗(十一)继续编写魂斗罗1. 改写主类函数中的代码顺序2. 修改玩家初始化3. 显示玩家生命值4. 设置玩家碰到敌人死亡5. 设置敌人子弹击中玩家6. 修改updatePlayerPosition()函数逻辑继续编写魂斗罗 在上次的博客学习 Pytho…