【K哥爬虫普法】百度、360八年乱战,robots 协议之战终落幕

news2024/9/21 10:49:43

00

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

前情提要

《互联网搜索引擎服务自律公约》(简称《自律公约》)系在工业和信息化部的指导下,由中国互联网协会牵头组织十二家互联网企业于2012年11月1日在北京举行签订,参与企业包括:百度、即刻搜索、盘古搜索、奇虎 360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等。该公约第七条第一款规定:遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots 协议)。第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

案情介绍

一审受理:2013年1月28日、二审终判:2020年7月3日,为期时长八年!

上诉人:

北京百度网讯科技有限公司(简称百度网讯公司)

百度在线网络技术(北京)有限公司(简称百度在线公司)

被上诉人:

北京奇虎科技有限公司(简称奇虎公司,360)

百度网讯公司和百度在线公司称,其相关网站均通过 robots 协议设置了访问限制,其 robots 协议采取的是“白名单”制度,即只有该文件中明确列举的搜索引擎的网络机器人才能抓取百度旗下相关网站的内容,未列举的其他搜索引擎均不能抓取。2012年8月16日,360 搜索引擎上线运营,但百度网讯公司和百度在线公司的相关网站的 robots 协议均未将 360 搜索引擎列入其“白名单”中。百度方面认为,360 搜索在未获得百度公司允许的情况下,违反业内公认的 robots 协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元

百度方面称,奇虎公司利用 360 搜索引擎等,强行抓取网民的浏览数据和信息到搜索服务器,完全无视 robots 协议,这一做法目前已经导致大量企业内网信息被泄露。2012年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证明了 360 浏览器存在私自上传“孤岛页面”等隐私内容到 360 搜索的行为。

360 方面则认为,360 搜索索引这些内容页面并不涉嫌侵犯百度的权益,实际上还为百度带来了大量的用户和流量,百度应该感谢 360。

百度公司在本案中指控奇虎公司的 360 搜索存在以下不正当竞争行为:

  1. 无视百度公司设置的 robots 协议,擅自抓取、复制百度网站相关页面并生成网页快照复制件存储于奇虎公司自身服务器中;

  2. 在明确得知百度公司拒绝其抓取百度网站内容后,仍然继续抓取、复制百度网站内容并生成网页快照复制件存储于奇虎公司自身服务器中;

  3. 在网络用户点击 360 搜索的搜索结果页中来自于百度网站的链接的标题时,直接向网络用户提供其复制存储在自身服务器上的“网页快照”等,上述行为构成不正当竞争。

奇虎公司也认为百度网讯公司、百度在线公司存在不正当竞争行为,奇虎公司提交的(2013)京方圆内经证字第00364号公证书、(2013)京方圆内经证字第06932号公证书、(2013)京方圆内经证字第11476号公证书及(2015)京方圆内经证字第00228号公证书显示,自2012年8月以来,百度网讯公司、百度在线公司一直在其相关网站的 robots 协议中排除 360 搜索引擎。百度网讯公司、百度在线公司对上述事实予以认可,但认为 robots 协议是国际通行的行业惯例和商业道德,允许和/或限制全部和/或特定搜索引擎抓取是 robots 协议的应有之义,百度 robots 协议的“白名单”制度仅允许特定的几家搜索引擎抓取,对除此之外的所有其他搜索引擎均不允许抓取,不存在不正当竞争行为。

奇虎公司提交的(2013)京方圆内经证字第05960号公证书显示,使用 360 搜索引擎搜索到百度的相关网站后,在点击访问时,会出现访问被阻断并跳转到百度搜索引擎网站的现象。奇虎公司认为百度采取的相关技术措施会导致网络用户在使用 360 搜索引擎时的用户体验度下降。百度网讯公司、百度在线公司对上述事实予以认可,但认为这是针对奇虎公司不遵守百度 robots 协议而采取的自力救济措施。

法院观点

百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网页的抓取与 robots 协议的初衷背道而驰。robots 协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息,从而更好的促进信息共享,而百度网讯公司、百度在线公司的行为会造成网络用户通过 360 搜索引擎无法得到完整的搜索结果,人为设置了信息流动的障碍。需要强调的是,360 搜索引擎属于通用搜索引擎,而通用搜索引擎的网络机器人进入一个对公众开放的网站抓取信息通常并不会损害网站的利益,反而有利于其宣传推广。事实上,目前绝大多数网站对通用搜索引擎持开放、欢迎的态度,因为如果被搜索到,就意味着更多的网页浏览量以及由此而带来的潜在用户。也正是由于这个原因,绝大多数网站非但不会使用 robots 协议禁止通用搜索引擎抓取,反而希望能够更快的被搜索出来并展示在搜索结果中较为前列的位置,这也促成了搜索引擎竞价排名等商业模式的产生。而百度网讯公司、百度在线公司却在允许国内外主流搜索引擎抓取其网页内容的情况下,限制 360 搜索引擎抓取,其行为显然有悖于robots协议的初衷

就我国目前互联网搜索行业的发展现状来看,百度搜索引擎在市场份额上占据绝对优势,而 360 搜索所占的市场份额较小。在这种情况下,百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网站内容的抓取,会导致网络用户在使用 360 搜索引擎时无法及时获取所需信息,转而使用百度搜索引擎,这不仅会降低 360 搜索的用户满意度,损害奇虎公司的合法权益,也会在客观上增强百度搜索引擎的市场优势地位。不难想象,如果国内各主要网站都针对某一特定的搜索引擎以设置 robots 协议的方式限制其抓取,这一搜索引擎必然无法在市场上立足。事实上,包括互联网工程任务组在内的一些重要的国际组织拒绝采纳 robots 协议作为行业标准的原因就是考虑到少数行业巨头可能会利用 robots 协议本身的漏洞而将其作为垄断的工具。因此,百度网讯公司、百度在线公司以设置 robots 协议的方式限制 360 搜索引擎抓取的动机难谓正当

百度网讯公司、百度在线公司还主张其设置 robots 协议是针对奇虎公司的侵权行为而采取的自力救济措施,对此,如果网站所有者认为搜索引擎的抓取侵犯了其某项具体的民事权利,应当通过相应的法律途径寻求救济,而不应以限制互联网信息流动的方式进行所谓的自力救济,故百度网讯公司、百度在线公司的主张不能成立。

**法院认为:**百度在线公司、百度网讯公司在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇虎公司的 360 搜索引擎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,损害了奇虎公司的合法权益和相关消费者的利益,妨碍了正常的互联网竞争秩序,违反公平竞争原则,且违反诚实信用原则和公认的商业道德而具有不正当性,不制止不足以维护公平竞争的秩序,故构成反不正当竞争法第二条规定所指的不正当竞争行为。

根据第2668号判决:奇虎公司的搜索引擎直接将百度公司相关网页的链接更换为该网页的网页快照链接的行为明显已经超出了使用网页快照的合理范围,故对于百度公司关于奇虎公司将百度公司网站的搜索结果直接以网页快照的方式向网络用户提供的行为不当的主张予以支持。奇虎公司赔偿百度公司经济损失五十万元、合理开支二十万元。

判决情况

  • 百度网讯公司、百度在线公司立即停止涉案不正当竞争行为;

  • 百度网讯公司、百度在线公司于判决生效之日起十日内连带赔偿奇虎公司经济损失二十万元;

  • 百度网讯公司、百度在线公司于判决生效之日起三十日内在三家网站(www.360.cn,www.sina.com,www.sohu.com)首页的显著位置连续十日刊登声明,就其涉案不正当竞争行为为奇虎公司消除影响;

  • 二审案件受理费四千三百元,由百度网讯公司、百度在线公司负担;

  • 驳回奇虎公司的其他诉讼请求。

判决文书

https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=2hBPLhgZtbwA23kIOPykUj0dG01aCOIIPkk1AZnSayoXsuzZo9x8i5/dgBYosE2gc2cTGVpSTHaQan7hFsr1Zwgx9Ozn/Ie9t4Hw4I001PFz+vTgpLDCjyH0Qfy2ffn6

案例分析

robots 协议也称爬虫协议、爬虫规则等,是指网站可建立一个 robots.txt 文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取 robots.txt 文件来识别这个页面是否允许被抓取。但是,这个 robots 协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视 robots.txt 文件去抓取网页的快照**。** 如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(Metadata,又称元数据)。

robots 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私,例如商品上挂个“非卖品易碎勿碰”,是告诉顾客不要碰这件商品,但无法阻止顾客拿起来看的行为,未损坏也并不违法,故俗称 “君子协议”,并不具备法律效应。robots 协议的初衷并不是限制搜索引擎的网络机器人抓取信息、阻碍互联网信息流动,而是通过善意的指引使搜索引擎的网络机器人能够更有效的抓取对网络用户有用的信息,从而更好的促进信息共享。

结合本案,根据反不正当竞争法第二条第一款、第二款规定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。本法所称的不正当竞争,是指经营者违反本法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为。”在网络不正当竞争纠纷中,百度网讯公司、百度在线公司通过信息网络实施反不正当竞争法未作出特别规定的竞争行为,足以损害奇虎公司合法权益、扰乱正常的市场经营秩序,违背公平竞争原则,且违反诚实信用原则和公认的商业道德的,可以认定为反不正当竞争法第二条规定的不正当竞争行为

robots 协议有效性的认定,在适用范围上可以大致分为两类:一类是如本案在搜索引擎范围的适用,当 robots 协议适用搜索引擎领域时,应遵守《互联网搜索引擎服务自律公约》规定的开放、平等、写作、分享的互联网精神,设置限制时应具有行业公认合理正当的理由,否则 robots 协议并不当然有效;另一类为在非搜索引擎范围的适用,此时《互联网搜索引擎服务自律公约》则不宜再适用于整个互联网行业,对于常规爬虫行为,在法律上并未规定为违法行为或禁止使用的行为。

如今,在中国国内互联网行业,正规的大型企业也都将 robots 协议当做一项行业标准,国内使用 robots 协议最典型的案例,就是淘宝网拒绝百度搜索(2008年9月8日)、京东商城拒绝一淘网搜索(2011年10月25日),相关司法案例也屡见不鲜:百度诉 360 案、腾讯诉字节跳动案、大众点评诉百度案等等。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用 robots 协议。

爬虫工程师们也需要注意的一点是,基于现行的惯例,未被 robots 协议排除的数据属于互联网上的公开数据,任何人都有权访问和收集。因而,遵循 robots 协议的前提下公开爬取数据原则上既不会侵犯信息提供者的权利,也不会构成不正当竞争。反之,如果违反 robots 协议,强行爬取他人的数据,则可能被认定为违反诚实信用和商业道德,构成不正当竞争。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/359721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——MapReduce工作流程

1、流程示意图 MapReduce详细工作流程(一) MapReduce详细工作流程(二) 2、流程详解 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解&#xff0…

作为Linux C/C++程序员必备的工具

Linux系统 可以选择centOS或者ubautu server(不建议选择桌面版本的)。不建议裸机安装,玩坏了就特别麻烦。不建议使用有桌面版本的ubautu,在一定程度有桌面的版本的会消耗性能。 如果经济实力允许,可以购买云服务器。 参考文章: Ubuntu server…

一款基于各大企业信息API渗透工具

功能 剑指HW/SRC,解决在HW/SRC场景下遇到的各种针对国内企业信息收集难题 使用支持以下API,并支持合并数据导出 爱企查 (未登陆信息带*) 企查查(签名失效) 天眼查 阿拉丁 酷安市场 七麦数据 站长之家 veryvp 查询信息 IC…

15-基础加强3-单元测试日志

文章目录1.单元测试1.1概述【理解】1.2特点【理解】1.3使用步骤【应用】1.4相关注解【应用】2.日志2.1概述【理解】2.2日志体系结构和Log4J【理解】2.3入门案例【应用】1.单元测试 1.1概述【理解】 JUnit是一个 Java 编程语言的单元测试工具。JUnit 是一个非常重要的测试工具…

荧光标记ATTO647N NHS,ATTO 647N SE,ATTO 647N-琥珀酰亚胺酯用于单分子检测

【中文名称】 ATTO 647N-琥珀酰亚胺酯,ATTO 647N-活性酯【英文名称】 ATTO 647N-NHS,ATTO 647N NHS,ATTO 647N SE,ATTO 647N-NHS ester【光谱图】【CAS号】N/A【分子式】C46H55ClN4O5【分子量】779.41【基团部分】 ATTO【纯度标准…

5.6配置BGP联邦和团体属性

5.3.3配置BGP联邦和团体属性 1. 实验目的 熟悉BGP联邦和团体属性的应用场景掌握BGP联邦和团体属性的配置方法2. 实验拓扑 实验拓扑如图5-6所示: 图5-6:配置BGP联邦和团体属性 3. 实验步骤 (1)IP地址的配置 R1的配…

【Jmatpro 10.0】根据材料牌号输出应力-应变曲线

我的主页: 技术邻:小铭的ABAQUS学习的技术邻主页博客园 : HF_SO4的主页哔哩哔哩:小铭的ABAQUS学习的个人空间csdn:qgm1702 博客园文章链接: https://www.cnblogs.com/aksoam/p/17121006.html 1.前提条件 Jmatpro …

复盘会如何开出新花样?10种方式让你开出让人惊喜的复盘会【附复盘问题列表】

复盘是每个PMO和项目经理必备的技能之一,咱们分享过很多复盘的技巧和方法,如下:但是大家都会有个问题,那就是复盘形式单一,团队复盘几次就会失去兴趣?失去兴趣之后效果自然不会太好,如何把让大家…

C++设计模式(17)——备忘录模式

亦称: 快照、Snapshot、Memento 意图 备忘录模式是一种行为设计模式, 允许在不暴露对象实现细节的情况下保存和恢复对象之前的状态。 问题 假如你正在开发一款文字编辑器应用程序。 除了简单的文字编辑功能外, 编辑器中还要有设置文本格…

字符设备驱动基础(三)

目录 一、上下文和并发场合 二、中断屏蔽(了解) 三、原子变量(掌握) 四、自旋锁:基于忙等待的并发控制机制 五、信号量:基于阻塞的并发控制机制 六、互斥锁:基于阻塞的互斥机制 七、选择…

PMP备考经验—做题方法总结

考题类型 ITTO题 根据关键字考工具技术,输入输出的,所以掌握关键字是重点,典型的ITTO有六个:收集需求工具、质量管理工具、团队建设工具、管理团队的冲突跟了、风险应对的策略以及合同类型。PS:答案是工具技术或者文…

SVN无法连接到服务器的各种问题原因及解决办法

SVN专业使用教程详解 第一节 安装VisualSVN Server服务器 第一步 下载SVN服务器,需要链接的请私信。 点击下载的执行文档进行安装 选择组件 选择在部署 VisualSVN Server 时安装VisualSVN Server 和 Administration Tools 组件。 调整初始服务器配置 或者&…

带你一步步搭建Web自动化测试框架

测试框架的设计有两种思路,一种是自底向上,从脚本逐步演变完善成框架,这种适合新手了解框架的演变过程。另一种则是自顶向下,直接设计框架结构和选取各种问题的解决方案,这种适合有较多框架事件经验的人。本章和下一张…

【Django】缓存、中间件、分页、生成csv文件

一、缓存 定义:可以更快的读取数据的介质。一般用来存储临时数据,常用介质的是读取数据很快的内存。 缓存场景: 1、博客列表页 2、电商商品详情页 场景特点:缓存的地方,数据变动频率较少 1、数据库缓存 当把一次负…

研究 “B表里的数据是否全部都在A表里“ 的问题

背景 研究 “B表里的数据是否全部都在A表里” 的问题,那种写法比较合理效率高? 假设有A表和B表,B表通过自身外键和A表关联,查出B表中的外键值不在A中的。 过程 假设我们有t_master和t_pet表,即主人和宠物表&#x…

TPM密钥管理、使用

前面讲过证书相关内容,除了在软件方面有所应用外,在硬件方面也有很多应用。本次讲一下TPM相关的内容。 一、TPM介绍 1.1背景 TCG基于硬件安全的架构是为应对1990s后期日益增多的复杂恶意软件攻击应用而生的。当时以及现在,抵御PC客户端网络…

蓝桥杯刷题025——推导部分和(加权并查集)

2022省赛 问题描述 对于一个长度为 N 的整数数列 ​, 小蓝想知道下标 l 到 r 的部 分和是多少? 然而, 小蓝并不知道数列中每个数的值是多少, 他只知道它的 M 个部分和 的值。其中第 i 个部分和是下标 ​ 到 的部分和 , 值是 。 输入格式 第一行包含 3 个整数 N、M 和 Q 。分…

Java 如何通过JDBC 操作MySQL数据库

Java 如何通过JDBC 操作MySQL数据库开发准备实际开发1,加载并注册JDBC 驱动2,创建数据库连接3,创建Statement 对象4,遍历查询结果5,关闭连接,释放资源完整代码实现JDBC 是Java 数据库连接,即 Ja…

客户服务知识库的最佳实践7个步骤

每个公司的声誉都依赖于客户,如果客户因为想要购买你的产品找到你,但是了解到你的客户服务做的不好,可能也会放弃你的产品,就像市场营销依赖于潜在客户的关系一样,公司的服务部门也需要依赖于现有客户的关系&#xff0…

OCT 医学图像分类

目录1. OCT 图像分类2. OCT图像数据集3. OCT图像预处理4. 特征提取5. 实验结果及分析github地址: https://github.com/aishangcengloua/OCT_Classification 1. OCT 图像分类 视网膜光学相干断层扫描(OCT)是一种成像技术,用于捕获活体患者视网膜的高分辨率横截面。…