防止用户过于轻松采集网页内容的方法

防止用户过于轻松采集网页内容的方法

news2025/4/27 20:29:14

面对AI，所有禁止采集网页内容的功能都是徒劳，最不济截图后采集文字总简单了吧？能做的就是增加一点点人工采集的难度。
以下总结一下

一、注册用户

必须注册才能浏览全部内容，那么这样就可以针对用户控制其浏览次数，浏览时长，记录部分操作等等。但如果是普通网站，用了这个方法就是把自己给卡死了。

同理，用ip、cookie的方式限制一下也算是聊胜于无吧。

二、数据必须用js调用

基本是没用的，但可以把禁止复制黏贴的功能放在js里，略微增加一丢丢难度。

三、页面禁止操作

以下是禁止键盘ctrl+c，禁止鼠标点击复制

<script type="text/javascript">
document.addEventListener('keydown', function (e) {
  if (e.ctrlKey && (e.keyCode === 67 || e.keyCode === 86 || e.keyCode === 85 || e.keyCode === 117)) {
    return false;
  }
});

document.addEventListener('mousedown', function (e) {
  if (e.button === 2 || e.button === 3) {
    return false;
  }
});

document.addEventListener('copy', function (e) {
  e.preventDefault();
});
</script>

以下是禁止页面鼠标选中

body{
-webkit-user-select: none; /* Safari */
-moz-user-select: none; /* Firefox */
-ms-user-select: none; /* Internet Explorer/Edge */
user-select: none;
}

四、换其它格式

重要文档就不直接写在web里，比如招标内容，转而使用word，加入水印背景，另存为pdf或图片。
注意pdf需要禁止编辑。

五、改变页面布局

机器人采集一般是针对固有的网页格式，比如<div id="content">xxxx</div>，那么采集的时候就采集id为content的div中的内容。

针对这个特性，那么可以定期把div改为p，把content改为ccc…就是这个意思吧，但这样对搜索引擎并不友好，仅仅能防止机器采集，人工也毫无影响。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2152054.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ActiveMQ、RabbitMQ 和 Kafka 在 Spring Boot 中的实战

ActiveMQ、RabbitMQ 和 Kafka 在 Spring Boot 中的实战

在现代的微服务架构和分布式系统中，消息队列是一种常见的异步通信工具。消息队列允许应用程序之间通过生产者-消费者模型进行松耦合、异步交互。在 Spring Boot 中，我们可以通过简单的配置来集成不同的消息队列系统，包括 ActiveMQ、Rabbit…

阅读更多...

多层感知机paddle

多层感知机paddle

多层感知机——paddle部分本文部分为paddle框架以及部分理论分析，torch框架对应代码可见多层感知机 import paddle print("paddle version:",paddle.__version__)paddle version: 2.6.1多层感知机（MLP，也称为神经网络&#xff0…

阅读更多...

QEMU：模拟 ARM 大端字节序运行环境

QEMU：模拟 ARM 大端字节序运行环境

文章目录 1. 前言2. ARM 大小端模拟测试2.1 裸机模拟测试2.1.1 大端模拟测试2.1.2 小端模拟测试 2.2 用户空间模拟测试2.2.1 大端模拟测试2.2.2 小端模拟测试 2.3 结论 3. 参考链接 1. 前言限于作者能力水平，本文可能存在谬误，因此而给读者带来的损失&…

阅读更多...

leetcode刷题3

leetcode刷题3

文章目录前言回文数1️⃣ 转成字符串2️⃣ 求出倒序数再比对正则表达式匹配[hard]1️⃣ 动态规划盛最多水的容器1️⃣ 遍历分类2️⃣ 双指针贪心最长公共前缀1️⃣ 遍历（zip解包） 三数之和1️⃣ 双指针递归最接近的三数之和1️⃣ 迭代一次双指针电…

阅读更多...

携手阿里云CEN：共创SD-WAN融合广域网

携手阿里云CEN：共创SD-WAN融合广域网

在9月19日举行的阿里云云栖大会上，犀思云作为SD-WAN领域的杰出代表及阿里云的SD-WAN重要合作伙伴，携手阿里云共同推出了创新的企业上云方案——Fusion WAN智连阿里云解决方案。这一创新方案不仅彰显了犀思云在SD-WAN技术领域的深厚积累，更体现…

阅读更多...

前端web端项目运行的时候没有ip访问地址

前端web端项目运行的时候没有ip访问地址

我们发现没有netWork 的地址导致团队内其他同学无法打开我们的地址进行访问在page.json 中的运行指令中添加 --host 记得加上空格这样我们就可以看到这个地址了团队其他同学就可以访问我们这个地址了

阅读更多...

Resnet50网络——口腔癌病变识别

Resnet50网络——口腔癌病变识别

一数据准备 1.导入数据 import matplotlib.pyplot as plt import tensorflow as tf import warnings as w w.filterwarnings(ignore) # 支持中文 plt.rcParams[font.sans-serif] [SimHei] # 用来正常显示中文标签 plt.rcParams[axes.unicode_minus] False # 用来正常显示负…

阅读更多...

2024华为杯研究生数学建模竞赛（研赛）选题建议+初步分析

2024华为杯研究生数学建模竞赛（研赛）选题建议+初步分析

难度：DE<C<F，开放度：CDE>F。华为专项的题目（A、B题）暂不进行选题分析，不太建议大多数同学选择，对自己专业技能有很大自信的可以选择华为专项的题目。后续会直接更新A、B题思路&#…

阅读更多...

计算机网络传输层---课后综合题

计算机网络传输层---课后综合题

线路：TCP报文下放到物理层传输。 TCP报文段中，“序号”长度为32bit，为了让序列号不会循环，则最多能传输2^32B的数据，则最多能传输：2^32/1500B个报文结果： 吞吐率一个周期内传输的数据/周期时间…

阅读更多...

2024/9/19、20 数学20题

2024/9/19、20 数学20题

极大线性无关组：

阅读更多...

基于C#+SQL Server2005（WinForm）图书管理系统

基于C#+SQL Server2005（WinForm）图书管理系统

图书管理系统一、首先把数据库脚本贴出来(数据库名为library) USE [library] GO /****** Object: Table [dbo].[books] Script Date: 06/12/2016 11:27:12 ******/ SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO CREATE TABLE [dbo].[books]([bNum] [nvarchar](10…

阅读更多...

Arthas sysprop（查看和修改JVM的系统属性）

Arthas sysprop（查看和修改JVM的系统属性）

文章目录二、命令列表2.1 jvm相关命令2.1.4 sysprop（查看和修改JVM的系统属性）举例1：sysprop 查看所有系统属性举例2：sysprop java.version 查看单个属性，支持通过tab补全二、命令列表 2.1 jvm相关命令 2.1.4 sysp…

阅读更多...

STL-常用算法遍历/查找/排序/拷贝和替换/算数生成/集合算法

STL-常用算法遍历/查找/排序/拷贝和替换/算数生成/集合算法

STL常用算法常用的遍历算法 for_each #define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std; #include<vector> #include<algorithm>void myPrint(int v) {cout << v << " "; }class MyPrint { public:void op…

阅读更多...

React学习笔记（三）——React 组件通讯

React学习笔记（三）——React 组件通讯

1. 组件通讯-概念了解组件通讯的意义大致步骤： 知道组件的特点知道组件通讯意义具体内容： 组件的特点组件是独立且封闭的单元，默认情况下，只能使用组件自己的数据在组件化过程中，通常会将一个完整的功能拆分成多…

阅读更多...

cesium.js 入门到精通(5-2)

cesium.js 入门到精通(5-2)

在cesium 的配置中有一些参数可以配置地图的显示显示出水的动态显示山的效果相当于一些动画显示的效果 var viewer new Cesium.Viewer("cesiumContainer", {infoBox: false,terrainProvider: await Cesium.createWorldTerrainAsync({requestWaterMask: tru…

阅读更多...

【计算机网络】计算机网络基础二

【计算机网络】计算机网络基础二

🍑个人主页：Jupiter. 🚀 所属专栏：Linux从入门到进阶欢迎大家点赞收藏评论😊 目录以太网的通信原理令牌环网的通信原理网络传输基本流程数据包封装和分用网络传输流程图局域网通信（同一个网段内的两台…

阅读更多...

PY+MySQL（等先完成mysql的学习）

PY+MySQL（等先完成mysql的学习）

第一章：准备工作（重点关于mysql） win安装下载： 网址：MySQL :: Download MySQL Community Server版本：我的是8.0，但是建议5.7 下载：安装，因为是zip文件所以直接解压就好了…

阅读更多...

股价预测，非线性注意力更佳？

股价预测，非线性注意力更佳？

作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：本文探讨了在 transformer 模型中使用非线性注意力来预测股票价格的概念。我们讨论了黎曼空间和希尔伯特空间等非线性空间的数学基础，解释了为什么非线性建模可能是有利的，并提供了在代码中实现这种…

阅读更多...

MySQL 主从复制部署与优化

MySQL 主从复制部署与优化

文章目录前言在现代数据库管理中，MySQL 主从复制是一种关键技术，用于提高数据的可用性和性能。随着 Docker 容器技术的普及，利用 Docker 搭建 MySQL 主从复制环境已成为一种趋势，它提供了一种简便、高效且可扩展的解决方案。本…

阅读更多...

828华为云征文｜Flexus X实例Docker+Jenkins+gitee实现CI/CD自动化部署-解放你的双手~

828华为云征文｜Flexus X实例Docker+Jenkins+gitee实现CI/CD自动化部署-解放你的双手~

目录前言实验步骤环境准备安装Portainer 拉取镜像更换镜像源启动容器安装jenkins 拉取镜像获取管理员密码新建流水线项目 Portainer配置 gitee配置WebHooks 构建修改代码，自动部署前言 🚀 828 B2B企业节特惠来袭，…

阅读更多...

推荐文章

最新文章