我们的网站被狗爬了!

news2024/9/17 8:52:10

大家好,我是程序员鱼皮。

世风日下,人心不古。我们的程序员面试刷题网站 《面试鸭》 才刚刚上线了一个多月,就由于过于火爆,被不少同行和小人发起网络攻击。

而且因为我们已经有 4500 多道人工整理的企业高频面试题、100 多个各方向的面试题库、大厂面试官原创的优质题解,所以也招来了不少爬虫。

网站有爬虫是很正常的一件事,说明 “攻击者” 对我们网站内容的认可,而且自己学习用的话偷偷爬一爬咱也能理解。前提是别影响咱系统的正常运行、别被我们的监控系统发现。

我们确实发现了部分离谱的用户,不到一个小时就把我们几千道题看完了?你特么量子波动速读啊?!

上面这些其实都还好,系统自动就给封号了。但最近我们接到正义的用户反馈,最近有几只程序员博主公开 直播教别人 怎么爬我们的面试鸭网站,这属实是有点过分了吧?

有点儿法律常识的程序员应该都知道,爬虫是有法律风险的行为,可能会涉及到侵犯版权、违反网站的使用条款、侵犯隐私。而且如果请求频率过高,对系统造成了压力,还可能涉及到计算机系统破坏、违反计算机滥用法的法律风险!

所以才有了下面这个表情包:

在未经原站长授权的情况下,教别人去爬取别人的网站,这性质就更不一样了,而且还是直播去教,生怕别人不知道你是谁么? 可邢,太可邢了!

而且最让我生气的是,有些博主教爬虫都不教明白,教爬虫的第一课必然要先让大家了解 爬虫的法律合规性和法律风险 。应该告诉大家相关法律法规、遵守网站的使用协议和版权问题、遵守网站的 robots.txt 文件、确保爬取行为不侵犯他人的知识产权等等,而不是在诱导大家去爬取他人的网站。

这里鱼皮给大家列举下爬虫前的注意事项:

1)遵守网站的使用条款:仔细阅读网站的使用条款和服务协议,确定是否允许抓取和数据使用。有些网站可能明确禁止抓取或设定了抓取的条件,违反这些条款可能会导致法律问题。

2)遵守 robots.txt 文件:这个文件表示了网站对爬虫抓取的规则,某些页面如果明确标注了禁止抓取,建议不要下手。

比如我们面试鸭的 robots.txt 文件,第一行就是先禁用所有的爬虫,然后再给搜索引擎开放一些抓取。

3)不要抓取付费内容:一般付费内容都是申请了版权 / 著作权的,未经授权的抓取和传播可能涉及侵犯版权、会导致实际的赔偿。而且一般付费内容都是仅付费用户才能查看的,付费用户往往更好追溯到源头,千万别侥幸地以为别人查不到你!

4)控制好爬虫的频率:前面也提到了,如果你的爬虫请求频率过高,影响了网站的正常运行,那么性质就变成 “网络攻击” 了,后果往往更严重。而且一般情况下,网站都有反爬虫的防护措施,请求频率过高要么给你限流、要么直接封 IP、封账号,千万别以为是开玩笑。


总之,技术本身是无罪的,但用不好是真的会进局子的!大家直接在 面试鸭网站 或小程序上就能搜题、看题了,也没必要再专门用爬虫把题目搞下来了~

当然,如果大家要学爬虫的话,也许之后鱼皮可以出个项目。。。哈哈,有空再搞!

更多

💻 编程学习交流:编程导航
📃 简历快速制作:老鱼简历
✏️ 面试刷题神器:面试鸭

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962619.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不得不安利的程序员开发神器,太赞了!!

作为一名程序员,你是否常常为繁琐的后端服务而感到头疼?是否希望有一种工具可以帮你简化开发流程,让你专注于创意和功能开发?今天,我要向大家隆重推荐一款绝佳的开发神器——MemFire Cloud。它专为懒人开发者准备&…

【前端】(仅思路)如何在前端实现一个fc手柄,将手机作为游戏手柄设备。

文章目录 背景界面demo原型图(没错,就是它,童年回忆) 遇到的问题最终后端demo(甚至比前端逻辑更简单) 背景 突发奇想,想要在前端实现一个fc游戏手柄,然后控制电脑的nes模拟器玩玩魂斗罗。 思路很简单&…

单细胞|MEBOCOST·细胞间代谢通讯

概述 在代谢活跃的细胞中,表达的代谢酶催化代谢反应生成许多代谢物。这些代谢物中的一些可以扩散到细胞外空间并作为信号分子发挥作用。某些细胞外代谢物可以与空间上邻近细胞的感应蛋白结合。我们将分泌代谢物的细胞称为发送细胞,而表达感应蛋白的细胞称…

开放式耳机稳固吗?音质好吗?四款开放式耳机测评

对于体验过不下50款耳机的我来说,在这么多耳机类型里,我推荐入手开放式耳机。 开放式耳机拥有着舒适的体验。有挂耳式的设计,相比入耳式,开放式耳机不会对耳道造成影响。再加上大部分开放式耳机的挂耳式设计都是人体工学设计&…

Astro 实现TodoList网页应用案例

Astro 是一个现代化的静态站点生成器和前端框架,它具有独特的设计理念:岛屿架构。它允许开发人员使用组件化的方式构建内容优先的网站,将各种技术栈(如React、Vue、Svelte等)的组件无缝集成到同一个项目中。 1、创建项…

STM32高级运动控制系统教程

目录 引言环境准备高级运动控制系统基础代码实现:实现高级运动控制系统 4.1 传感器数据采集模块 4.2 数据处理与运动控制模块 4.3 通信与网络系统实现 4.4 用户界面与数据可视化应用场景:运动控制与优化问题解决方案与优化收尾与总结 1. 引言 高级运动…

【FCA FineDataLink认证指南】解锁高薪职业新机遇,提升职场竞争力

数据集成作为数字化转型的核心组成部分,正在经历前所未有的增长和创新。随着企业对数据驱动决策的需求日益增长,数据集成领域的人才在各行各业中都备受青睐。而且随着大数据、云计算和人工智能技术的不断发展,数据集成领域的职业机会也在不断…

Springcloud物流配送后台-计算机毕业设计源码69809

目 录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2 物流配送后台系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 操作可行性分析 2.2 系统流程分析 2.2.1数据增加流程 2.2.2 数据修改流程 2.2.3 数据…

UE4调试手段:主动崩溃与“.pdb”解析“.dmp”文件

主动崩溃 尝试了一些做法,发现 check(false) 对于Development配置而言,是有效果的,代码如下: // Called when the game starts or when spawned void AMyActor::BeginPlay() {Super::BeginPlay();check(false); // 尝试用这个来…

RAG调研

一 : RAG解决的问题 1.1 LLM 的局限 幻觉 知识过期 推理过程不透明,不可追踪 1.2 RAG介绍 检索增强生成(RAG)是一种使用外部知识库辅助文本生成的技术。它结合了检索与生成,通过访问外部数据库检索得到有关的信息&…

vue的基础知识总结(1)

目录 一.什么是Vue? 二.基于脚手架创建就前端工程: 三.Vue工程结构以及组件: 1.Vue项目结构: 2.Vue组件: 四.Vue基本使用方式: 1.文本插值{{}}: 2.属性绑定v-bind: 3.事件绑…

常用的项目管理软件有哪些?东成电动工具用 PowerProject 打造先进项目管理平台

近日,国内最大的专业电动工具制造企业:江苏东成电动工具有限公司与北京奥博思软件技术有限公司达成合作,借助 PowerProject 项目管理系统,全面提升项目管理效率,满足企业多场景、多角色的全周期项目管理,激…

torch._dynamo 理解(2)——Backend

0 概述 TorchDynamo 是一个 Python 级别的即时 (JIT) 编译器,旨在让未修改的 PyTorch 程序运行得更快。它通过 Python Frame Evaluation Hooks(Python 框架评估钩子)来实现这一目标,以便在运行时动态地生成和优化代码。这使得 To…

借助Aspose.html控件, 将SVG 转PNG 的 C# 图像处理库

Aspose.HTML for .NET 不仅提供超文本标记语言 ( HTML ) 文件处理,还提供流行图像文件格式之间的转换。您可以利用丰富的渲染和转换功能将SVG文件渲染为PNG、JPG或其他广泛使用的文件格式。但是,我们将使用此C# 图像处理库以编程方式在 C# 中将 SVG 转换…

VBA 颜色

1. ColorIndex 1-1. ColorIndex的值是从1到56。 Option ExplicitConst MAX_COL As Long 8 Const MAX_ROW As Long 2 Const START_ROW As Long 2 Const START_COL As Long 2Sub Color()Dim i As IntegerDim intRow As Long, intCol As LongCells.SelectSelection.ClearCon…

redis Ubuntu安装问题

报错1:Package pkg-config is not available, but is referred to by another package /bin/sh: 1: pkg-config: not found(没有安装pkg-config) sudo apt-get install pkg-config /bin/sh: 1: cc: not found(没有安装gcc环境&am…

年过30年程序员,到底要不要考虑搞点副业

一、前言 作为一名年过三十的程序员,我深刻体会到了职场的残酷和不确定性。在这个技术日新月异的时代,我们不仅要在专业领域深耕细作,更要敏锐地捕捉互联网的风口,以确保自己不被时代淘汰。程序员的黄金年龄似乎被限定在35岁之前…

《Milvus Cloud向量数据库指南》——ChatGLM:从GLM-130B到GLM-4

ChatGLM:从GLM-130B到GLM-4的跨越:智谱AI在通用人工智能领域的深度探索与实践 在人工智能的浩瀚星空中,智谱AI如同一颗璀璨的新星,以其独特的技术视角和坚定的创新步伐,在通用人工智能(AGI)的征途上留下了深刻的足迹。技术生态总监贾伟在近期的一次分享中,不仅为我们描…

蓝牙+LoRa+北斗RTK融合定位系统介绍

蓝牙LoRa北斗RTK定位系统是新锐科创自主研发的融合定位系统,该系统利用融合定位技术将当今主流的室内外定位技术有机融合,从而满足不同场景定位需求。 蓝牙LoRa北斗RTK定位系统是一种室内外高精度人员定位管理系统,具有功耗低、部署简单、实时…

【计算机视觉学习之CV2图像操作实战:车牌识别1】

基于Sobel算子的车牌识别 步骤如下 高斯模糊图片灰度化Sobel算子图像二值化闭操作膨胀腐蚀中值滤波查找轮廓判断车牌区域 import cv2 # 读取图片 rawImage cv2.imread("car1.jpg") # 高斯模糊,将图片平滑化,去掉干扰的噪声 image cv2.Gau…