面对AI,所有禁止采集网页内容的功能都是徒劳,最不济截图后采集文字总简单了吧?能做的就是增加一点点人工采集的难度。
以下总结一下
一、注册用户
必须注册才能浏览全部内容,那么这样就可以针对用户控制其浏览次数,浏览时长,记录部分操作等等。但如果是普通网站,用了这个方法就是把自己给卡死了。
同理,用ip、cookie的方式限制一下也算是聊胜于无吧。
二、数据必须用js调用
基本是没用的,但可以把禁止复制黏贴的功能放在js里,略微增加一丢丢难度。
三、页面禁止操作
以下是禁止键盘ctrl+c,禁止鼠标点击复制
<script type="text/javascript">
document.addEventListener('keydown', function (e) {
if (e.ctrlKey && (e.keyCode === 67 || e.keyCode === 86 || e.keyCode === 85 || e.keyCode === 117)) {
return false;
}
});
document.addEventListener('mousedown', function (e) {
if (e.button === 2 || e.button === 3) {
return false;
}
});
document.addEventListener('copy', function (e) {
e.preventDefault();
});
</script>
以下是禁止页面鼠标选中
body{
-webkit-user-select: none; /* Safari */
-moz-user-select: none; /* Firefox */
-ms-user-select: none; /* Internet Explorer/Edge */
user-select: none;
}
四、换其它格式
重要文档就不直接写在web里,比如招标内容,转而使用word,加入水印背景,另存为pdf或图片。
注意pdf需要禁止编辑。
五、改变页面布局
机器人采集一般是针对固有的网页格式,比如<div id="content">xxxx</div>
,那么采集的时候就采集id
为content
的div
中的内容。
针对这个特性,那么可以定期把div
改为p
,把content
改为ccc
…就是这个意思吧,但这样对搜索引擎并不友好,仅仅能防止机器采集,人工也毫无影响。