常见垃圾爬虫、蜘蛛及屏蔽方法

用户登陆

站点日历

7 3 2023 - 12 4 8
日	一	二	三	四	五	六
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日志搜索

站点统计

日志：353 篇

评论：486 篇

引用：2 个

会员：630 人

留言：55 个

访问：3708506 次

回归：2023-11-13

建立：2004-08-03

最新评论

多个域名（使用多个-d参数）： [tx...

还有一个注意事项： [txt][b]是...

具体原因：某些 Unix&nb...

不错 ~!~

漂亮 ......

[eek][eek][eek] 最...

要先安装mysql 的odbc...

不好意思，还没敲完... ...

友情链接

编程资源

WeTransfer

Easy RealMedia Producer

其他信息

PHP中通过闭包函数绑定的方式访问类的私有成员

网站升级https后，关联的一些处理

常见垃圾爬虫、蜘蛛及屏蔽方法
[ 发布日期：1年前 (2023-12-13) ] [ 来自：本站原创 ]	[分类：其它运维与编程]

垃圾爬虫、蜘蛛的定义
垃圾爬虫、蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助，并且给网站资源带来一定损耗的爬虫、蜘蛛。
这种爬虫、蜘蛛会频繁抓取网站内容，并且利用内容做一些数据分析来达到他们的商业目的。

垃圾爬虫、蜘蛛列表

SemrushBot，这是semrush下的，是一家做搜索引擎优化的公司，因此它抓取网页的目的就很明显了。它对网站没有任何用处，好在它还遵循robots协议，因此可以直接在robots屏蔽。
DotBot, 这是moz旗下的，作用是提供seo服务，但是对我们并没有什么用处。好在遵循robots协议，可以使用robots屏蔽。
AhrefsBot，这是ahrefs旗下的，作用是提供seo服务，对我们没有任何用处，遵循robots协议。
MJ12bot，这是英国的一个搜索引擎爬虫，但是对中文站站点就没有用处了，遵循robots协议。
MauiBot，这个比较疯狂，抓取频率很高，好在遵循robots协议。
MegaIndex.ru，这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。
BLEXBot, 这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议。

屏蔽方法
对于遵循robots协议的蜘蛛，可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下，将下面的内容加入到网站根目录下面的robots.txt就可以了

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

对于不尊许robots规则的蜘蛛，目前能够屏蔽的方法就是根据useragent或者ip来禁止了。