欢迎光临 Rick 's BLOG
日志首页  | C# .Net编程  | 原创作品  | 生活点滴  | C\C++相关  | 多媒体相关※ERMP  | VB相关  | 其它运维与编程  |  留言簿
PHP中通过闭包函数绑定的方式访问类的私有成员 网站升级https后,关联的一些处理
未知  常见垃圾爬虫、蜘蛛及屏蔽方法
[ 发布日期:12个月前 (12-13) ]   [ 来自:本站原创 ] [分类:其它运维与编程]
垃圾爬虫、蜘蛛的定义
垃圾爬虫、蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站资源带来一定损耗的爬虫、蜘蛛。
这种爬虫、蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。

垃圾爬虫、蜘蛛列表

  • SemrushBot,这是semrush下的,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。它对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
  • DotBot, 这是moz旗下的,作用是提供seo服务,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽。
  • AhrefsBot, 这是ahrefs旗下的,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
  • MJ12bot,这是英国的一个搜索引擎爬虫,但是对中文站站点就没有用处了,遵循robots协议。
  • MauiBot,这个比较疯狂,抓取频率很高,好在遵循robots协议。
  • MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
  • BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。


屏蔽方法
对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /


对于不尊许robots规则的蜘蛛,目前能够屏蔽的方法就是根据useragent或者ip来禁止了。
引用通告地址 (0):
复制引用地址https://www.rickw.cn/trackback/304
复制引用地址https://www.rickw.cn/trackback/304/GBK
[ 分类:其它运维与编程  | 查看:674 ]

暂时没有评论,快来发表一个评论吧。
发表评论
作者:   用户:[访客] 
评论:

表  情
禁止表情 | 禁止UBB | 禁止图片 | 识别链接
对不起,你没有权限上传附件!
验证:
 
PoweredBy R-Blog V1.00 © 2004-2024 WWW.RICKW.CN, Processed in second(s) , 7 queries    京ICP备17058477号-5