帮助

屏蔽国外垃圾无用蜘蛛,防止大量抓取导致网站崩溃浪费带宽

2024-12-13 09:34 技术文档

最近发现一些国外垃圾蜘蛛频繁抓我网站页面,白浪费消耗服务器性能。所以要屏蔽他们这些垃圾蜘蛛抓取,这里介绍两种方法一同操作进行屏蔽:


第一种方法:直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛:


User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /


User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /


第二种方法,宝塔面板网站设置——配置文件,将需要屏蔽的蜘蛛写进配置文件代码里:


#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}


第三种方法防火墙里加过滤规则    再来抓就送你吃403!


常见的搜索引擎爬虫


1、Googlebot(屏蔽!没毛用)


Googlebot是谷歌的网络爬虫,其UA标识为“(compatible;Googlebot/2.1;+http://www.google.com/bot.html)”。对大部分网站,Googlebot应该是爬取最勤快的爬虫,能给优质博客带来大量流量。


除了爬取网页的Googlebot,常见的还有图片爬虫Googlebot-Image、移动广告爬虫Mediapartners-Google等。


2、Baiduspider


Baiduspider是百度的网页爬虫,中文站很常见。其UA标识为“(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”。


除了网页爬虫,手机百度爬虫Baiduboxapp、渲染抓取Baiduspider-render等。


3、bingbot


bingbot是微软bing搜索的爬虫,其UA标识为“(compatible;bingbot/2.0;+http://www.bing.com/bingbot.htm)”。


自微软推广bing搜索品牌后,微软原来的爬虫MSNBot越来越少见到了。


4、360Spider


360Spider是360搜索的爬虫,其UA标识为“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。


目前360搜索份额较少,这个爬虫不是很常见。


5、Sogou web spider


Sogou web spider是搜狗搜索的网页爬虫,其UA标识为“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”。背靠腾讯,搜狗目前市场份额在上升,因此其网络爬虫比较勤快,经常能看到。


访问日志搜索Sogou,除了Sogou web spider,还常见SogouMSE、SogouMobileBrowser。这是搜狗手机浏览器的UA标识,不是爬虫。


6、YisouSpider


YisouSpider是神马搜索的爬虫,UA标识是“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。


神马成立初期太疯狂抓取网页导致一些小网站崩溃而惹的天怒人怨。随着市场份额提升和数据完善,目前YisouSpider还算克制,不再疯狂抓取。


从名字上看,神马搜索的发音类似于宜搜,但和专注小说搜索的“宜搜(http://easou.com/)”不是同一家公司。神马搜索是UC合并到阿里后推出的移动搜索引擎,而宜搜在2G wap时代就已经名声在外。


7、YandexBot(屏蔽!没毛用)


YandexBot是俄罗斯最大搜索引擎和互联网巨头Yandex的网页爬虫,其UA标识是“(compatible;YandexBot/3.0;+http://yandex.com/bots)”。


Yandex提供中文界面和中文搜索,也是少数目前能直接打开的国外搜索引擎。随着越来越多中国人知道Yandex,YandexBot在中文网站日志里越来越常见。


8、DuckDuckGo


DuckDuckGo是DuckDuckGo的网页爬虫,其UA标识是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。


DuckDuckGo主打隐私、安全、不监控用户记录,界面简洁,也提供中文搜索界面。


除了上述搜索引擎爬虫,WordPress等提供feed订阅的网站还常见newblur和feedly的访问记录。这两个不是爬虫,而是订阅软件,也能给网站带来流量。


常见的网络恶意垃圾爬虫蜘蛛


上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。


1、MJ12Bot


MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。


2、AhrefsBot


AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。


3、SEMrushBot


SEMrushBot也是SEO、营销公司的网络爬虫。


4、DotBot


DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。


5、MauiBot


MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。


6、MegaIndex.ru


这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。


7、BLEXBot


这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。


SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。


DotBot,这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽


AhrefsBot,这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。


MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。


MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。


MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。


BLEXBot,这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议


等等……………


主要是将从网站日志中发现的一些异常抓取的蜘蛛屏蔽掉,我上面列举的是一些常见的对我们网站没啥用处的蜘蛛,将这些蜘蛛屏蔽掉就好了。


第二种方法屏蔽的效果:


谷歌一个ip来不了,没毛用!一天来抓几千次,浪费宽带。



相关推荐

QQ在线咨询