如何在宝塔中配置Nginx阻止垃圾蜘蛛_反爬虫_防采集

Bernadette 发表于: 2023-10-21 最后更新时间: 6个月前

9 订阅，游览

问题描述：急急急！！！如题，在线等...

已回答已采纳

回答即可获得 20 经验值，回答被采纳后即可获得 10 金币。

为了获得搜索的收录，自然是要让蜘蛛爬取的，但是垃圾蜘蛛会让服务器压力增大，还可能让内容被非法转载。本文介绍如何在宝塔中配置robots文件以及Nginx来拦截垃圾爬虫。

2022-12-11更新：

最新更新的辣鸡蜘蛛：

2022-05-10更新：

DataForSEO Link Bot许多人会将DataForSEO Link Bot视作另一个搜索引擎的网络爬虫。其实不然。
DataForSEO是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来创造公平的竞争环境。
换句话说，就是DataForSeoBot爬虫采集的数据是提供给众多SEO从业人士的，这些数据可以被用作SEO竞争分析、SEO软件开发、市场调查、甚至网络推广等方面。也就是说，对于被抓取的网站本身来说，无任何价值，甚至有数据被采集的负面影响。

2022-05-12：

如果使用宝塔的话，可以打开Nginx免费防火墙里全局配置的常见扫描器以及User-Agent过滤

在前文中，介绍过如何防止被百度文库之类的剽窃。

(Handsome主题)个人博客如何做好内容保护_只防君子

正规的蜘蛛例如百度蜘蛛、谷歌蜘蛛等都是好蜘蛛，也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫。

设置robots.txt

设置robots.txt，这是对一些垃圾蜘蛛的人品(蜘蛛品)抱有一丝丝幻想，希望他们能遵守robots规定。人家不欢迎你来爬虫，应该有点自知之明吧，别那么厚脸皮。robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

下面汇总了一些网友们提供的垃圾蜘蛛，基本得不到什么流量，很多是国外的一些蜘蛛。

在我的robots.txt文件中，内容如下：
# robots.txt generated at http://www.jsons.cn/robots/
User-agent: *
Disallow: /admin/
Disallow: /install/

User-agent: DataForSeoBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /
user-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
Sitemap: https://www.xxxx.com/sitemap.xml

Nginx屏蔽垃圾蜘蛛

首先进入宝塔面板，打开Nginx配置。

在配置信息中，找到serve：

在serve中插入代码：
#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DataForSeoBot/1.0|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
return 403;
}
# 禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
# 屏蔽单个IP的命令是
# deny 123.45.6.7

点击保存即可。