如何在宝塔中配置Nginx阻止垃圾蜘蛛_反爬虫_防采集

Bernadette   发表于: 2023-10-21   最后更新时间: 6个月前  
9 订阅, 游览
Loading...

问题描述:急 急 急!!!如题,在线等...

为了获得搜索的收录,自然是要让蜘蛛爬取的,但是垃圾蜘蛛会让服务器压力增大,还可能让内容被非法转载。本文介绍如何在宝塔中配置robots文件以及Nginx来拦截垃圾爬虫。

2022-12-11更新:

最新更新的辣鸡蜘蛛:

(CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms)



 

2022-05-10更新:

DataForSEO Link Bot许多人会将DataForSEO Link Bot视作另一个搜索引擎的网络爬虫。其实不然。
DataForSEO是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来创造公平的竞争环境。
换句话说,就是DataForSeoBot爬虫采集的数据是提供给众多SEO从业人士的,这些数据可以被用作SEO竞争分析、SEO软件开发、市场调查、甚至网络推广等方面。也就是说,对于被抓取的网站本身来说,无任何价值,甚至有数据被采集的负面影响。

2022-05-12:

如果使用宝塔的话,可以打开Nginx免费防火墙里全局配置的常见扫描器以及User-Agent过滤


在前文中,介绍过如何防止被百度文库之类的剽窃。

(Handsome主题)个人博客如何做好内容保护_只防君子

正规的蜘蛛例如百度蜘蛛、谷歌蜘蛛等都是好蜘蛛,也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫。

设置robots.txt

设置robots.txt,这是对一些垃圾蜘蛛人品(蜘蛛品)抱有一丝丝幻想,希望他们能遵守robots规定。人家不欢迎你来爬虫,应该有点自知之明吧,别那么厚脸皮。robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

下面汇总了一些网友们提供的垃圾蜘蛛,基本得不到什么流量,很多是国外的一些蜘蛛。

在我的robots.txt文件中,内容如下:
# robots.txt generated at http://www.jsons.cn/robots/ 
User-agent: *
Disallow: /admin/
Disallow: /install/

User-agent: DataForSeoBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /
user-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
Sitemap: https://www.xxxx.com/sitemap.xml

Nginx屏蔽垃圾蜘蛛

首先进入宝塔面板,打开Nginx配置。


在配置信息中,找到serve:



在serve中插入代码:
#禁止Scrapy等工具的抓取 
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
   return 403; 

#禁止指定UA及UA为空的访问 
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DataForSeoBot/1.0|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 
   return 403;        

# 禁止非GET|HEAD|POST方式的抓取 
if ($request_method !~ ^(GET|HEAD|POST)$) { 
  return 403; 
}
# 屏蔽单个IP的命令是
# deny 123.45.6.7 

点击保存即可。

模拟蜘蛛爬取的网址

设置完了可以用模拟爬去来看看有没有误伤了好蜘蛛。

0
喜欢

卧槽!(此评论虽然才两个字,但语法严谨,用词工整,结构巧妙,朗朗上口,可谓言简意赅,足见评论人扎实的文字功底,以及信手拈来写作技巧和惨绝人寰的创造能力,实在佩服佩服,再加上以感叹号结尾,实在是点睛之笔,妙笔生花,意境深远,照应前文,升华主题,此乃神之回复!)


0
喜欢

楼下听到一个女孩子哭着打电话:“为什么不接我的电话为什么不理我?”以为又是个电话查岗女朋友,走过她身边时,听到她带着哭哭腔说:“你要说分手你就好好说啊,不要不接电话,别人会担心你的安全知道吗,你开车又爱走神,我好害怕你出事,分手就分啊你不要吓我…”感情啊,有多伟大就有多卑微。


0
喜欢

感谢分享!!你别皱眉,我走就好。

回答