MJ12bot 是什么爬虫?

MJ12bot 是英国的一家老牌的搜索引擎营销网站 Majestic 的爬虫,他有专门的中文站,对外链查询等很多 SEO 数据查询提供数据支撑,做过外链的都知道,获取外链资源是一项基本能力,这个网站可以查询网站的外链资源数,不过很多公司看到日志里有这个 MJ12bot 蜘蛛,中文是选择直接屏蔽掉(MJ12bot 是 Majestic-12 分布式搜索引擎的爬虫)

MJ12bot 是什么爬虫?

官方网址:https://zh.majestic.com/

官方给了一个修改 robots 的方法,就是在 robots.txt 文件中加入:

  1. Useragent:MJ12bot
  2. Disallow:/

对于MJ12bot 爬虫蜘蛛要看抓取次数是否很多,如果抓取次数很多,而且网站访问速度有所降低的话,就屏蔽掉,另外这种还有可能是其他采集软件伪装的搜索引擎制作,通过 nslookup 反查一下 IP 地址,如果是采集软件伪装的蜘蛛,立马封掉。

原创文章,作者:dnzhu,如若转载,请注明出处:

联系我们

 © 2020-2022 dnzhu.com. All Rights Reserved..