发表时间: 2019-06-20 09:03:58
作者: 广东八戒商务信息服务有限公司
浏览:
如何检查百度蜘蛛是否已访问过该网站?如何正确识别百度蜘蛛?如何进行蜘蛛爬行诊断?如何通过百度蜘蛛IP了解网站的状态?今天,作者介绍了百度搜索引擎蜘蛛分析。我希望能有所帮助。
首先,如何检查百度蜘蛛是否来到网站
可以通过查看网站日志进行分析。 Windows服务器的IIS和Linux服务器的Apache都具有记录网站日志的功能。
二,如何区分百度蜘蛛
百度正式提供以下方法来识别百度蜘蛛。
1.查看UA
首先,UA是正确的。百度已宣布以下UA。
Mobile UA: Mozilla/5.0(Linux; u; Android 4.2.2; zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)版本/5.1 Mobile Safari/10600.6.3(兼容; Baiduspider/2.0; +https://www.baidu的.com /搜索/spider.html)
PC UA: Mozilla/5.0(兼容; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
添加了渲染UA:
Mobile UA:Mozilla/5.0(iPhone; CPU iPhone OS 9_1 likeMac OS X)AppleWebKit/601.1.46(KHTML,类似Gecko)版本/9.0 Mobile/13B143Safari/601.1(兼容; Baiduspider-render/2.0; +https://www.baidu的.com /搜索/spider.html)
PC UA:Mozilla/5.0(兼容; Baiduspider-render/2.0; +https://www.baidu.com/search/spider.html)
2.检查IP
您可以使用dns对比ip方法来判断它是否是百度蜘蛛,只要它不是来自“.baidu.com”或“.baidu.jp”就是假百度蜘蛛。
三,如何诊断百度蜘蛛是否可以抓取网站内容
云南SEO认为,由于使用JavaScript代码或框架结构等问题,许多网站无法被百度蜘蛛抓取。这里的诊断也是为了防止蜘蛛进入网站,因为它无法正常爬行,使网站索引不佳,并且快照没有更新。
如果诊断出现问题,您需要使用百度蜘蛛解决问题并改善友好程度。
百度的官方在线抓取诊断工具如下所示。选择网站(主页或其他页面)后,选择PC UA或移动UA,最后点击“抓取”。
等一下,刷新页面会显示“抓取成功”,或者失败。您可以单击以查看“爬网成功”或失败的详细信息。
四,如何通过百度蜘蛛IP了解网站的状态
1.抓住你网站的网络蜘蛛
60.172.229.61
61.129.45.72
61.135.162。*
2.百度招标蜘蛛
61.135.165.134
117.34.74.66
118.122.188.194
119.63.196.9
125.39.78.185
3,百度统计蜘蛛
61.135.186。*
4.百度蜘蛛模仿网站管理员工具
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42
5.通过搜索外部网站管理员工具模仿百度蜘蛛
124.248.34.52
6,114网站管理员工具箱模仿百度蜘蛛
119.147.114.213
121.10.141。*
7,百度图片蜘蛛
123.15 ** **
8.以低权重抓取网站的非原始权重,需要检查一段时间
123.125.71 *
9,使用网站管理员工具检测是没用的
125.90.88。*
10,百度调查期间蜘蛛或动力减少蜘蛛
159.226.50 *
180.76.5。*
180.76.5.87
220.181.158.107
11,伪装百度蜘蛛
180.149.130。*
12.新站和站点有异常
183.91.40.144
203.208.60 *
13.每个车站都经过不间断的巡逻
210.72.225。*
14.沙箱或K站。
123.125.68 *
218.30.118.102
220.181.68 *
15.这个ip抓取的文章或主页,在24小时内发布和隔夜快照
220.181.108。*
16,百度蜘蛛IP已经来了,准备爬行了
123.125.66 *
220.181.7。*
17.花费新的检查期
121.14.89。*
18,百度抓取主页的私有IP,网站主页快照更新速度快,并且一夜之间更新
220.181.108.95
19,百度的重量IP段,第二天抓到的文章,重量更高
220.181.108.92
20,综合重量IP,爬行物品和主页,重量更高
220.181.108.91
220.181.108.75
21.抓住内页,但重量较低
123.125.71.95
123.125.71.97
123.181.108.77
123.125.71.106
22.抓住网站的主页,该网站也属于权重部分,权重较高。
220.181.108.89
220.181.108.94
220.181.108.97
220.181.108.80
220.181.108.77
220.181.108.83
220.181.108.86
相关阅读:百度蜘蛛抓取网站频率过低,Baiduspider和死链爱恨交织,网站蜘蛛日志分析技巧和方法,揭示了蜘蛛池在SEO中的作用和操作方法,如何抓取搜索引擎蜘蛛网页数据,百度蜘蛛抓取网站的原则