图片展示

13717346818(售前)

0769-21988033           


图片展示

最详细的禁止搜索引擎收录方法

发表时间: 2019-07-06 08:34:25

浏览: 172

1.什么是robots.txt文件

搜索引擎使用蜘蛛程序自动访问Internet上的网页并获取网页信息。当蜘蛛访问网站时,它首先检查网站的根域下是否有名为robots.txt的纯文本文件。此文件用于指定网站上蜘蛛的爬网范围。您可以在您的网站中创建robots.txt,在文件中声明您不希望包含在搜索引擎中的网站部分,或指定搜索引擎仅包含特定部分。

2.Robots.txt文件存储地址

robots.txt文件位于网站的根目录中。例如,当蜘蛛访问网站(例如https://www.xugongping.com)时,它首先检查网站中是否有文件https://www.xugongping/robots.txt。如果Spider找到该文件,它将遵循此文件的内容来确定其访问权限的范围。

3.我在robots.txt中设置禁止百度包含我的网站。为什么它仍然出现在百度搜索结果中?

如果其他网站链接到禁止包含在您的robots.txt文件中的网页,它们仍可能会出现在百度的搜索结果中,但您网页上的内容不会被抓取,编入索引和显示。百度搜索结果仅显示其他网站对其他相关网站的描述。

4.防止搜索引擎跟踪网页链接,并仅对网页编制索引

如果您不希望搜索引擎跟踪此页面上的链接而不传递链接的权重,请将此元标记放在页面的部分中:

如果您不希望百度跟踪特定链接,百度也支持更精确的控制,请直接在链接上写下此标记:

登入

要允许其他搜索引擎跟踪,但仅阻止百度跟踪指向您网页的链接,请将此元标记放在页面部分中:

5.阻止搜索引擎在搜索结果中显示网页快照,并仅阻止索引网页

要阻止所有搜索引擎显示您网站的快照,请将此元标记放在页面部分中:

要允许其他搜索引擎显示快照,但仅阻止百度显示,请使用以下标记:

注意:此标记仅禁止百度显示页面快照。百度将继续索引页面并在搜索结果中显示该页面的摘要。

6.我想禁止百度图片搜索包含一些图片。如何设置?

禁止Baiduspider抓取网站上的所有图片,禁止或允许Baiduspider在网站上抓取某种格式的图像文件。您可以通过设置机器人进行设置。请参阅示例10,11和12中的“Robots.txt文件用法示例”中的示例。

7. robots.txt文件的格式

'robots.txt'文件包含一个或多个由空行分隔的记录(CR,CR/NL或NL作为终止符)。每条记录的格式如下:

':'

在此文件中,您可以使用#来注释,具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行User-agent开头,后跟几行Disallow和Allow行,详情如下:

用户代理:

此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个用户代理记录表明多个漫游器受“robots.txt”约束,则该文件必须至少有一个用户代理记录。如果此项的值设置为*,则它对任何机器人都有效。在'robots.txt'文件中,'User-agent: *'只能有一条记录。如果在'robots.txt'文件中添加'User-agent: SomeBot'和几个Disallow,Allow行,则'SomeBot'这个名称仅受'User-agent: SomeBot'之后的Disallow和Allow行的限制。

禁止:

此项的值用于描述您不希望访问的一组URL。此值可以是路径的完整路径或非空前缀。机器人不会访问以Disallow项的值开头的URL。例如,“Disallow:/help”禁止机器人访问/help.html,/helpabc.html,/help /index.html,“Disallow:/help /”允许机器人访问/help.html,/helpabc。 html,而不是访问/help/index.html。 'Disallow:'描述了允许机器人访问该站点的所有URL。 '/robots.txt'文件中必须至少有一个Disallow记录。如果'/robots.txt'不存在或为空,则该网站对所有搜索引擎机器人开放。

允许:

此项的值用于描述您要访问的一组URL。与Disallow项类似,此值可以是路径的完整路径或前缀。允许机器人访问以Allow项的值开头的URL。例如,“允许:/hibaidu”允许机器人访问/hibaidu.htm,/hibaiducom.html,/hibaidu/com.html。默认情况下,网站的所有URL都是允许的,因此允许通常与Disallow一起使用,以允许访问网页子集,同时禁止访问所有其他URL。

使用'*'和'$':

Baiduspider支持使用通配符'*'和'$'来模糊匹配网址。

'$'匹配行终止符。

'*'匹配任何字符的0或更多。

8. URL匹配示例

9. robots.txt文件的使用示例


广东八戒商务信息服务有限公司版权所有

公司地址:东莞市莞城街道东城大道75号金城大厦三楼

联系电话:0769-21988033   /   13717346818     邮箱:bajie@bajie9.cn  备案号:粤ICP备16105372号

客服中心
服务热线
0769-21988033
售前咨询
13717346818
上班时间
周一到周六
二维码