发表时间: 2019-07-06 08:34:25
作者: 广东八戒商务信息服务有限公司
浏览:
1.什么是robots.txt文件
搜索引擎使用蜘蛛程序自动访问Internet上的网页并获取网页信息。当蜘蛛访问网站时,它首先检查网站的根域下是否有名为robots.txt的纯文本文件。此文件用于指定网站上蜘蛛的爬网范围。您可以在您的网站中创建robots.txt,在文件中声明您不希望包含在搜索引擎中的网站部分,或指定搜索引擎仅包含特定部分。
2.Robots.txt文件存储地址
robots.txt文件位于网站的根目录中。例如,当蜘蛛访问网站(例如https://www.xugongping.com)时,它首先检查网站中是否有文件https://www.xugongping/robots.txt。如果Spider找到该文件,它将遵循此文件的内容来确定其访问权限的范围。
3.我在robots.txt中设置禁止百度包含我的网站。为什么它仍然出现在百度搜索结果中?
如果其他网站链接到禁止包含在您的robots.txt文件中的网页,它们仍可能会出现在百度的搜索结果中,但您网页上的内容不会被抓取,编入索引和显示。百度搜索结果仅显示其他网站对其他相关网站的描述。
4.防止搜索引擎跟踪网页链接,并仅对网页编制索引
如果您不希望搜索引擎跟踪此页面上的链接而不传递链接的权重,请将此元标记放在页面的部分中:
如果您不希望百度跟踪特定链接,百度也支持更精确的控制,请直接在链接上写下此标记:
登入
要允许其他搜索引擎跟踪,但仅阻止百度跟踪指向您网页的链接,请将此元标记放在页面部分中:
5.阻止搜索引擎在搜索结果中显示网页快照,并仅阻止索引网页
要阻止所有搜索引擎显示您网站的快照,请将此元标记放在页面部分中:
要允许其他搜索引擎显示快照,但仅阻止百度显示,请使用以下标记:
注意:此标记仅禁止百度显示页面快照。百度将继续索引页面并在搜索结果中显示该页面的摘要。
6.我想禁止百度图片搜索包含一些图片。如何设置?
禁止Baiduspider抓取网站上的所有图片,禁止或允许Baiduspider在网站上抓取某种格式的图像文件。您可以通过设置机器人进行设置。请参阅示例10,11和12中的“Robots.txt文件用法示例”中的示例。
7. robots.txt文件的格式
'robots.txt'文件包含一个或多个由空行分隔的记录(CR,CR/NL或NL作为终止符)。每条记录的格式如下:
':'
在此文件中,您可以使用#来注释,具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行User-agent开头,后跟几行Disallow和Allow行,详情如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个用户代理记录表明多个漫游器受“robots.txt”约束,则该文件必须至少有一个用户代理记录。如果此项的值设置为*,则它对任何机器人都有效。在'robots.txt'文件中,'User-agent: *'只能有一条记录。如果在'robots.txt'文件中添加'User-agent: SomeBot'和几个Disallow,Allow行,则'SomeBot'这个名称仅受'User-agent: SomeBot'之后的Disallow和Allow行的限制。
禁止:
此项的值用于描述您不希望访问的一组URL。此值可以是路径的完整路径或非空前缀。机器人不会访问以Disallow项的值开头的URL。例如,“Disallow:/help”禁止机器人访问/help.html,/helpabc.html,/help /index.html,“Disallow:/help /”允许机器人访问/help.html,/helpabc。 html,而不是访问/help/index.html。 'Disallow:'描述了允许机器人访问该站点的所有URL。 '/robots.txt'文件中必须至少有一个Disallow记录。如果'/robots.txt'不存在或为空,则该网站对所有搜索引擎机器人开放。
允许:
此项的值用于描述您要访问的一组URL。与Disallow项类似,此值可以是路径的完整路径或前缀。允许机器人访问以Allow项的值开头的URL。例如,“允许:/hibaidu”允许机器人访问/hibaidu.htm,/hibaiducom.html,/hibaidu/com.html。默认情况下,网站的所有URL都是允许的,因此允许通常与Disallow一起使用,以允许访问网页子集,同时禁止访问所有其他URL。
使用'*'和'$':
Baiduspider支持使用通配符'*'和'$'来模糊匹配网址。
'$'匹配行终止符。
'*'匹配任何字符的0或更多。
8. URL匹配示例
9. robots.txt文件的使用示例