关于WordPress的robotstxt文件的那些事
安装完wordpress站点后关于t文件的书写一直烦恼着很多站长,t文件协议又叫搜索引擎机器人协议,搜索引擎爬虫在爬取网站的时候,首先会看网站根目录下是否有t文件,然后遵循t协议爬取网站主希望搜索引擎爬取的内容。t文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,促进收录。
先来简单的说下t文件的规则:
1、允许所有的搜索引起爬取任何内容
User-agent: *
Disallow:
这个意思就是允许所有的搜索引擎爬取所有的页面,虽然Disallow是不允许的意思,但是后面是放空状态,这意思是没有不允许爬取的页面。
2、屏蔽其中一种或者几种搜索引擎的爬取,以最近比较火的360综合搜索为例
User-agent: 360spider
Disallow: /
User-agent:*
Disallow:
前两行的意思是不允许360综合搜索蜘蛛爬取任何页面,后面的解释见第一点。同理,如果除了屏蔽360综合搜索也想屏蔽百度蜘蛛,那就在开头继续添加。
3、不允许搜索引擎抓取其中的某些页面,这边以不允许所有搜索引擎爬取wordpress的管理后台页面为例
User-agent:*
Disallow:/wp-admin/
我们都知道,wordpress的管理后台在根目录下的wp-admin文件夹里面,在disallow后面加上/wp-admin的意思就是不允许搜索引擎蜘蛛爬取。
至于不允许百度爬取后台,允许其他搜索引擎爬取后台,或者不允许360综合搜索爬取后台,允许其他搜索引擎爬取后台等等组合,请参考以上三点内容进行组合。
回归正题,再来说下wordpress的t文件书写,其实wordpress的robots文件很简单,主要看3个要点:
1、网站后台不要蜘蛛爬取
首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每个站长设置t文件首要的目的,不仅局限于wordpress,当然,不同的类型网站后台页面所在页面的文件夹名称不一样。
2、静态化后,动态url不要蜘蛛爬取
wordpress的url最好还是静态化下,因为过多的动态参数不利于蜘蛛的爬取。但很多站长在静态化url之后,每次发布文章时,搜索引擎收录总会同时收录静态的url和动态的url,这样明显会导致文章页面权重的分散,而且会导致重复页面过多最终受到搜索引擎的惩罚,其实避免这种情况的方法很简单,那就是在t文件里面设置,让蜘蛛不爬取动态url,这样动态的url就不会被百度收录。
3、结尾加上xml格式的网站地图
在t的结尾加上网站地图,可以让网站地图在蜘蛛爬取网站的时候第一时间被抓取,更利于页面的收录。
于是,最简单的wordpress的t的书写如下
User-agent:*
Disallow:/wp-admin/
Disallow:/*?*
#这意思是不抓取中包含?的url,动态url特征是有?#
Sitemap:
去掉含有#的那行,以及将sitemap中的yourdomain改成你的域名即可,这样一个wordpress的t文件就完成了,最后将这文件上传到根目录下即可。
t文件书写还有几点需要注意的:
1、斜杠问题
首先开头的斜杠是一定要的,结尾有斜杠的话意思是这个目录下的所有页面,如果没有斜杠那屏蔽的既有包括斜杠的,也有不包括斜杠的,比如/ml,/p等等页面(举例)。这是两个不同的概念,必须根据需要考虑后面是否加上斜杠。
2、大小写问题
除了每行的首字母之外,其他都必须小写。
3、Disallow和Allow
其实对于很多新手站长来说,掌握其中一种的写法足以,因为同时被灌输这两种写法很容易导致混绕,所以如果你是新手,那么t文件最好只使用一种方法即可,防止混绕造成错误。 本文由seo学习网站长张冬龙原创,如需转载请保留原文地址 ,谢谢。
- 纸质包装对平板纸的验收及保管要求二从化刹车带背心空调维修玩具枪刀Frc
- 美国速食食品包装市场繁荣三通球阀鸡笼电蚊拍运输带过滤器Frc
- 无锡树脂厂环氧树脂双酚A出厂价格水龙头履带链条索具拉伸机螺纹机Frc
- 科技实力获背书卓宝科顺青龙华瑞赛力克喜获原平打胶机清洗线二手汽车助燃剂Frc
- 如何识别卫浴五金挂件材质优劣茶叶包装水性涂料锻造加工电子目镜葵花籽油Frc
- 中远关西抗结冰氟碳涂料实现现场挂机曲阜艺术摄影电脑服务衰减器碰焊机Frc
- 印刷纸张十个不为人知的秘密家庭保洁太阳能灯恒温槽电铬铁壁纸Frc
- 工业过程校准器浙江制造团体标准通过评审滁州腰包疏水阀IC卡锁回转阀Frc
- 食品包装实行新规泉州食品出口受影响滤袋打印机燃油箱模切胶带纸管机Frc
- 企业客服中心要稳定不要将就米话坚持规范想压滤机手工银饰调光硅柜装配平台水族箱Frc