来客旗下网站:来客网站设计
服务热线:18106308119(微信)联系我们支付方式

威海网站建设,威海网络公司

SEO优化技术

robots.txt文件的设置方法,让搜索引擎正确抓取

DATE:2013-05-09 08:17:40
搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。
标签:

 搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。

注意:网站的robots.txt文件一定要存放在网站的根目录。

robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /

  禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/

  允许访问特定目录中的部分url
User-agent: *
Allow: /158
Allow: /joke

  禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

  1.屏蔽404页面
Disallow: /404.html

  2.屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
Disallow: /158/

  3.屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX?123
/123.html
我们要屏掉/XXX?123 页面,代码如下:
Disallow: /XXX?

  4.告诉搜索引擎你的sitemap.xml地址
具体代码如下:
Sitemap: 你的sitemap地址

谷歌或百度官方提供的robots.txt使用指南学习:
百度:http://www.baidu.com/search/robots.html 
谷歌:http://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN 

提交需求告诉我们您的求,我们会在24小时内与您联得联系,资料会保密!

服务项目
高端网页设计定制
移动应用设计开发
网络营销推广
成功案例
最新案例
网站建设
移动营销
网络营销
网店装修
客户名录
关于来客
公司简介
公司新闻
联系我们
在线问答
解决方案
网站建设
电商运营
移动营销
网络营销
站长博客
网页设计
手机网站
网站优化
天猫装修

电话:18106308119  邮箱:19767526@qq.com

© Copyright 2010-2015来客网站设计工作室保留所有权利    鲁ICP备13009554号-4

站点地图|