太平洋汽车网 | 太平洋游戏网 | 太平洋女性网 | 太平洋亲子网 | PC购物网  网站地图  
太平洋电脑网
首    页
产业资讯
行情报价产品库
数据调研评测室
服 务 器网络设备
方案应用办公设备
软件资讯产品论坛PCclub社区
下载中心软件论坛摄影部落
渠道商情通信游戏科技奥运
网上商城图库二手招聘培训
diyDIY硬件 手机手  机 笔记本笔记本 台式机台式机

数码世界

数码相机数码相机 随身听MP3/MP4 摄像机摄像机 数字家电数字家电 精品廊精品廊
北京 上海 广州 深圳 香港 广西 重庆 武汉 山东 江苏 辽宁 福建 成都 西安 江西 湖南 黑龙江 台湾
 
 
   
软件 首页 | 资讯 | 应用 | 评测 | 教你学电脑 | 信息安全 | 创意设计 | 开发特区 | 软件下载 | 专题 | 社区
 
软件 特色专区: QQ大本营 | Vista专区 | msn总动员 | 组网专栏 | Photoshop | 视频专栏 | 常用软件
 
您现在的位置: 软件资讯  >  软件应用  >  信息安全  >  安全资讯

如何使用robots.txt防止搜索引擎抓取页面

出处:其它网站[ 2008-04-03 10:17:23 ] 作者:googlechinablog 责任编辑:zhangxinxin

导 读  
  有些时候,我们建立的一些网页,不希望被网友通过搜索引擎找到,该如何做呢?本文介绍了如何使用robots.txt防止搜索引擎抓取页面的一些技巧。

  Robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。

  如何放置 Robots.txt 文件

  robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

  这里举一个robots.txt的例子:

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~name/

  使用 robots.txt 文件拦截或删除整个网站

  要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

  User-agent: *

  Disallow: /

  要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

  User-agent: Googlebot

  Disallow: /

  每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

  对于 http 协议 (http://yourserver.com/robots.txt):

  User-agent: *

  Allow: /

  对于 https 协议 (https://yourserver.com/robots.txt):

  User-agent: *

  Disallow: /

  允许所有的漫游器访问您的网页

  User-agent: *

  Disallow:

  (另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)

  使用 robots.txt 文件拦截或删除网页

  您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

  User-agent: Googlebot

  Disallow: /private

  要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

  User-agent: Googlebot

  Disallow: /*.gif$

  要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

  User-agent: Googlebot

  Disallow: /*?

  尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

  作为网站管理员工具的一部分,Google提供了robots.txt分析工具 。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个 robots.txt 文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用 robots.txt , 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

前一页 [1] 下一页
下一篇:几招教你全面阻截互联网上电子邮件病毒
来PConline劲爆论坛抢大奖!马上点击进入网络安全讨论区
 今日论坛热贴推荐
·22项Windows或Mac不能而Linux可以的事
·WindowsXP系统安全实用技巧大合集
·全球网友的选择!Webware100获奖软件下载
·从硬盘安装SUSE Linux10系统的两种方法
·最新!Leah Dizon日本发展后写真壁纸
·假IE病毒兴风作浪 点击广告还释放数十木马
·六招关闭WindowsXP自动播放防止病毒
·微软“最后通牒”到期 未来还有四种选择
·QuickTime中新漏洞 黑客可远程控制Vista
·强烈推荐!美女克劳迪亚-希佛精彩壁纸
更多资讯请点击: robots  搜索引擎  抓取页面 

  发给好友 我要报错 投稿给我们 加入收藏 返回顶部  
相关文章  
·BT搜索引擎TorrentSpy永久性关闭 [2008-03-31]
·看谁搜得准?四大搜索引擎华山论剑 [2008-03-28]
·警告!18岁以下请勿使用Google [2008-03-28]
·搜索100亿网页 雅虎搜索放言技术已超百度 [2008-03-17]
·百度日本成第四大独立搜索引擎 [2008-03-14]
·Google市场份额升创历史新高 股价创新低 [2008-03-05]
·IE正常,Maxthon打不开网页解决方案 [2008-03-03]
·Microsoft、Google、Yahoo搜索市场上的较量 [2008-01-17]

About Us | 关于我们 | 隐私政策 | 广告服务 | 联系我们 | 招聘精英 | 网站律师 | 合作联系 | 友情链接
太平洋专业网站群:  太平洋电脑网 ┊ 太平洋汽车网 ┊ 太平洋游戏网 ┊ 太平洋女性网 ┊ 太平洋亲子网

广东省通信管理局
ICP证粤B2-20040647
互联网清理整顿
技术支持与报障:support@pconline.com.cn
        020-87568837         
对本站有任何建议、意见或投诉,请点这里在线提交.
本网站简体、繁体两种版本,以简体版为准
PConline版权所有,未经授权禁止转载、摘编、复制或建立镜像.如有违反,追究法律责任