PCclub社区:用户 密码 注册 www.pconline.cn 汽车网 游戏网 时尚女性
  太平洋电脑网
产品论坛 软件论坛
咖 啡 馆 游戏论坛
首  页
产品库
今日报价 产业资讯
评 测 室 数码世界
软件 下载 摄影 论坛 
游戏 二手 视频 通信 图库
渠道商情 企  业 招聘培训
网络设备 服务器 办公设备
CPU/内显示器主板显卡
存储设备打印机外设MP4 
diy
DIY硬件
手机
手 机
笔记本
笔记本
台式机
台式机
数码相机
数码相机
随身听
随身听
摄像机
摄像机
数字家庭
数字家庭
精品廊
精品廊
北京 上海 广州 深圳 香港 广西 重庆 山东 江苏 辽宁 福建 成都 西安 台湾
 
 
   
首页 | 新闻 | 应用 | 评测 | 教你学电脑 | 信息安全 | 创意设计 | 开发特区 | 下载 | 专题 | 社区
 
 特色专区:QQ大本营 | Vista专区 | msn总动员 | 组网专栏 | 设计素材 | Flash剧场 | Photoshop | 视频专栏 | 热门软件 | KC通讯
 
您现在的位置: 软件资讯 > 软件应用 > 网络工具 > 网页浏览
用robots.txt探索Google Baidu隐藏的秘密
作者:木艺儿 责任编辑:caihao

 

  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

  有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

  有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

  现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

图1

  但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

图2

  很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎?

[1] [2] [下一页]
  下一篇:Google Reader快捷键大全  
更多相关搜索: google    baidu    robots    robots.txt   
正在加载评论,请稍候…

  发给好友 我要报错 投稿给我们 加入收藏 返回顶部  

本栏今日更新
相关文章
·新闻一周谈:反盗版,微软宜疏不宜堵!
·准备好了吗?IE 7最终版本月将至
·盗号产业化:QQ号竟要10元赎回!
·Windows Vista小技巧:定制你的通用文件对话框
·与众不同 给照片做个3D相框
·热点不错过 播客信息随时更新
·PConline网友鼠绘作品:索爱K790
·伤心情歌-海底的心
·分身大法 在Gmail中自定义发件人
·同时登陆两个Gmail?Firefox插件能
·Google Reader快捷键大全
·视频:让网页上任何图片旋转的方法
·聚合资源 搜索引擎也玩多元化
·Google八周年Logo精选大赏(二):人物与活动篇
·好消息:Google正式单独开放Gtalk注册!
·Google八周年Logo精选大赏(一):节庆篇
关于我们 | 网站地图 | 广告指南 | 联系我们 | 招聘精英 | 合作联系


广东省通信管理局
ICP证粤B2-20040647
互联网清理整顿
技术支持与报障:support@pconline.com.cn
        020-87568837         
对本站有任何建议、意见或投诉,请点这里在线提交.
本网站简体、繁体两种版本,以简体版为准
PConline版权所有,未经授权禁止转载、摘编、复制或建立镜像.如有违反,追究法律责任__