起风了

  • 首页
  • 智能●家
    • Android TV
    • 电视盒子
    • 智能媒体中心
    • Emby
    • Kodi
  • 网络设备
    • 家庭网关
    • 存储设备
  • 网站运维
    • 网站建设
    • 网站优化
  • 教程
  • 软件
    • 电视直播
    • 在线影视
  1. 首页
  2. 网站运维
  3. 网站优化
  4. 正文

网站使用 robots.txt 中常见的误区

2021年2月1日 238点热度 0人点赞 0条评论

大家都知道网站可以使用 robots.txt 来控制蜘蛛的抓取,其实我们在使用过程中会有很多误区:

今天列举一下常见的robots.txt实际使用中的误区:

误区1.Allow包含的范围超过Disallow,并且位置在Disallow前面。

比如有很多人这样写:

User-agent: *
Allow: /
Disallow: /mulu/

想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面,禁止抓取/mulu/下面的所有url。

搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。也就是说禁止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会生效。

误区2.Disallow命令和Allow命令之后没有以斜杠”/”开头。

这个也很容易被忽视,比如有人这样写Disallow: 123.html ,这种是没有效果的。斜杠”/”表示的是文件对于根目录的位置,如果不带的话,自然无法判断url是哪个,所以是错误的。

正确的应该是Disallow: /123.html,这样才能屏蔽/123.html这个文件,这条规则才能生效。

误区3.屏蔽的目录后没有带斜杠”/”。

也就是比如想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?

首先这样写(Disallow: /mulu)确实可以屏蔽/mulu/下面的所有url,不过同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面,效果等同于Disallow: /mulu*。

正确的做法是,如果只想屏蔽目录,那么必须在结尾带上斜杠”/”。

暂时先写这几条,以后遇到了其他的随时补充

标签: SEO 网站建设
最后更新:2022年3月1日

Admin

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
最新 热点 随机
最新 热点 随机
哪吒监控V1通过宝塔面板反向代理配置教程 解决甲骨文云ARM机器宝塔面板Nginx与Nginx防火墙和网站监控报表冲突报错(个人笔记) Google将发布Google TV Streamer取代 Chromecast,将于 9 月上市 IDM下载器(Internet Download Manager) 最新多语言破解版 Google TV 现已拥有超过 130 个免费频道 华硕首款 Google TV 智能显示器
SSPanel-Uim V3魔改版邮件服务设置教程 让你的电视盒子真正使用上Android TV OS系统 百度人体分析API接口申请 搜索引擎如何对页面进行排名 Star TV:日韩 港台电视直播APP YouTube将提供免费的有广告支持的电视节目

COPYRIGHT © 2024 起风了. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang