很多站点生成的内页保持着动态和伪静态两种形式的链接,以设置过伪静态规则的wordpress为例。不仅存在一个伪静态形式的链接,还有“域名+/+?+数字”形式的默认链接可以访问。防止搜索引擎抓取默认链接避免重复抓取,我们就要对设置过伪静态的博站点添加robot协议并在其中加上禁抓动态链接的命令。
如何在robot文件中添加禁止抓取动态链接的命令?
我们知道disallow是不允许的意思,动态链接的一个标准符号就是“?”因此禁抓动态Url命令写作:
Disallow: /*?*
必须注明一点,robot文件对搜索引擎的约束性有多大。之前百度谴责360搜索不遵循robot协议抓取禁止抓取的内容。可有证据表明,除了 google每天都“读robots”之外,没有任何证据表明百度在第一次访问时读过后什么时候会再读它。百度第二次读robot文件很难说是在明天、下个月还是后年。但是写进去了总比不写好。
文章来自公孙策广州网站建设公司(http://www.gscpp.net)转载请保留链接!