有请Google亲自演示巧妙地处理内容重复

“巧妙地处理内容重复”- 这是Google黑板报和谷歌中文网站管理员博客今天翻译的一篇文章。我想知道Google如何看待自己的内容重复问题。以下页面重复的展示了同一篇文章:

  1. http://googlechinablog.com/2007/07/blog-post_13.html (Google黑板报文章正文)
  2. http://googlechinablog.com/  (Google黑板报首页 - 它将长期显示该文全文,直至被其他更新的文章挤到底部,然后消失)
  3. http://googlechinablog.com/2007_07_01_archive.html(Google黑板报2007年7月全部存档,它将永久含有与原文内容重复的段落)
  4. http://www.googlechinawebmaster.com/%e5%b7%a7%e5%a6%99%e5%9c%b0%e5%a4%84%e7%90%86%e5%86%85%e5%ae%b9%e5%a4%8d%e5%88%b6/ (谷歌中文网站管理员博客,最先翻译原文的地方,被Google黑板报文章正文链接)
  5. http://www.googlechinawebmaster.com/ (谷歌中文网站管理员博客首页,#2的解释类似)
  6. http://www.googlechinawebmaster.com/2007/07/ (谷歌中文网站管理员博客2007年7月全部存档,#3的解释类似)
  7. http://www.googlechinawebmaster.com/category/seo/ (谷歌中文网站管理员博客SEO目录,#3的解释类似)
  8. http://www.googlechinawebmaster.com/category/%e4%b8%ad%e6%96%87%e5%b8%96/ (谷歌中文网站管理员博客的另一个目录,#3的解释类似)

按照正常的理解,应该是#4被显示,其它页面被当作重复内容。但是根据“巧妙地处理内容重复”一文所述:

另外,网站管理员不愿意看到 Google 给出象 example.com/contentredir?value=shorty-george=en 一样复杂的 URL 。他们往往更喜欢类似example.com/en/shorty-george.htm 的 URL。

 按照这个说法,Google最有可能排除的就是最正宗的结果。而按照“巧妙地处理内容重复”一文的建议:

适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的“最佳”版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的 robots.txt 文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。

 无论是谷歌中文网站管理员博客还是Google黑板报,都没有阻止搜索引擎爬虫访问文章存档页面和博客目录页面,正如“巧妙地处理内容重复”一文提到的那样:

确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客、论坛或相关的系统。往往在这些系统中同一内容会以多种形式出现。

Google似乎并不愿按照自己的建议考察一下这两个博客使用的Wordpress和Blogger系统,根据我的体会,Wordpress和Blogger都不考虑重复内容的请况,导致很多博客的正文页面被放在Supplemental Result的索引中(这也是我使用自己开发的博客系统的原因之一) - 当然这种问题是不会发生在Matt Cutts、Google黑板报和谷歌中文网站管理员博客上的。

附2007年7月13日18时13分搜索“巧妙地处理内容重复”的结果(截图):

共有 5 条评论

Cloudream 发表于: 2007年07月13日 06:40:50 PM

呵呵,非常有意思。谷歌还没收录此文吧。

发表于: 2007年07月15日 01:14:28 PM

这就是谷歌和百度的区别。比较长的搜索内容谷歌老是爱把它们按词语拆开,百度则显示它们在一起时候的搜索结果。我在以前的搜索中也有多次这样的经验,所以搜索比较长的内容还是要试一下百度。但是个人经验,总体来说,还是谷歌的搜索质量更好。不用说什么广告了(http://www.baidu.com/s?ie=gb2312&bs=

发表于: 2007年07月15日 01:14:54 PM

不用说什么广告了(http://www.baidu.com/s?ie=gb2312&bs=

发表于: 2007年07月15日 01:15:25 PM

晕,会过滤URL地址?

concorde 发表于: 2007年07月15日 04:45:23 PM

不是URL过滤而是本博客系统的一个BUG。无论正文还是评论,都无法正确处理用“百分号 数字”的形式编码的中文字符穿,比如百度搜索中文后的URL。

添加评论

  • 姓名:
  • E-mail 地址 (可选, 不公开):
  • Website (可选, nofollow):
  • 智力测验: 4 * 6 = ?
  • 内容 (HTML代码和UBB代码均不可用):

发表评论时请维持与此文章的相关性,使用关键字作为姓名或含有宣传内容的评论将被删除。