第二部分: 探索Google PageRank 新算法
---对Google的新排名算法有多种猜测。此文仅做抛砖引玉之用。
2-1. Google的主题性趋向
2-1-1. 关于页面级别(PageRank)及Google的旧算法出现问题的原因页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级 越高,则随机网络冲浪者发现它的机率亦越高。
这种思路其实相当富有创意。一个网页的外部链接越多,则对任意网络冲浪 者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导入链接就越能从链接中受益—这是由于任意网络冲浪者发现这些链接的机会就越大。
在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果 用户查询关于素粒子物理学研究方面的论文(或网页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最 相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。
若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正 如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面 级别系统考虑了所有链接,但却忽视了链接页面的主题性。
Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的 搜索引擎营销商却通过在网络上到处建立充盈关键词的链接来欺骗Google的排名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些 来自较高“页面级别”页的链接。
如果网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提 升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果 的质量开始恶化时,它是不会坐视不管的。
2-1-2. 新技术闪亮登场:主题性页面级别技术(Topic-Sensitive PageRank)
2002年,斯坦福大学的一名博士生塔赫尔 . 哈维利瓦拉(Taher H.Haveliwala)发表了一篇非常有意思的论文,名为“Topic-Sensitive PageRank(主题性页面级别计算系统)”。而更加有趣的是,一年之后哈维利瓦拉 成了Google的一份子。“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有 明确的查询目的,并更感兴趣于跟进那些具有某个特定主题的相关网页上的相关链接。这是一个相对而言较为新颖的思路,它解决了搜索结果的质量性方面的一 系列关键性问题。
毫无疑问,哈维利瓦拉将成为搜索引擎业界中一个举足轻重的角色。他已经 在搜索技术的其它领域方面进行了一些实质性的研究工作,包括如何更有效计算页面级别方面的一些比较有趣的研究。
在最初的研究论文中,哈维利瓦拉描述了他是如何利用斯坦福大学的网络数 据库,对应于ODP(开放目录)的16个顶级目录的16个主题来计算“主题性”页面级别得分。虽然该研究的主题和数据数量(8千万个网页)十分有限,但能够看出 这种新系统可改善搜索结果,且具备对查询用户感兴趣于何种主题的理解能力。
就在去年,当我回过头来再阅读这篇论文时,我注意到哈维利瓦拉所描述的 这种系统对搜索引擎来说还存在着两个问题。不过下面我们将会看到,这两个问题现在都能得到妥善解决了。第一个问题是充分拓展主题的数量。要想改善搜索结果,16个主题自然是远 远不够的。但由于Google的页面级别计算系统的代价非常之高,因而除非新系统能够提供一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领 域在过去的一年中的深远发展,因而我相信现在在主题数量上已不是大问题了。
第二个问题就是如何决定一个查询条件可能对应的主题–- 当用户输入诸 如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以 最恰当的主题,以及为什么一些查询条件更容易受到影响的原因。
2-1-3. 关于Applied Semantics公司及其专利技术CIRCA Applied Semantics网络广告软件公司是互联网广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC 广告客户提供基于内容的广告就是采用了Applied Semantics的AdSense技术。
事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术 其实就是Applied Semantics公司所拥有的专利技术CIRCA。
CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体 论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理 解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术 目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例 如,如果用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado” 地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。
2-1-4. 二者的有机结合:主题性搜索引擎的实现 现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?
首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念, Google已然解决了如何计算其主题性页面级别的问题。在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。 但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行 性。现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中 若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好 的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。
由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面 级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。
当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页 面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件 之间的相关度很低,则效果亦会大打折扣.
2-1-5. 安然接受和理解算法的改变 可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上 升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝 大部分都是由那些排名被刷下来的网站提供的.我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可 用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。
我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询 条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外, 把它当成规则就大错特错了。
2-1-6. 主题并非关键词... 亦并非十全十美 千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“市场营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。
但从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果 所匹配的主题是错误的。例如对”laptop rental”,用户搜索“笔记本租赁”往 往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大 学里面的住处租赁信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发现这些链接大都具有相似的主题性,如Computing,Housing(学生在校园里出租住处),等等。
大家可以用其它词语进行查询,然后分析排名靠前的那些页面上的外部链接,就会更容易理解为什么“laptop rentals”会有如此的搜索结果了。
Google仍有可能提供不够理想的搜索结果,当然也有可能再次受到蒙骗,只 是这种机率越来越小而已。同时我们相信Google会多花一些时间来修正这些问题。
2-1-7. 为什么只有部分搜索结果页发生了根本的改变?
我们不必理会那些对 Google 新算法的非议,只要再来看看真实的数据,你 就不难理解为什么有些查询条件较其它查询条件更易受到影响。我们以“Real Estate”为例,依照 Scroogle.org 的方法论,有 77 个原来 排名在前 100 位的网页排名降到了 100 名之后。而对于更为具体的查询条件“Colorado Real Estate”,有 24 个排名在前 100 名的网站受到了影响。而在那些被刷下来的网页中,我第一个看到的是一个标题为“Southern California Real Estate”的页面。有趣的是,倘若用“Southern California Real state”进行更具体的查询,你会发现它排名高踞第二位。换言之,这些 网页并不是受到了 Google 的处罚,而只是由于缺乏对查询条件的相关主题性而使排名掉下来罢了。也有极少数竞争性很强的查询关键词对搜索结果的排名没有造成什么影响。 这种现象已被用作对 Google 排名算法的各种猜测的正确性与否的一个依据。但我认为对这种现象的解释其实也很简单--以“search engine optimization”为 例,在返回的搜索结果中,前 30 个网页列表几乎没什么变化。如果对排在榜首 的页面进行分析的话,就可以发现这些网页上的外部链接都具有良好的相关性,这样的网页在一个主题性页面级别的计算系统下也会做的很好。可能 Google 采用的新算法与我的猜测大相径庭,不过目前为止我尚未发现比这更好的猜测。不过这些并不重要,我们只要清楚一点:不管 Google 怎么改变它的算法,成功的秘诀其实相当简单--胜出的往往是那些拥有大量内容和大量 相关链接(包括导入链接和导出链接 )的站点。而那些使用门页 (Doorway Page) 和链接交换的网站就不会再这么好运气了。
第三部分: 如何在Google新算法中更有效优化如何应对Google的新算法?大家可以根据下面所列的一些要点采取相应的措施。
3-1. 关键词的研究:扩大覆盖面 搜索引擎策略的中心思想是确定恰当的关键词来锁定目标群体。但有很多网站管理员却在这一步上掉以轻心,只在屈指可数的几个平平常常的关键词身上铆足了劲,却不知这种策略失之偏颇。关键词研究的主要目标应该是确定目标群体 所有可能使用的关键词,其中包括了品牌名称、地理位置及修饰语等“修饰成分”。
尽管对网站的每个页面只能围绕两到三个关键词进行关键词优化,但通过关 键词和修饰成分的有机结合,亦可大幅提高网站对搜索结果的覆盖率。对于Google在2003年11月15号所做的更新,有很多实施了有效关键词策略的网站管理员压根就没有注意到。原因很简单:他们锁定的是所有可能相关的关键词,覆盖 面极广,所以虽然个别一般性的关键词的排名下降了,但网站的整体访问量并未受到什么影响。
若只针对少数关键词,而且这些关键词都有很好的排名,这种策略看起来似 乎也蛮不错。可是一旦搜索引擎改变了排名算法,就象Google这次一样,这种缺乏灵活性的策略可就撞上南墙了--正确的做法是锁定所有可能相关的关键词,扩 大对搜索结果的涵盖面,给自己的搜索引擎策略打下一个坚实的基础。
3-2. 网站结构的有效性
为保证“广泛的关键词”策略的有效性,网站需要进行组织,让搜索引擎可 以顺利地遍历或检索网站内的所有网页。为了更好的理解这一点,让我们先来看看搜索引擎的Spiders是如何遍历网站的。
在对网站的第一次造访中,Spider首先会取得一个叫做Robots.txt的文件来 决定是否允许它检索。
当Spiders从另外一个站点发现你网站的链接时,若Robots.txt文件里并未声明不允许它访问该页面,则Spiders会把这个页面保存下来。它不一定就是主 页,也可能是你网站的其它页面。
Spider在对这一页进行检索时,它会从中摘录一些关于内容方面的信息和页 面上的所有链接,并将其放入搜索引擎的数据库里面。如果它所认为你的网站十分重要,它稍后会检索这些链接页面。
如果你在网站的每个页面上都放了一组指向网站主要部分的链接(网站全局 导航链接),那么接下来这些链接页极有可能得到Spider的检索。假设网站上的每个页面上都依次放有指向网站主要内容的链接,那么搜索引擎要想遍历整个网 站真是易如反掌。
因而,最有效的网站结构当属自顶而下(Top-Down)或金字塔型设计结构。规 模较大的网站(至少十几页)应设立一个网站地图页,用以列出网站的所有内部链
接页。SUN微电子公司的网上大师级人物杰可布.尼尔森(Jakob Nielsen)认为: 一个网站设计的精良与否的一个重要标志就是是否有网站地图。许多人对文本链接方式的网站导航持排斥态度(可能因为它不那么漂亮吧),而是热衷于Flash或动态网页(DHTML)形式的菜单。使用这种导航方式的人要当心了,因为搜索引擎目前尚无法很好地支持这种导航系统。不过别担心,只需将文本导航链接放到网页的最下方,这样既保持了你喜欢的网站风格,又向搜索引擎 提供了更对它们口味的东西,可谓皆大欢喜。
内容清楚的文字性链接不但可使你的网站很容易得到Spiders的检索,而且 对我们这些真实的访问者来说亦一目了然。做文字链接时需注意一个问题:尽量让网站的内容只需最多两三次点击就可以打开,可创建一个网站地图把这些链接 放到一起。
3-3. 创建大量优化网站内容 网站的结构就象一个框架。我们已经知道了如何构建一个友好的网站结构,接下来该向结构中填加内容了。
先记住完成步骤一(3-1)后找到的所有相关关键词以及相应的修饰语,现在我们 可以在每一页的内容上,在下面几个地方放上相关的主要关键词,并予以恰当的修饰:
1. 网页的<TITLE>中
2. HTML源码中的关键词和描述元标识(META Keywords & Meta Description)
3. 页面上的主标题文字<heading>和各部分的标题文字<headings (H1– H6)>
4. 网页正文中的段落(<P></P>)和列表(<List></List>)之中不必太担心象“关键词密度”这样“深奥”的东西。只需自然地使用关键词, 利用不同的单词变化形式,并辅以恰当的修饰语。而且只需在页面上可以看见的文本内容中出现若干次关键词,并将这些关键词放在页面上较为突出的位置上就 OK了。没必要再向其它毫不相干的地方“填塞”关键词。
假设你已经为要建设的网站拟定了大量内容––建设一个内容相当多的网 站着实是一项有些让人望而生畏的任务。实际上也确有一些人望而却步,转而使用诸如机器自动生成的“门页”等这样一些廉价的伎俩,大家千万别相信这些投机取巧的方法,它们只会增加你遭到搜索引擎处罚的可能性而不是你想要的排 名。况且,网站内容的开发工作并没有那么难。如果你是自己做这项工作,你完全可以把工作分做几步来开展,这样就轻松 多了。例如,若将工作分做10个步骤,且每个步骤中需创建10个页面,你就可以
每天只完成一两页内容,等一个步骤完成后再继续下一个步骤。
花上两三个月来构建一个既实用又兼具丰富内容的站点是值得的。别忘了要 经常给网站补充新鲜的内容––即使一个星期只补充一点内容,时间长了之后,用户总会看到内容上的质的飞跃。而且网站的内容越多,搜索引擎用户发现它的 机会也就越大。
3-4. 链接策略 现在你的网站不但漂亮而且实用,不但内容丰富,而且关键词完美涵盖了所有用户可能用到的查询条件。每个页面都是一个优化的典范,且被极佳地相互链接起来... 现在可以松口气了吗?别急,革命尚未成功。若现在你就停滞不前了, 那你一定会得失望。搜索引擎不会对一个没有任何外部链接的网站青睐有加。因为外部链接往往意味着业内其它网站对你的认知程度。要想得到理想的排名,你 还需要花时间来进行网站推广和逐步建立网站的导入链接。
如果想在“新”Google中取得成效,就需要锁定那些来自相关站点的相关链 接。数量当然是多多益善了。问题是:怎么去找这样的链接呢?
首先,向所有能找到的相关目录提交你的网站。象DMOZ这种大型目录当然是 首选目标了,不过一些规模相对较小的分类目录也是理想的提交对象,如GoGuides,Skaffe,Gimpsy,WebSavvy,等等。
其次,可从相关站点群体获得相关链接。以所有主要目标关键词为查询条件,从Google上查找那些排名位居榜首的网页。排名前20到30名的网页一般来说相关度最高,因而都可能是理想的目标。再依次访问其中的每个网站-–若这些网站 提供有链接页,或链接到相关站点,可以向他们请求交换链接。然后再看看有哪些网站链向它们,再设法同这些网站交换链接。
尽量控制链接的放置位置。即使是一个罗列了大量链接的“资源”页的相关 链接也是不错的。若链接位于访问量较好的页面,可使你赚进显著的访问量。找一找这样的网页,和他们进行互惠链接。一般情况下,链接页上都会放置自己的首页作为到自己网站的链接。但也不 尽然。在建立链接时,也可以为网站的“内部”页面寻找链接的机会。
3-5. 不要“见好就收”! 大多数人很容易步入的一个误区是:一旦他们的网站在搜索引擎中的排名效果显著上升,并由此而使访问量得到可观的增加后,他们就开始忙于应付新访问者了,而不再为网站的内容、链接花心思了,甚至没有心思再去看他的网站排名 了。
不久之后,倘若 Google 或任何一家搜索引擎把他们的排名给刷下来了,他 们就开始牢骚满腹,说什么搜索结果不公正,搜索引擎在迫害他们...等等等等。
对此,我的建议很简单-–不要因为排名上去了就停止努力,继续寻找新的 相关关键词,继续创建链接,继续为网站添加新鲜“血液”,保持网站的最新状态。记住:无论是排在你后面还是前面的竞争对手,没有人会停止和你竞争的。你的努力往往需要过上几个月才会在搜索结果中体现出来。可是有些人在几 个星期之后就因为没有看到直接的效果而放弃了。如果在网站的搜索引擎排名上掉以轻心,等发觉问题时,你已经落后至少好几个月了。
假如你已经为网站开展了搜索引擎策略,并已投入相应的人力、物力和财力, 这时候一定要记住:贵在坚持。不要轻易放弃,也不要“见好就收”。