Yahoo! 搜索
Yahoo! 目录和 Yahoo! 搜索是完全二个独立的事物。那目录是一个人工分 类的网站集合。Yahoo! 搜索是被 Yahoo购买的各种不同的搜索技术的有效组 合!。 Yahoo! 每天搜索服务超过一亿次,目录可能最高每天不超过一百万搜索 量。
Yahoo! 搜索使用不同组合的技术是AltaVista 、 AllTheWeb 和 Inktomi。 他们开始了新的 Yahoo!搜索产品时,他们重写了 Inktomi 的核心技术在比较 长的搜索短语查询更容易更新并且改善了它的关联。Yahoo! 搜索也正在提高垃圾网页过滤器的能力!
Yahoo! 搜寻索引被共享:
Yahoo! 搜索索引也被 AltaVista 和 AllTheWeb 和另外地搜索引擎调用.每一个搜索网站可能仍然使用他们自己的运算法则再来组织来自共同的搜索索 引的搜索结果。
搜索引擎 Yahoo 的分类体系及性能评价目前很多的搜索引擎都是将人工编制的等级式主题目录和计算机检索软件提供的关键词等检索手段结合起来,完成网络信息资源的组织任务。Yahoo就是 这种等级式主题指南类搜索引擎的典型代表。Yahoo的魅力,就在于它的可浏览式等级主题索引。按照主题建立分类索引, 提供全面的分类体系结构,并结合高质量的检索软件,Yahoo成功地建立起了一套独特的信息管理和组织机制,使得对网络信息的全面检索变成现实。现对Yahoo 的类目体系、分类原理、检索方式、性能评价等作进一步的探讨。一、类目体系 Yahoo由14个基本大类组成,包括Art&Humanities(艺术与人文)、Business&Economy(商业与经济)、Computers&Internet(电脑与网际网路/网络)、ducation(教育)、Entertainment(娱乐)、Government(政府)、Health(健康与医药)、News&Media(新闻与媒体)、Recreation&Sports(休闲与运动)、Reference(参考资料)、Regional(国家与地区)、Science(科学)、SocialScience(社会科学)、Society&Culture(社会与文化)。
根据其拥有的信息或网站的多寡及知识组织的需要程度,每一个基本类目下 细分不同层次的次类目或子类目,愈往下的子类目中的网站其主题愈特定。它建立了一个由类目、子类目等构成的可供浏览的相当详尽的目录等级结构。其类目 设计合理,结构完整、全面,类目等级层次鲜明,各级详略、宽泛程度不一,从而为网上丰富的信息资源的归类,尤其是确切归类提供了基础。
二、分类原理 InternetScoutProject的分类专家AimeeGlassel认为,“印度著名分类专家和图书馆专家阮岗纳赞的冒号分类法理论体系与Yahoo网络信息资源的主体目录之间存在着密切的联系”,从而揭示了Yahoo应用分面分析方法进行网络信息资源的分类实质。具体说来,可从以下几点来深入地理解Yahoo的分面分类原理或基本过程。
1.采用宽泛的主题领域建立分类索引 为了使其分类体系既具有无限的容纳性,又具有相当的专指性,Yahoo采用较为宽泛的主题领域,通过分析兼综合的方法建立较为完整的分类索引。这与分 面分类的思想不谋而合,因为将知识分为宽泛的类目即分面,多方面地反映主题内容以避免列举式类表的线性单向式的结构正是阮岗纳赞冒号分类法的主要原 则所在。
2.根据上下文进行信息内容的组合 从Yahoo的分类结构外表看,也许会认为它与叙词表很相近,因为Yahoo也是使用词汇而非符号来组成相应的概念词串。但是,从组合类目的能力看,它远远比普通的叙词表复杂得多。通过分析Web页面的内容特征,得到由Yahoo分类体系 结构中某些类目词组成的概念词串或标引词串,将其放入相应的类目层次中。在Yahoo的概念词串或检索词串中包含的独立的词汇都含有自身的名字,但是一旦 与其它词组合,则产生了一个上下文关系,拥有了一深层次的涵义。从这一点上说来,与分面分类法也是极为相似的。
3.利用冒号标记信息内容 现以“20世纪60年代印度在肺结核治疗方面的研究”作为待分类标引的信息内容来具体考察两者的标记制度:
在阮岗纳赞的冒号分类法中,该内容标引为:L,45;421;6;253;f.44‘N5 用词代替相应的符号,则为:Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India‘1950如果将分面公式中的相应标点符号用冒号代替,由此所形成的字符串形式就 是在Yahoo中用于描述信息内容的方法,相应地表示为:Health:DiseasesandConditions:Tuberculosis 可见两者在信息描述上何其相似!Yahoo利用冒号作为统一的分隔符进行了 信息内容的组织和描述,既保留了原先的分面标记的特点,又在一定程度上简化了标记制度,从而极大地提高了信息分类标引的效率。
4.提供不同的分类路径入口“虚拟的信息集合”是Yahoo的一大优点,体现在其拥有的概念模式和引用 次序(即分面排列次序)的灵活性上。在传统的图书馆中,一本书只能放在书架的某一固定位置上。但在数字化的世界里,电子信息资源却不用再限制在唯一的物 理位置上。我们可以将某一信息源分到类目结构的不同位置上。通过将分面分析方法应用到网络信息资源的组织中,Yahoo能够为某一信息源在其巨大的分类等 级结构中提供不同的路径分支入口,这样就使其能够从不同的路径,为检索相同内容的不同用户提供服务,从而完成查询。
例如,现欲查找美国Wisconsin-Madison大学所在的网页,Yahoo就能提供如下 几种分类或检索路径:
(1)若从Regional:类目入手,则相应的分类路径为:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:UniversityofWisconsin-Madison。
(2)若从Education类目入手,开始的几级路径为:Education:HigherEducation:CollegesandUniversities,在CollegesandUniversities目录下选择地理区域的子类目“UnitedStates@”后,可以看到,又返回到Regional目录下,之后就与上述路径相同了。其中的奥妙就在于符号“@”的运用,它提供类似于相关参照(crossreference)的作用,能够指引用户由某一子类目进入Yahoo的浏览性等级结构的其它分支中。
三、检索方式 Yahoo能够提供简单检索和细节检索。前者主要检索其分类结构中的一级目录,后者可使用关键词构成布尔逻辑式进行检索,其检索软件主要由OpenText公司提
供。两者的结合堪称珠联壁合:一个提供强大的高质量的主题指南目录,另一个 则提供高水平的检索工具。而且,Yahoo在检索时,也不光检索自身的主题目录,同时也会相应地检索OpenText公司提供的收有100万Web文件的OpenText数据库。
诚然,Yahoo在检索方式上上存在着一些缺陷,如:只能进行关键词检索,并且只支持布尔算符and和or,未提供near等,但通过在其主页的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超链接,指引用户进入这些地方去搜索,从而弥补了Yahoo的若干缺陷。因此,从总体上说来,Yahoo仍然是WWW上最流行的查询工具 之一。
四、性能评价 作为主题指南类搜索引擎的典范,Yahoo具有以下优点:
1.主题目录与检索软件的完美结合采用分面分析的方法,由信息管理专家编制主题目录,反映了人们在选择和 组织信息时的知识和智慧,提高了目录编制的质量。同时,按照主题目录以人工为主对提交的网页进行筛选、归类和组织,也能不断克服单纯由搜索软件自动完成分类的缺陷,增强分类的条理性。嵌入相应的检索软件或工具,并与之相集成, 提供高质、高效的检索服务,从而加快了系统的反映速度,提高了检索的准确性,得检索结果更接近用户的信息需求。2.信息检索难度的降低 Yahoo的数据库按照14个大类(各大类下又包含数量不等的小类)组织,其分类体系非常详尽,因此是进行宽泛主题检索的良好起点,特别是对于那些新用户和模糊需求的用户而言,选择浏览可逐级展开的主题索引比构造检索式要自然得 多。并且,在用户所在的类目下,显示了该级别的类目包含的条目数,如果用户 认为数量过多,还可在此范围内使用关键词检索。Yahoo的目录特征和利用上下 文的服务使得能够实现快速和容易的检索,从而在一定程度上降低了互联网信息检索的难度,提高了系统的用户友好性。
3.检索结果的分类选择 Yahoo由分类路径入手,最终将检索结构分成类目输出,从而将极大地推动信息的选择。它还对结果列表中的相应内容进行必要加工,加上一些描述的词组
或句子,方便用户浏览并选择:如:〔*〕或〔cool〕标记表明该结果项在内容 和版面设计都优于其他项;〔new〕表明是最近3日内收录的最新内容;以及上述提及过的以“@”表示相关参照,以括号里的数字表示收录的文件数量等等。另 外,Yahoo增加了结果显示的类型,可以以相关网站、相关网页、新闻等形式输出相应的检索结果。总而言之,为了更好地实现为用户服务的目的,Yahoo正不 断开发新的途径和方法用以改善信息检索服务。
在总结Yahoo所具有的优势的同时,也应注意它的缺陷,这些缺陷往往也正是主 题指南类搜索引擎的共同弊病所在:
1、由于互联网信息的迅猛增长,使得采集信息的速度远远比不上网络资源的增长速度,更勿论编制主题目录的速度了。这就造成了所建立的数据库规模较小, 且在某些类目下收集的文件数量有限等缺点,使得用户经常“乘兴而来,败兴而归”,满足不了相应的信息需求。
2、简单检索表中检索词之间缺省设置为“.or.”,且内含的自动截词功能,使得 在检索中往往会出现许多不相关的文件,导致查准率降低。
3、为了适应不同用户的查询或检索需求,Yahoo对相同的信息内容往往能提供不 同的路径入口,并以符号“@”建立相应的参照。这一方面加大了分类工作的难度,另一方面也使得其分类的一致性难以得到确切保障,所以,经常出现从某一 路径入手,却无法查到Yahoo中所包含的信息内容的现象。
4、待收录的网页或其它信息内容的复杂度的增加也在无形之中加大了确切分类 的难度,如与ActiveX技术相关的文献就很难在Yahoo中确切归类。
5、为了编制高质量的主题目录并跟上网络资源发展的速度,必须投入相当大的 人力、物力和财力,且对从事该项工作的人员的素质要求也日渐提高。否则,将无法很好地保证其主题目录的质量,也就从根本上无法提供优质的服务。
Yahoo! 搜寻份额:
Yahoo! 技术包括AllTheWeb , AltaVista 和许多其他的站点或使用这些搜 索索引的部分在 美国搜寻的份额为27% 。
Yahoo! 在搜索结果顶端和底部还有右侧放置Overture广告 。他们也在合作伙伴站点上投放这些广告与搜索结果混合,以便他们和一般的搜寻结果看起来非 常相似。 在 Yahoo! 顶端和底部广告在一个蓝色的方格中。
编辑搜索:Yahoo! 相信一个人工评审的数据比数学计算的结果更精确。 站点提交Yahoo 目录或Overture竞价中都有一个编辑的评审。Yahoo! 也已经陈述一些他们的编辑程序检查网页的部分。以下被相信:受到一个评审的站点可能最后有一 个小的排名提高, 虽然 Yahoo! 已经陈述那评审不影响关联性。Yahoo! 允许501 C语言组织和许多教育的网站免费的包含进入他们的目录和索引。
雅虎索引我的站点的什么页?
在www.mysite.com你能检查你的站点的那些页面被 Yahoo 编入索引。Yahoo! 也提供一个 免费的站点提交入口(你需要用yahoo ID登录使用它), 最好的提交 方法是让 Yahoo!'蜘蛛跟随来自其他网页的链接索引到你的站点。
如果你想要查看你的数据而且自动地追踪你能使用 Yahoo! 跟踪者和Yahoo search rankings 记住你做不完整的网页材料并且链接它将伤害你的站 点。
在Yahoo! Developer Network你也能找寻其他的 Yahoo! SEO 用工具。
Yahoo! 反向链接检查:
反向链接是外部网页链接 "进入一个页面之内的链接。”在 Yahoo 检查反向链接(linkdomain:www.whateversite.com)它通常显示大部份进入一个站点的已知链接。经常Yahoo! 计算许多不可能被其他搜索引擎 计算的链接。如一些故链接或 301 重新传入的一些反向链接。你能指定检查进入首页的反向链接(linkdomain:www.whateversite.com/index.php)
你们能检查一个站点任何的特定页面之内的反向链接(link:http://www.site.com/folder/page.html),检查链接进入个别的页面之 内的时候,确定你包括 http: 。
Yahoo! 与 Meta元标签:
大多数的主要搜索引擎会忽略 Meta 元标签关键字而且放置最低加权值。 Yahoo! 明确地支持这一个数据。Yahoo! 相信关于一个页面网络管理员知道对他 有更加深刻的认识与了解能更好的评价它们。麦克Grehan 采访乔恩.格利克 (Yahoo! 搜索) 他陈述元标签关键字被包含 进入一个搜索结果之内展示使用, 但是在关联性上没有效应。
该如何在 Yahoo 优化上做得更好:
Yahoo! 通常在大约一个月之内列出一个站点。最好提交你站点的方法是经 由建设一个优质的链接活动。如果你需要很快地使你的站点被编入Yahoo!索引,有一个付费程序对大部分站点来说我通常不推荐使用。站点竞价对数据内容推荐 爬行并快速地展示和更新还提供一个站点跟踪程序。
Yahoo 因素中搜索放较多的权重在上 "在页面" 因此操纵Yahoo! 搜索结果 似乎比Google容易些。
HTML代码的优化
与 Google 和 MSN 相比,Yahoo!对 HTML 代码的关注程度更高。很多测试表明, HTML 文件中的错误,可能在 Google 或 MSN 中影响很小甚至几乎没有,不妨碍该 页面出现在 SERP 的前端;但在 Yahoo!中获得成功的几率要小得多。同样的,一 个修正了 HTML 错误,完全通过 W3C 认证的网站或网页,在 Google 或 MSN 的变化 很小几乎很难察觉,但在 Yahoo!中却能发现排名有质的飞跃。
在网页设计及制作中,针对 Yahoo!的优化主要包括:
1、Yahoo!认为出现在 HTML 文件靠前(与网页显示时出现在上方的不是同一概念) 的内容是重要的内容,这就要求我们要把页面的重要部分突出地HTML 文件的头 部;
2、良好设计的网页大都具有精减的代码,如使用外置 CSS 文件、JavaScript 文 件等大大缩小 HTML 的体积,再如少用或完全不用table 也可以提高 HTML 代码的 效率,这些都可以在很大程度上突出网页真正的内容部分。事实上,上述两项在针对其他搜索引擎优化时也是不可忽略的,只不过 Yahoo!给予其更高的权重。
关键词密度
因为搜索引擎的算法总是在调整,因此,给出具体的关键词密度肯定不现实, 而且,关键词密度并不是一个放之四海而皆准的数字,很多情况下随行业的不同网站类型的不同,最佳的关键词密度也有所区别。因此,可行的办法便是分析网 站对应关键词的SERP,分析位于前10位的网站或网页所使用的关键词密度,毕竟理想的关键词密度总是有规律的。通常,在Yahoo SERP中排在前10位的网站,根 据关键词竞争性的不同,关键词密度除极个别的在0.5 to 1.0%(低端)和5.0 to8.0%(高端)外,大部分在二者之间,这时候尽量将关键词密度设为稍低于最高值一般便可达到优化目的。 反相链接
关于反相链接,在大的方面各家搜索引擎的规则肯定差不太多,在内容相关 网站上使用关键词作Anchor Text 的反相链接同样是Yahoo排名算法中至关紧要 的一个因素。相比较而言,Yahoo!对反相链接的处理更类似于 Google,与 MSN 的区别稍大。在针对 Yahoo!的网站优化中,反相链接必须考虑的方面有:
链接的质量
与 Google 采用 PageRank 和 TrustRank 来判定反相链接质量的方法类似,Yahoo!也使用了类似的技术剔除无关的链接或 Spam,同样,在 Yahoo!的排名算 法中,链接的质量要重于单纯的数量。在针对 Google 的网站优化中,判断链接的质量很多时候可以通过查看链接 来源网站的 PageRank 来权衡,尽管 Google Toolbar 中显示的 PageRank 并不准 确,但至少是一个相对简单的判断依据。那么,如何判断某个链接是否被 Yahoo 判定为高质量的链接呢?简单的办法是查看链接的来源网站是否出现在 Yahoo! 相同或相近关键词 SERP 靠前的位置,如欲更准确的判断,还需要查看该网站的 Whois 信息,Yahoo!一般认为可依赖的网站其域名注册时间至少满三年,另外还要看来源网站是否有足够数量的非交换链接,以及链接来源页面的出站链接数 量,同一页面上出站链接数量越多,其影响力越小,等等。