返回列表 下一主题 ›› ‹‹ 上一主题 回复 发帖

[知识] 搜索引擎知识之——(搜索引擎的工作原理)

[知识] 搜索引擎知识之——(搜索引擎的工作原理)

  搜索引擎的工作原理

  神州一剑2008/文/陈剑电子商务知识系列之二

  大家知道,所谓的互联网是指的全球的因特网,你所在的位置,只是局域网板块上的一个很小的点。而在前面的《什么是搜索引擎》一文陈剑已经讲过, 搜索引擎按其工作原理上来区分,分为全文检索搜索引擎,分类目录搜索引擎和元搜索引擎三种类型。

  搜索引擎的原理基本分做三步:

  第一步:从互联网上搜集信息

  网络蜘蛛Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

  第二步:整理信息、建立索引数据库

  由分析索引系统程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

  第三步:在索引数据库中搜索排序、接受查询

  当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

  最后,由页面生成系统将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户。网络蜘蛛(spider)一般按照各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率,要定期重新访问所有网页,更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会以更新的形态,反映到用户搜索查询的结果中。

  全文搜索引擎

  全文搜索引擎的信息搜集基本都是自动的。也就是说搜索引擎,利用称为网络蜘蛛(spider)的自动搜索机器人程序。沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。

  而网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同。所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

  分类目录搜索引擎

  和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的网址链接,而不是具体的页面。

  分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

  分类目录搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

  元搜索引擎

  互联网是一个浩瀚的信息海洋,如果没有搜索引擎帮助,要查找信息等于大海捞针。随着信息时代的发展和普及,网络的信息量越来越庞大。传统搜索引擎不能覆盖整个互联网的信息,用户对查找信息的数量和质量需求提高,此时一种新型的搜索引擎聚合元搜索(MetaSearch)出现。利用其它独立搜索引擎整合、控制、优化搜索结果的技术称为“元搜索技术”,是元搜索引擎的核心技术。元搜索引擎能够整合多个传统搜索引擎的搜索结果进行聚合、过滤等流程的处理,从而提高搜索结果的质量。

  元搜索引擎以丰富的资源、相对全面、准确的搜索结果等优点受用户的青睐,已渐成为一种不可或缺的极具潜力的新型网络搜索工具。

  真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

  现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的网址、链接锚文本、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“核美眼睛保健膏”,但如果有别的网页B用链接“核美眼睛保健膏”指向这个网页A,那么用户搜索“核美眼睛保健膏”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“核美眼睛保健膏”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“核美眼睛保健膏”时也会被认为更相关,排序也会越靠前。

  互联网虽然只有一个,陈剑提醒大家各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

  陈剑提醒大家心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。我们应该有这个概念:如果搜索引擎的网页索引数据库里应该有的资料,而我们没有搜索出来,那是我们的能力有问题,学习搜索技巧可以大幅度提高我们搜索效率,增加我们的工作能力。

  陈剑再次提醒大家,随着搜索经济的崛起,人们开始越来越关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度及日流量,来选择是否要投放广告等;作为网民,会根据搜索引擎的性能和技术,来选择自己喜欢的搜索引擎来查找资料;作为企业的网络营销人员,陈剑认为更应该把有代表性的搜索引擎作为研究对象。
返回列表 下一主题 ›› ‹‹ 上一主题