首页 > 常识 > 互联网 > 上网浏览 > 常见问题

搜索引擎工作原理

作者:yiluokuang.com  时间:2016-01-06
描述:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序

从互联网上抓取网页

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。 

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有你而没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

相关文章:搜索引擎分类

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

目录索引

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

元搜索引擎 (META Search Engine)

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo

除上述三大类引擎外,还有以下几种非主流形式:

1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。

2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。

相关文章:搜索引擎是如何工作的?

你知道什么是搜索引擎,而且也理解得到搜索引擎索引的重要性,但搜索引擎如何工作,如果不了解,可以通过本文知道更多。基于爬行程序的搜索引擎是由三部分组成的:爬行程序、索引和软件。每一部分都具有自己的功能并且三个部分一起产生了我们在搜索引擎结果页面(SERPs)看到的内容。

饥饿的爬行程序

另一个广为人知的名字是网络爬行程序或者机器人,搜索引擎爬行程序就是能阅读网页和跟踪站点内到其它网页任何链接的一个自动程序。我们经常将一个称为被“爬行”或“索引”。在网络上有三种非常饥饿、非常活跃的爬行程序。它们的名字为Googlebot(Google)、Slurp( Yahoo!)和MSNBot(MSN 搜索)。爬行程序会从先前添加到它们索引(数据库)中的系列网页URLs开始网络之旅。在它们访问这些网页时,它们爬行编码和副本,它将在网络上找到的新网页(链接)也添加到它的索引之中。对于这个过程,我们可以将爬行程序称为是正在建立索引,稍后将进一步加以讨论。爬行程序会根据一个固定的周期回访其目录中的站点,寻找任何的更新。至于爬行程序回访的频率,这要由搜索引擎确定。网站拥有者通过采用一个名为robot.txt的文件确实能控制爬行程序访问这个站点的频率。搜索引擎在进一步爬行一个网站之前首先查看这个文件。

正在成长的索引

索引就像是一个包含爬行程序所找到网站每一个网页和文件副本的巨大目录或者详细目录。如果某一个网页发生了变化,则会使用新的信息来更新这个目录。为了能使一个数量的概念给你描述这些索引的大小,Google最新公布的数字是80亿个网页。有时候需要一定的时间才能让爬行程序找到新的网页和更改并添加到自己的索引中。由此,一个网页可能已被“爬行”但尚未“索引”。知道一个网页被索引后——添加到索引中——此时在搜索引擎中是搜索不到这些被爬行过的网页的。

搜索引擎的工作模式

每天,搜索引擎都通过一个设计好的软件来详细审核其索引中的数十亿的网页索引,并找出哪些与搜索查询最为匹配以及将其按最为相关的顺序进行排名。

搜索引擎面对的是数百亿需要排序的网页,它如何决定相关性呢?每一个搜索引擎都已形成了一套规则和数学公式,我们将其称之为算法,用这种算法来决定网页的排名。至于每一家搜索引擎的算法是如何工作的这是一个秘密,但常常用来改进一个网站的排名性能的一般原则大家还是知道的,我们将其称之为搜索引擎优化。搜索引擎不时简单地采用网页副本将相关的网页根据一个垂直的主题进行分组。如果我们取出一个与电影行业相关的网页,这些主题或者组可能是娱乐、电影娱乐、电影明星娱乐等等。每一个主题都有描述这个组所包含网页的公共字和短语。有些网页可能不单单属于一个组,例如:与电影利润相关的一个网页可能既属于金融组又属于娱乐组。

SERP(或搜索引擎结果页)

将此算法应用于索引的站点后,根据所执行的搜索,搜索引擎会给出一些最相关的搜索结果。我们来简化一个复杂的过程,当一位用户输入一个搜索查询时,搜索引擎根据这个网页对其认为相关的索引进行分析和检索。如果它具有一个相关网页的候选名单,它会依据另外的算法因素对这些列表进行进一步计算,以便决定以何种顺序将其展示给用户。这些因素或许是用户的位置,当然了,甚至也可能是用户的搜索历史记录。每个搜索引擎所使用的算法是不同的,这就是为什么对于相同的查询,每个搜索引擎所搜索到的结果不尽相同的原因。每一个搜索引擎都有自己的小生境,因此,对于一个用户常常同时使用多个搜索引擎来搜索一个内容并不少见。这进一步说明了网站拥有者将其网站在所有搜索引擎上获得索引并得到较好的排名是非常重要的。

进一步的研究结论

搜索引擎的目标是如何适合用户的口味。它们因此想在第一时间给用户提供合适的、相关的、信息量大的站点来满足他们。世界上每一个搜索引擎都喜欢把什么样的网站排在前面?答案很简单: 高质量的好网站。什么样的网站才是所谓的高质量的网站?

1.让用户感觉好: 内容质量好,用户体验度高

2.让搜索引擎感觉好: 网站结构,页面设计,标签注释等等各方面细节设计合理,可以让搜索引擎比较容易搜索到里面的内容.

SEO人员要做的工作就是优化网站,完善这个网站,让搜索引擎更加容易收录网站的内容,更加搜索这个网站的内容, 搜索引擎搜索到了,如果配合着其他的营销工作做的非常的好, 这个网站从内容的质量和网站结构对搜索引擎的友好度比其他的网站做的优秀,排名自然的就上去了. 就这么简单.

文章来源:《生活宝典shenghuobaodian.com》

从手机浏览器访问《生活宝典》

站内搜索
  • 网站针对微软搜索引擎 Bing 收录优化的建议
  • 全站允许搜索引擎爬虫访问的文本代码
  • 全能站内搜索引擎代码
  • 搜索引擎收录网站常见问题
  • 内部链接是搜索引擎优化中的重要因素之一
  • 搜索引擎公共协议(robots)的作用及范例
  • DIV+CSS网页布局 让搜索引擎蜘蛛不再累
  • 要让网站代码更容易被搜索引擎识别
  • 如何快速让搜索引擎收录网页呢?
  • 搜索引擎不要错过了成为《大百科全书》的机会
  • 微商帮
    世界网站大全
    中国科研团队:大象的长鼻子是如何越变越长了
    中国科研团队:大象的长
    自己是否能够像自己想的那样做成一件事,身旁人的判断会比自己准确
    自己是否能够像自己想
    火宫殿:吃喝玩乐看,烧香拜神佛,红火的庙会经济
    火宫殿:吃喝玩乐看,烧香
    眼见为实也不为实,更须谨慎看到的并非全貌
    眼见为实也不为实,更须