究竟搜索引擎是如何排名的呢?研究各大搜索引擎不堆发现,搜索引擎都会经 历儿个相同的工作阶段:搜集信息-建立索引-关键词处理-排名。
1、搜集信息
网络蜘蛛能够不断优化算法,在抓取网页时会采取两种方式:广度优先抓取策 略和深度优先抓取策略。
广度优先抓取策略:首先扫描并抓取一个网页,并同时抓取该网页上的所 有页面,再选择其中的一个页面,抓取该网页中的链接网页,运级深入。 深度优先抓取策略:扫描并抓取一个起始页面,然后从当前面面的链接 逐级跟踪扫描,抓取链接顶面后再继续跟踪扫描下一个链接页面,直至 抓取完成。 在抓取过程中,网络蜘蛛一方而读取网页内容,分析超级链接,将超级链接的 页面放入待抓取列表中;另一方面分析网页中除超级链接地址外的文字。由于抓取 的站点很多,需要借助多线程技术采提高速度。
2、建立素引
看书时,借助目录和索引可以快速查找信息。搜索弭擎的索引与图书目录功能 相同,也能够提供检索功能。搜索引肇用一定的规则算法建立索引.将信息汇总, 去掉网页中的无用信息,提取精华部分,确保盘询结果的准确性。
不同的搜索引擎在建立索引时会设置不同的选项,如标题,全文、概要、无用 词过滤、是否建立文件头情息索引等。
3、关键词处理
前面两个步骤,都是为了提高用户的搜索效率,缩短响应时间。同时,为了区 分搜索结果,除了显示网页的标题链接外,还会提供这个网页的概要信息。
搜索结果有多种排序方式,比如根据信息发布的时间,是否付费以及关键词被 拽索的频率等排序。