搜索引擎收录网页与网页权重之间存在着本质的区别,也就是说收录不是权重,权重不是收录。
以前本人常常强调权重的重要性,并鼓励网站不要流失权重。但是却少有提及让搜索引擎收录更多网页的问题,因此,在本文中,笔者会从不同的角度谈该问题。其实收录与权重有着非常大的区别,从一个简单的说法来说即,收录量决定着网站内容在检索结果中出现的频率和次数,而权重决定排名。举一个很简单的例子,一个IT界的门户网每天都会有将近500篇文章诞生,随着它们的产生,一些页面会自动创建,如标签页,这样这个网站每天有将近1000页新网页,而在这1000页中,搜索引擎收录了500页,搜录率只有50%。而另外一个还算不错的网站,每天将近有50篇网页诞生,但搜录40篇,搜录率80%。可是实际上,在搜索引擎检索结果中,前面的IT门户网的占有率大很多,但由于后一个网站质量很好,且权重较高,得到了很好的排名。
搜索引擎的收录量有哪些因素?
搜索引擎的搜录是有规律的,第一条就是吸引蜘蛛,这也是最难的一条。吸引蜘蛛有捷径可循,但吸引蜘蛛之后,另外一件事是让搜索引擎将抓取的网页建立索引,加入它自身的数据库中。那么,是什么影响这搜索引擎的收录呢?
1.蜘蛛访问的次数与频率:这是绝对前提,如果蜘蛛不访问网站,无从谈起收录了。当然,蜘蛛访问网站会消耗掉网站的流量,且会加大服务器的负担。因此,我们要做的应该是让蜘蛛养成定期循环访问网站的习惯,例如在每天晚上睡觉前访问网站,了解网站更新了哪些内容。
2.蜘蛛访问的深度与广度:蜘蛛就是搜索引擎抓取网页信息的一种机器人程序,它在抓取网页信息时,常常具有挑选性,例如蜘蛛会根据网站信息的深度来判断当前网页的重要性,并判断是不是要收录它。同时,蜘蛛还会显示出不耐烦情绪,当网页内的哪些干扰信息比较多,如广告、JS代码等,蜘蛛会选择暂停抓取。
3.网站或栏目甚至网页的权重:权重会影响收录,主要体现在高权重的网页会让蜘蛛停留更长的时间,并削弱它的挑选性,更会消除它的不耐烦。但是网页的权重是经过长期积累起来,且要有合理的网站权重规划。
4.网站信息产生的速度与质量:权威人士撰写的网站内容,例如著名作家、谷歌内部的工程师等,他们的网站更新速度慢,但搜录很快,且较为全面。
虽然上述是从搜索引擎的角度,强调收录的搜索引擎主动的,而非以网站拥有者的意志为转移。网站拥有者只能顺从搜索引擎,掌握那些蜘蛛的规律,按规律办事,或许这样能得到搜索引擎的亲睐。
如何看待收录与权重
收录是权重的基础,因为没有收录量,再高的权重都没有意义(当然这是不可能的)。权重能反过来刺激收录量,这在上文已经提到过了。但在这里,有一个概念性的误解需要被澄清:本站所提到权重和收录偶尔会引起读者误解,特别是在传递权重时,我们往往希望搜索引擎不收录一些网页,或不要将权重传递给某些网页。那么接下来,我们就来看看收录是如何产生的,权重是如何传递的。
收录,顾名思义就是让网页被收集记录到搜索引擎数据库中,在这个过程中,搜索引擎会对网页信息进行索引,即确定该网页和哪些关键字相关。在搜索引擎蜘蛛爬行时,首先会检查网站的robots.txt文件,以确定网站管理人是否希望搜索引擎不要收录其中的一些或全部网页。除此之外的所有网页都可能被收录,只要蜘蛛能到达这个页面(实际上由于上述的一些蜘蛛特性,很多网页是到不了的)。因此,我们最好让网站的每一个我们想被收录的页面都可以从首页通过点击链接访问到。而且有一个特点是,距离首页的点击次数越少,收录的机会越大。
权重,是搜索引擎给予一个网页的评估值,这个权重可以反映出网页的重要程度,权重越高,说明获得更多搜索引擎的信任和认可,在排名时获得更好的排名。关键是,权重是怎么传递的。一般来说是通过链接,特别是带锚文本的链接(超文本链接,链接文本现在也被计入传递权重的范围)。但权重的传递不是等价平均的传递的,而是经过计算后传递的。例如某页面A的权重为1.00,而它链接到10个页面,这10个页面将获得总和为5~6的权重值,它们也不是完全平分这5~6分,而是各不相同。有的可以继承2的权重值,有的可能只能继承0.5的权重值。
需要强调的是,凡是链接,都会传递权重,而且权重值会被分散到所有链接身上。就像上文所述的权重值,在这5~6分中,如果有100个链接来分摊它,那么每个链接分摊到的分数会很小,即使权重传递不平均,但最高也会低到0.01级。可是,我们并不愿意减少链接数来使分摊者变少,我们可以使用rel=”nofollow”来阻止权重传递,也就是让这100个链接有40个链接不传递权重,那么只剩下60个链接来分摊这5~6分的权重,虽然每个页面得到的权重仍然很小,但总比更小要好。