做网站优化总少不了去查看分析日志,看看百度蜘蛛的爬行记录,为自己的工作能做的更好,更加的精准,百度蜘蛛在爬行每个页面都会在日志里面有记录,有来访时间,IP,爬行的页面,我们不光要对来访时间和爬行过的页面做出分析,更应该对百度蜘蛛IP来仔细研究,因为每个百度蜘蛛IP段来访都是有目的的访问,我们必须对这些百度蜘蛛IP有了解,才能知道自己网站的各种问题,然后对症下药,怀化SEO 以下图为例来解释下每个IP段的信息。
123.125.71.100 Baiduspider/2.0(百度网页爬虫) 这个段的IP是抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
125.90.88.96 这个IP段属于广东茂名市电信,也属于百度蜘蛛IP 主要造成成分,一般是新网站出现比较多,还有使用过站长工具,或SEO综合检引来的。
180.76.6.37 北京市 百度在线网络技术有限公司
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
121.14.89.*这个ip段作为度过新站考察期。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
--------------------------------------------------------------------------------------
今天简单的谈一下关于百度蜘蛛访问网站后,web日志所返回的状态码与首页的百度快照是否会更新之间的关系,所谈到的都是动力网络几年以来每天观察自己网站的web日志里百度蜘蛛的爬行痕迹所摸索出来的规律,希望对大家有些帮助。
大家可以尝试着打开web日志的.log文件,web日志的默认路径是C:\WINDOWS\system32\LogFiles\W3SVC1 ,用虚拟主机的朋友可以找空间商索要。打开文件夹下的.log文件,搜索百度蜘蛛,百度蜘蛛的名字为baiduspider。然后一直Enter,可以查出百度蜘蛛访问网站后留下的所有足迹。在查找中,注意一下百度蜘蛛名字前面的IP,还有整行最后的状态码。
一般情况下,蜘蛛抓取网页如果返回200 0 0代码,则表示该网页已经成功编入索引,200 0 64是指索引数据库已经存在,没有发现网页有更新的内容,不需要重新索引的意思。304 0 0是指原来缓冲的文档还可以继续使用,跟200 0 64意思应该差不多吧。 (值得一提的是:200 0 64并不是网上很多人说的会被K站或降权,是正常现象,动态网站抓取的时候大多数出现200 0 0,即便是网站没有更新。)
在说一下蜘蛛IP,东阳网络公司的web日志里查到的蜘蛛IP一般都是220.181.7.*和123.125.66.*比较多,还有一个61.135.162.*,这三个段的IP是抓取网页的,123.125.68.*这个段的是百度沙盒蜘蛛IP。61.135.168.*这个段的蜘蛛是抓取图片的。不过百度蜘蛛应该还有很多,可能是按照网站的地区和线路发放蜘蛛的吧。具体情况还要具体对待。不过有一点可以肯定的是,在网站没被降权的情况下,只要有两个IP段的蜘蛛(比如服务器日志里的220.181.7.*和123.125.66.*这两个段)都抓取了网站首页且返回的状态码是200 0 0,那就不用每天等到零晨四点看百度更新首页的快照了(我以前经常等到凌晨四五点才睡觉,呵呵,不过现在一般都是在早上六七点才更新快照)。
一般百度首页快照比较慢、网站权重比较低或者被降权的网站,蜘蛛一般都是返回的200 0 64的状态码。东阳网站建设有一个被K过的网站,当时每天都只有123.125.68.*这个段的IP,且状态码都是返回的200 0 0。
-------------------------------------------------------------------------------------
最近,菜菜经常没事的时候就喜欢到各大论坛,去瞧瞧,去看看。为什么?原因很简单,我去其他的论坛上回答问题做外链呀,好让百度蜘蛛通过外链爬到我的网站上抓取我的网页呀,但是这几天,菜菜发现一个问题,在网上兼职赚钱创业的朋友都应该有一个网站吧,就是很多站长,我估计哈 ,可能都是新手,基本上问的问题都是关于百度什么时候才会收录自己的网页,说道这点,大家可以去我这篇文章看下,关于新手前期做网站的心态的,对新手是有帮助的。再或者百度蜘蛛是否来过我的网站,怎么才知道百度蜘蛛来过我的网站呢?我们只需要查询网站日记,去好好的分析网站日记就可以了。 百度蜘蛛是个摸不着性子的东西,最近听说百度在做大的调整,导致很多网站的排名情况,外链数量变动很大呀,老站长就没什么了饿,可是对于新站长来说。心里就一阵一阵的怕了。也不知道百度这次的调整要什么时候才能稳定呀。
其实百度蜘蛛是有规律可循的,它一般都是一周一小变,一月一大变那种,对于新手来说,只要把心态调整好,是没有问题的【关于心态的文章请参考;“新人学习SEO的心态变化】,下面就具体讲讲百度蜘蛛的小细节了,知道了这些就知道了 百度蜘蛛到你网站上具体来做什么。
百度蜘蛛大概分为三类:
我们最常见的就是:220.181.108.*这一段了!这段IP注意负责抓取网站的更新,和增加网站的权重的作用。
其次就是:123.125.71*。这段IP注意负责一些权重比较低的网站文章抓取情况,和文章原创度的情况,一般会在48小时内抓取你的网页,但是也会在48小时内删除你的资料。这也是许多新手站长奇怪的是为什么我的网站收录不到很久就没有排名的原因。一定要请大家注意,这个IP出现在网站日记的话一定要小心!
最后一个,也是大家不愿意看到的一个IP:123.125.68*。这段IP我们一般叫做黑武士,他如果来到你的网站的话,你的网站基本就会被降权或者被K掉,情况好的只会抓取你一次,如果网站大量出现这样的百度蜘蛛的话,你的网站就准备被K掉吧,也说明了百度发现你做了很多不好的事情。这个IP事许多老站长都不愿意看到的IP。
百度蜘蛛的三大类的基本工作情况:
前面我们说道最常见的就是220.181.108.*。内容已经解释过了就不在解释了,主要的蜘蛛【220.181.108.86】它抓取的网页权重是最大的,如果说这个蜘蛛在你的网页上返回正常的话,说明你的网站问题不大,如何抓取的时候返回数据库有其他的数值的话,说明网站问题就很大了,一定要注意。
快照蜘蛛:顾名思义就是说专门给你网页拍照的蜘蛛。IP结尾的75的就是快照蜘蛛,它来到你网站越多越好,为什么?不解释了。
IP结尾的89的蜘蛛,我们称为高权重的蜘蛛,但是它的权重没有IP86结尾的高,但是权重也是非常不错的。
接下来就是:94,97,80,83,z这些蜘蛛都是高权重的蜘蛛,它们的权重是依此递减的。剩下来的就是普通的蜘蛛了,它们会抓取新的网站的内容,返回数据库的值有200的话,一般情况下,会在24到40小时至内会被放出的。如果现实304的话,就说明此网站有待考察。
123.125.71*
这段IP有两个功能!
一,检查更新情况,一般这种情况的蜘蛛权重都比较低,它们一般只会检查网站的首页的更新情况。
二,文章的原创度的多少,此原理来自半发现象,怎么说呢,一般情况下被一个低权重的百度蜘蛛抓取过的网页的,它会再在抓取网页,如果发现相同的地方,会在48小时内删除的,并且还会降权的。
很多朋友都真正地很少的知道百度蜘蛛的工作原理是怎么回事的,通过菜菜的这篇文章,相信大家会对百度蜘蛛有个全新的认识,并不是说百度蜘蛛到你的网站上就是好事,这一定要注意!!!!
|
|