新上线网站的收录过程(图文)和蜘蛛抓取深度研究

一个网站想收录,必须有爬虫抓取,没有爬虫爬取是不会被收录的。

爬虫抓取的一般过程:首页–栏目页–css–内容页 这是必须经历的过程,之前的《新建网站为什么不被收录》文章中提到了这一点。

最近又开始上线一个网站,好的内容,好的吸引外链的方法,让一个网站收录仅仅只需要1-2天而已。下面是网站的爬取内容日志:

1:首页

2、目录

3、css

4、内页

这是必须经历的过程,可能顺序会不同,但是都会爬取这几个页面,才足以让一个页面收录,另外收录之前,要确保你网页质量没问题、内容足够多。

但是新网站的抓取深度有点低,仅仅会去抓取网站的首页上面的内页或者栏目页,通常百度官方说百度spider的蜘蛛抓取深度能达到2级深度,这也是造成大量内容不能及时被收录的原因,做SEO就是要不断的实践研究和同行交流,你怎么看待收录过程和蜘蛛抓取深度的?

网站相应时间和ping值的关系

什么是网站相应时间?

首先,任何时候我们都希望网站响应时间越短越好,这意味着用户可以更快的访问您的站点或服务器。它是指从用户对站点或服务器发送请求开始,一直到目标内容下载到用户端,这段时间就是响应时间。响应时间只针对网页本身,包括了从DNS解析、与网站服务器建立网络连接、网站服务器处理到下载网页内容等多个环节,网站的相应时间快慢并不是光光空间的速度决定的,有的时候dns相应时间等其他因素也会拖延你的网站相应时间(具体看下图)。

这里推荐一个http响应时间查询工具:http://www.jiankongbao.com/labs/http

那么ping值是什么呢?

PING值只是一个网络包在网络间传输所用的时间。PING一般只是用来检测网络连通的情况。可以理解为仅仅空间的访问速度。

这里推荐一个ping值工具:

http://www.jiankongbao.com/labs/ping

一般我们在SEO优化的时候,网站的响应时间越低越好,这种更利于用户或者爬虫来访问我们的站点信息,更利于我们做搜索引擎优化,但是很多seo人 员不区分网站响应时间和ping值时间,会造成和空间商的一些误会,实际上ping值在300以内的国外空间就很不错的,国内的一般在100以下。

————————————————————————————————————–

Y.k.提问:我用监控宝查网站的相应时间,是5秒多,而用百度站长工具查是12秒多,这是怎么回事呢?为什么不一样?我这空间是不是很垃圾啊?是不是应该换空间了?

答:百度站长平台里面好像没有查询网站相应时间的工具,另外网站响应时间并不一定全部是空间慢造成的,还有可能是dns等影响,用ping值工具查询下你空间速度就ok,最好在300以下。

更多SEO文章访问晋江seo定期推送SEO相关知识点。

新建立网站为什么不会被搜索引擎收录

很多SEO新人朋友刚刚建立的网站说多长多长时间了就是不收录。实际网站收录是有一定的条件的。先来看一个朋友的网站案例:

这个网站3月份上线,每天不停更新文章,不停发布外链,但是始终不能被百度收录。

百度收录原理:

首先搜索搜索引擎排出大量爬虫对网站内容进行抓取,顺着链接一边下载,一边提取链接,然后在进行过滤、去重、索引、建立结果等一系列算法,新手可以参考百度官方的《搜索引擎基础知识》,了解了这个过程才明确了百度收录的顺序。

所以,想要收录文章,除了组织好内容外,还要让爬虫进行抓取。

朋友的网站刚上线,下载了他的网站日志,通过日志分析工具分析出来最近几天的抓取情况如下:

每天蜘蛛访问次数都在增加,访问页面也在增加,但是抓取的页面都不是正规页面,全是一些无用页面,比如评论页面等,最大化的抓取都在首页,而且首页 抓取完,全是抓取无用页面,想要收录还真的够难,未来顶多收录首页。尽在多努力,也还是不会被收录,打开网站一看,页面重要位置全是无用页面,网站程序也 是影响收录的一个重要因素。

之前通过各种测试,了解了一个搜索引擎收录爬虫最起码的顺序大致如下:

1、访问robots.txt

2、访问首页

3、栏目页/归档页/站点地图

4、css/js

5、内容页

基本抓取过这些页面以后才会更好的去根据算法决定是否收录,当然这个仅仅是蜘蛛抓取的顺序,其中的2、3、4顺序可能有不同的颠倒,但是一般一次收 录至少要经历这几个过程,另外为什么要访问这几个顺序我就不在这里做过多解释了,在利为汇SEOVIP培训里面我会讲出来。另外,文章的页面价值也是影响 收录不收录的一个关键因素,不在这个抓取顺序范围内。

所以,朋友的网站不被收录最重要原因在于,蜘蛛抓取深度不够深,而且没有完成有效的抓取,解决方法:修改程序,把一些没用的页面屏蔽掉,或者直接换 一个比较利于抓取的模板更好,很多新手SEO人员,经常会遇到这个问题,所以最快的方法就是下载网站的日志用日志分析软件分析下每天有多少蜘蛛抓取你的网 站这样子才能更有效果的做SEO。日志分析工具推荐:光年日志分析工具

问题1:现在换模板可以吗?

答:可以,因为蜘蛛基本没有访问过你的内页,就相当于之前写的文章对于搜索引擎来说还没遇到过,换模板不受影响。

问题2:蜘蛛抓取这个顺序怎么的来的?

答:经过之前很多次百度“秒收”经验,通过研究蜘蛛抓取总结得来的,至于准不准确,自己可以测试看下。