蜘蛛何时到我家?如何查看godaddy主机日志
看过积水成渊博客的“一切为了孩子,推广继续中”一文的朋友,知道本站自上线以来到今天,10来天的时间里,几大主流搜索引擎中,GOOGLE及雅虎都已经顺利收录;百度收站非常严格,迄今为止没有收录任何页面。
我们了解到,似乎因为1元cn域名泛滥和网站内容方面的缘故,新站上线,百度大约会在1个月左右才真正放出搜索页面。话虽如此,不过百度的蜘蛛究竟有没有爬过我们这张互联网上的小小据点呢?
要得到答案,最好的办法是查看网站的log日志。积水成渊博客是建立在godaddy的主机上的,我们在google和百度里搜索过,并未找到怎样查看godaddy日志。最后,我们在主机上逐一查看文件,英明神武的积水成渊博客,最终找到了查看godaddy日志文件的方法。
其实godaddy已经直接做好了一个页面给顾客,您只要在浏览器里直接浏览stats目录就可以看到所有的日志记录了。拿本站来说,积水成渊博客的网址是:http://jscyshow.com(只此一家,别无分号),要查看godaddy上的主机日志,只需要在浏览器里输入:http://jscyshow.com/stats/,回车。可以看到登录画面:

在提交密码后,您可以看到这个画面:

点击相应项目,可以看年、季、月、日、小时的报告,非常详细。
下面是我们最感兴趣的蜘蛛来访记录:

统计数字还比较少,show出来有点对不起观众。不过贵在真实,毕竟只是建站10来天的数据。
百度蜘蛛看来更勤快些。料想收录的时间也快了吧,以平常心等待中。
3月 29th, 2008 发表 1,654 views 归类在: 建站及推广:为赚钱而博客


为什么不用yahoo的统计呢
http://tongji.cn.yahoo.com/
当然我还没有用过godaddy的,不是不想用,是因为做了自动的域名转向WWW,没法用根域名了
回Maomen:
刚才忙着到老兄那里去看文章了。很不错。文字风格和思想都是我很喜欢的。
积水成渊博客的网站采用的是“google分析”,这个工具也很强大,不过我在里面没有找到查看蜘蛛们来访的地方。
Yahoo的提供的各种网络工具我也很喜欢,他的统计工具在这个站点之前,也曾经试用过一段时间。
谢谢您的推荐。欢迎经常来坐坐。
我用的YAHOO统计,仿佛没有BOT的记录,一般统计都会过滤掉BOT,这个也是正常——技术原理上,外部的统计不是”过滤“掉BOT,而是一般情况下统计不到。所以,还是原始的LOG最王道,哈哈!
老积这里也越来越热闹了,不错,再接再厉,千万别像我那样松懈了哦。
有Estyle的监督与鼓励,万万不敢松懈。
看来YAHOO的统计确实有点问题,只有来自哪个搜索引擎的记录,没有记录bot……
to Maomen:
根据我的推测,这个不是YAHOO统计的问题,基本上任何外部的统计都不可能统计到爬行记录。
统计的原理是,浏览器打开一个URL,这个网页中包含统计的代码(远程JS或者图片或者什么),浏览器也会对这个统计代码总用到的资源发出请求,这个请求会被远程的程序捕捉并存储,形成统计原始数据。——重点是,浏览器打开一个网页的时候,会向网页中其它用到的资源发出请求。
而BOT在爬某个URL的时候,应该是只会去爬这个网页,而不会对网页中的其它资源再行爬取,类似用view-source查看某个URL的源代码一样。就算爬虫要对网页内的其它资源进行爬取,也不会像浏览器那样形成referrer等有效的头信息给统计系统。——重点有两个:1、爬虫很可能不会去爬统计系统提供的数据搜集资源;2、就算爬虫会爬,其数据对统计系统也没有意义。我觉得,爬虫不爬的可能性很大,所以没有停机系统会去记录爬虫记录(因为不稳定不可靠)。
而服务器上的LOG则不一样,本地资源的所有访问记录都会被存在LOG中,所以爬虫只要来爬过网页,就会有记录。
不知道阐述得是否清楚?
PS:其实我是猜的。从来没研究过爬虫……