第二堂课是《IIS日志分析方法》,这也是一堂操作比较多的课,通过日志分析能把握网站基本数据情况,了解蜘蛛抓取情况,为后期数据深入分析准备这三点主要的作用。日志来源于空间,如果空间支持日志功能,则联系服务商下载日志解压日志到本地,然后txt格式打开删除顶部带#的部分,导入excel或者直接用excel打开。最终选择time,cs-url-stem,c-ip,sc-status等列进行分析。
重点讲了怎么样区分真假蜘蛛,通过访问路径栏,cs-url-stem筛查baiduspider,然后对包含这个词的进行分类,看是否符合百度蜘蛛的官方样子,如果不符合则是假蜘蛛,符合则为真蜘蛛。或者也可以通过查询ip来判断是否是真蜘蛛。