最近有很大用户问上线网站一直没有被百度搜索引擎,当然网站没有收录原因有很大,比如域名是否有历史被黑记录,比如网站更新的内容质量等等,当不管什么原因,都离不开是否有搜索引擎的爬虫蜘蛛来光顾你的站点,如果有真实的爬虫来光顾你的站点,那你的网站就离收录不远了,你唯一做的就是做好站点高质量内容更新。可能有人注意到,这里提到真实蜘蛛,是的,既然有真实,那自然就会有假蜘蛛,那如何来辨别,下面我们就来看下:
第一步:
下载你网站的日志文件,通过在线或者日志分析软件做爬虫分析(比如日志在线分析站点:http://www.loghao.com),分析之后如图:
大家可以看到返回的ip地址:220.181.108.171
第二部:
运行电脑的cmd,进入dos,输入nslookup 220.181.108.171 会看到一个返回结果:
显示返回结果成功,说明这个百度蜘蛛IP是真实的,也就说光顾我们站点的蜘蛛是有效的;
看到这里,我们来看下一个用户站点的蜘蛛ip的情况:
可以看到,日志分析返回的ip是:223.104.64.15 还有 49.95.77.225 等,那我们就来dos一下,看结果:
从结果看出,返回的结果都是找不到,说明这个用户的站点过来的蜘蛛就是假的,有可能是收到了别人的爬取攻击,这个时候站长就要注意自查自己站点了,遇到这种情况如何处理,大家可以看下我们卓出学院的相关课程:https://ke.qq.com/course/404225
这里我们就来总结一下:
dos日志的蜘蛛ip,返回结果以*.baidu.com或*.baidu.jp 的格式命名为真,非*.baidu.com或*.baidu.jp即为冒充。可能有些用户发现一般日志分析(百度为例)检查结果 220.*.*.* 一般都是真蜘蛛,确实是这样的,但不管如何,都可以dos检查下ip地址,真假一辨既知!