2018
05-30
05-30
使用爬虫技术实现 Web 页面资源可用性检测
对于电商类型和内容服务类型的网站,经常会出现因为配置错误造成页面链接无法访问的情况(404)。显然,要确保网站中的所有链接都具有可访问性,通过人工进行检测肯定是不现实的,常用的做法是使用爬虫技术定期对网站进行资源爬取,及时发现访问异常的链接。对于网络爬虫,当前市面上已经存在大量的开源项目和技术讨论的文章。不过,感觉大家普遍都将焦点集中在爬取效率方面,例如当前就存在大量讨论不同并发机制哪个效...
继续阅读 >