相信很多人在网上看到很多关于Python爬虫的解释,但是总是觉得云里雾里,看似了解却不知怎么和其他人解释,所以本文就通俗的和大家说说Python爬虫是什么。
爬虫
顾名思义,“爬来爬去的虫子”,听着都觉得瘆得慌。没错,这个虫子就是偷偷摸摸去爬别人的数据。(可想而知一般不受欢迎)可以形象理解为小偷,偷偷摸摸到别人家里偷值钱的东西。➡ 问题来了:
1、你得知道地址吧。url 换种角度理解就是资源位置。
2、到了家门口,礼貌一点你得问问能不能来“偷”东西? 得到允许了(事实上很多人压根不知道,这个允许指的是另一个层面的允许,比如你没有装防盗窗没有装锁,门还开着,这不就是“允许”吗?) robots协议。
3、房子很大,我只想要最值钱的珠宝,藏在哪里?
4、好不容易珠宝到手了,我得考虑如何保存吧。
(源代码)显然可能很大很大,这对你来说不是好事,意味着东西难找啊。这里就有很多方法了。比如一般来说之前的藏在保险柜里,而保险柜一般在。。。特殊的定位查找方法。
爬虫怎么玩?
在互联网上许许多多的网站它们都是托管在服务器上的,这些服务器 24 小时运行着时时刻刻,兢兢业业的等待着别人的请求。所以我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样。爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)大多数的服务器呢,以为是浏览器发送请求,就直接返回数据给爬虫了,
当然了,有一些网站比较精明,所以他们会建立一些反爬虫机制,但是,对于我们来说,不在话下,这个是后话了!反正这个时候呢,服务器把数据返回给我们了,那么我们就可以对这些数据进行操作了。
以上就是我们的爬虫的具体爬取流程,这是我们学习Python爬虫的重要阶段,想要了解更多Python教程欢迎持续关注编程学习网
扫码二维码 获取免费视频学习资料
- 本文固定链接: http://phpxs.com/post/8933/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料