通俗一点了解python爬虫是什么？

清华大佬耗费三个月吐血整理的几百G的资源，免费分享！....>>>

相信很多人在网上看到很多关于Python爬虫的解释，但是总是觉得云里雾里，看似了解却不知怎么和其他人解释，所以本文就通俗的和大家说说Python爬虫是什么。

爬虫

顾名思义，“爬来爬去的虫子”，听着都觉得瘆得慌。没错，这个虫子就是偷偷摸摸去爬别人的数据。(可想而知一般不受欢迎)可以形象理解为小偷，偷偷摸摸到别人家里偷值钱的东西。➡ 问题来了：

1、你得知道地址吧。url 换种角度理解就是资源位置。

2、到了家门口，礼貌一点你得问问能不能来“偷”东西？得到允许了（事实上很多人压根不知道，这个允许指的是另一个层面的允许，比如你没有装防盗窗没有装锁，门还开着，这不就是“允许”吗？） robots协议。

3、房子很大，我只想要最值钱的珠宝，藏在哪里？

4、好不容易珠宝到手了，我得考虑如何保存吧。

（源代码）显然可能很大很大，这对你来说不是好事，意味着东西难找啊。这里就有很多方法了。比如一般来说之前的藏在保险柜里，而保险柜一般在。。。特殊的定位查找方法。

爬虫怎么玩?

在互联网上许许多多的网站它们都是托管在服务器上的，这些服务器 24 小时运行着时时刻刻，兢兢业业的等待着别人的请求。所以我们的爬虫，首先会模拟请求，就好像你在浏览器输入网址，然后回车那样。爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求，这个时候爬虫可以假装自己是浏览器（添加一些header信息）大多数的服务器呢，以为是浏览器发送请求,就直接返回数据给爬虫了,

当然了，有一些网站比较精明，所以他们会建立一些反爬虫机制，但是，对于我们来说，不在话下，这个是后话了！反正这个时候呢，服务器把数据返回给我们了，那么我们就可以对这些数据进行操作了。

不同的情况下，服务器返回给我们的数据格式不一样。有HTML、JSON、二进制的数据啦。根据不同的情况，我们可以使用不同的方式对他们进行处理。处理完之后我们就可以对他们进行保存啦，保存的方式也有几种：数据库、硬盘、等等..

以上就是我们的爬虫的具体爬取流程，这是我们学习Python爬虫的重要阶段，想要了解更多Python教程欢迎持续关注编程学习网

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取