Python 中常见的爬虫技术和框架主要分为以下几类:
一、基础库1. requests
说明:最常用的 HTTP 请求库,简单易用。
功能:发送 GET/POST 请求、设置 headers/cookies 等。
示例:
2. urllib / urllib3
说明:Python 标准库中的 HTTP 工具,适合轻量级请求处理。
功能:编码 URL、发送请求、处理响应。
二、解析库(配合 requests 使用)
1. BeautifulSoup
说明:解析 HTML/XML 的库,语法直观。
支持解析器:html.parser、lxml。
示例:
2. lxml
说明:基于 C 的解析器,性能比 BeautifulSoup 更好。
支持 XPath 查询。
3. re(正则表达式)
用于简单结构化提取,灵活但可读性差。
三、爬虫框架(适合规模化开发)
1. Scrapy
说明:最流行的 Python 爬虫框架。
特点:
异步处理,效率高;
内置请求调度、管道、反爬机制;
支持中间件、自定义扩展。
使用场景:中大型爬虫项目。
命令行启动:
特点:支持 Web UI、任务调度、支持 JS 渲染;
已不再活跃,但适合初学者学习调度机制。
四、浏览器自动化与 JS 渲染
1. Selenium
说明:自动化浏览器操作(Chrome、Firefox)。
用于爬取需要 JS 渲染的页面。
缺点:资源消耗大,速度慢。
示例:
说明:现代浏览器自动化框架,替代 Selenium 的新选择;
支持无头浏览器、异步操作、模拟人类行为。
Playwright 优势更明显,适用于复杂页面爬取。
五、其他辅助工具
fake_useragent:伪装浏览器 UA。
requests-html:基于 requests,支持 JS 渲染(Pyppeteer)。
httpx:支持异步请求,比 requests 更现代。
aiohttp:异步爬虫核心库,搭配 asyncio 使用。
扫码二维码 获取免费视频学习资料
- 本文固定链接: http://phpxs.com/post/13034/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料
查 看2022高级编程视频教程免费获取