爬虫开发必学的8个技巧

现在,有越来越多所谓的“教程”来帮助我们提高爬虫的易用性。本人收集了一些在爬虫开发中容易出错和被难住的小问题,提供了参考的意见和想法,以便于帮助爬虫开发者。 Python技术文章2017-11-13 |程序圆 |爬虫开发,python,爬虫开发必学的8个技巧,程序圆Python培训官网

现在,有越来越多所谓的“教程”来帮助我们提高爬虫的易用性。本人收集了一些在爬虫开发中容易出错和被难住的小问题,提供了参考的意见和想法,以便于帮助爬虫开发者。

1、爬虫乱码(网址乱码、返回页面乱码、提交数据乱码)

关于爬虫乱码有很多群友的各式各样的问题,不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因此确定源网页的编码。

2、含有验证码表单登陆

属于post请求,即先向服务器发送表单数据,需要验证码的情况可以使用带验证码登陆的cookie解决。

3、 使用代理

适用情况:限制IP地址情况,最好的办法就是维护一个代理IP池。

4、限制频率情况

限制爬虫访问网站的频率来避免被网站禁掉。

5、 “反盗链”

加上Referer,伪装成浏览器。

6、自动化测试工具Selenium

Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字符填充、鼠标点击、获取元素、页面切换等一系列操作。

7、验证码识别

利用开源的Tesseract-OCR。

8、多线程抓取

高并发提交采集效率。友情提示:获得更多学科学习视频+资料+源码,请加QQ:3276250747。

本文版权归程序圆人工智能+<a href="https://ajcxy.com/tag/python” target=”_blank”>Python学院所有,欢迎转载,转载请注明程序圆出处。谢谢!

程序圆:程序圆人工智能+Python学院

首发:http://www.itcast.cn/python/

Python教程

技术专家教你正确使用Python集合

2021-5-4 2:38:04

Python教程

python库pandas之5种使用技巧

2021-5-4 8:38:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索