本系列文章,会从头开始设计并实现一个csdn网站的python爬虫。
开发环境
- Python 3.9
- PyCharm 5.0.3
- Chrome 94.0.4606.71
关键步骤
爬取并保存某博客的所有文章
- 爬取csdn的文章列表
– 涉及某博客所有文章的名称及网址;
有两种情况,获取非登陆状态下的博客文章列表,或者自己博客后台内容管理下的文章列表(这两种情况获取的地址不同,对应爬取输出的文件格式也不同);
– 将文章列表及网址保存下来; - 爬取某篇文章的内容
– 遍历上述文章列表,依次获取各篇文章的内容;
– 内容需要清洗; - 将内容输出并保存
– 具体与前面获取的文章列表的情况有关,可能是markdown、pdf、html等格式;
模拟访问某博客的某篇文章
- 使用真实IP(固定IP)访问某篇文章;
- 使用代理IP访问某篇文章;
– 获取代理IP列表
– 校验代理IP
– 访问策略设计
小结
上述步骤,基本已经涵盖了一个爬虫的主要功能点,至于具体的设计与实现,接下来会一步步展开,敬请各位期待。
如本文对你有些许帮助,欢迎打赏:
支付宝及微信打赏方式
