你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

【Python】【应用】教你从头开始撸一个csdn爬虫系列之一——整体设计和规划

2021/12/16 1:05:57

本系列文章,会从头开始设计并实现一个csdn网站的python爬虫。

开发环境

  • Python 3.9
  • PyCharm 5.0.3
  • Chrome 94.0.4606.71

关键步骤

爬取并保存某博客的所有文章

  • 爬取csdn的文章列表
    – 涉及某博客所有文章的名称及网址;
    有两种情况,获取非登陆状态下的博客文章列表,或者自己博客后台内容管理下的文章列表(这两种情况获取的地址不同,对应爬取输出的文件格式也不同);
    – 将文章列表及网址保存下来;
  • 爬取某篇文章的内容
    – 遍历上述文章列表,依次获取各篇文章的内容;
    – 内容需要清洗;
  • 将内容输出并保存
    – 具体与前面获取的文章列表的情况有关,可能是markdown、pdf、html等格式;

模拟访问某博客的某篇文章

  • 使用真实IP(固定IP)访问某篇文章;
  • 使用代理IP访问某篇文章;
    – 获取代理IP列表
    – 校验代理IP
    – 访问策略设计

小结

上述步骤,基本已经涵盖了一个爬虫的主要功能点,至于具体的设计与实现,接下来会一步步展开,敬请各位期待。

如本文对你有些许帮助,欢迎打赏:
支付宝及微信打赏方式