你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

python-第一个爬虫程序实战

2021/12/5 19:09:21

自学内容,仅供参考!

'''
第一步,获取页面
第二步,提取需要的数据
第三步,存储数据
'''
import requests  # 引入包
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup
link = "http://www.santostang.com/"  # 定义link为目标网页地址
# 定义请求头的浏览器代理,伪装成浏览器
headers = {'User-Agent': 'Mozilla/5.0(Window;U;Windows NT '
                         '6.1; en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers=headers)  # 请求网页
soup=BeautifulSoup(r.text,"html.parser") #使用BeautifulSoup解析
'''
找到第一篇文章标题,定位到class是“post-title"的h1元素,提取a,提取a里面的字符串,strip()去除左右空格
'''
title=soup.find("h1",class_="post-title").a.text.strip()
print(title)  # r.text是获取的网页内容HTML代码
'''
存储数据,打开一个空白的txt,然后使用f.write写入刚刚的字符串title
'''
with open('title_text.txt',"a+") as f:
    f.write(title)