如何免费从网站中提取数据？

免费进行数据提取是可以的，但是会有一点缺陷。如网络不够稳定、ip容易被被封掉等。实际上数据收集方面最大的花费是使用代理服务器，它们用于网络抓取工具以防止网站检测到网络抓取机器人，因为大多数网站不允许对其进行自动化活动，因此您需要采取措施来克服这些规则。以下是两种不同的网页抓取方法：
在这里插入图片描述

一、如果网站上存储所有他们对HTML前端的信息，你可以直接用代码来下载HTML内容，提取出有用的信息。
步骤：
1、检查您要抓取的网站HTML
2、、使用代码访问网站的URL并下载页面上的所有HTML内容
3、将下载的内容格式化为可读格式
4、提取有用信息并保存为结构化格式
5、对于网站多个页面上显示的信息，您可能需要重复步骤2-4才能获得完整信息。
这种方法简单而直接。但是，如果网站的前端结构发生变化，那么您需要相应地调整代码。
二、如果网站将数据存储在API中，用户每次访问网站时网站都会查询API，可以模拟请求，直接从API查询数据
步骤
1、检查要抓取的URL的XHR网络部分
2、找出为您提供所需数据的请求-响应
3、根据请求的类型（发布或获取）以及请求标头和有效负载，在您的代码中模拟请求并从API检索数据。通常，从API获取的数据格式非常简洁。
4、提取您需要的有用信息
5、对于查询大小有限制的API，您将需要使用“for循环”来重复检索所有数据
如果您能找到API请求，这绝对是一种首选方法。您收到的数据将更加结构化和稳定。这是因为与网站前端相比，公司不太可能更改其后端API。但是，它比第一种方法稍微复杂一些，尤其是在需要身份验证时。