【渝粤教育】广东开放大学数据采集技术形成性考核 (29)

选择题
题目：GET和POST的区别，以下说法不正确的有（）。
题目：以下属于HTTP协议的主要特点的是（）。
题目：增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。
题目：以下哪个属于深层网页（）
题目：由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。
题目：一次HTTP由（）组成。
题目：以下哪个HTTP响应状态表示服务器端错误（）
题目：网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人，被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
题目：POST提交的数据大小有限制，最多只能有1024字节。
题目：网络爬虫不需要遵守任何限制。
题目：网络爬虫顺着网页及其超链接组成的网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。
题目：HTTP协议是无状态协议。
题目：HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。
题目：网络爬虫被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
题目：通用网络爬虫对于爬行速度和存储空间要求较低。
题目：Deep Web 爬虫爬行过程中最重要部分就是链接提取。
题目：数据的预处理ETL的L表示（）。
题目：正则表达式的规则中，（）表示匹配所有非空白字符。
题目：正则表达式中，（）匹配除了换行符之外的任意字符。
题目：以下关于正则表达式的说法，不正确的是（）
题目：正则表达式中\w表示任意数字字符。
题目：正则表达式的量词?表示0次或1次。
题目：爬虫工具只能用Java语言编写。
题目：增量式网络爬虫只会在需要的时候爬行新产生或发生更新的页面。
题目：正则表达式中的\w表示任意单词字符。
题目：HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。
题目：网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。。
题目：以下关于正则表达式中常用正则规则的说法，不正确的有（）
题目：GET 请求获取Request-URI所标识的资源。
题目：HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。
题目：深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
题目：广度优先策略能够有效控制页面的爬行深度。
题目：HTTP的响应包括Content-Encoding、Content-Length、Content-Type等。
答案：
A、对

【渝粤教育】广东开放大学 数据采集技术 形成性考核 (29)

【渝粤教育】广东开放大学数据采集技术形成性考核 (29)