Scrapy中response属性以及内容提取

一.属性

url ：HTTP响应的url地址,str类型

status：HTTP响应的状态码, int类型

headers ：HTTP响应的头部, 类字典类型, 可以调用get或者getlist方法对其进行访问

body：HTTP响应正文, bytes类型

text：文本形式的HTTP响应正文, str类型

response.text = response.body.decode(response.encoding)

encoding：HTTP响应正文的编码

reqeust：产生该HTTP响应的Reqeust对象

meta：即response.request.meta, 在构造Request对象时, 可将要传python基础教程递给响应处理函数的信息通过meta参数传入, 响应处理函数处理响应时, 通过response.meta将信息提取出来

selector：Selector对象用于在Response中提取数据使用下面详细将,主要是 xpath,css取值之后的处理

xpath(query)：下面详细讲解

css(query) ：下面详细讲解

urljoin(url) ：用于构造绝对url, 当传入的url参数是一个相对地址时, 根据response.url计算出相应的绝对url.

response.css('css选择器')返回值是Selector对象

response.css('css选择器').extract_first()

response.css('css选择器').extract()

response.css('css选择器::attr(属性名)').extract()

(response.css('css选择器::text').extract()

response.css('xpath选择器')返回值是Selector对象

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。