打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
八爪鱼采集:图片批量采集图文教程

八爪鱼批量采集图片URL

 随着瀑布流网站、AJAX网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活,有些企业或个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集,今天我就来介绍下,遇到这类型网站时我们要如何使用八爪鱼采集器来快速收集数据。

 

我们以选取的这个网站为例,来说明下图片采集要如何实现。先来看下这个网站的特殊之处,首先,页面上的图片不是一次加载完成,而需要滚动多次才会滚动到底部,这类型的网站像新浪微博也是类似情况,当然也有的瀑布流网站是一直加载无法见底的,这种情况在此不赘述。其次,产品详情页不能通过点击标题进入,而需要点击图片才能进入。



 

 建采集任务


打开数据采集器,点击开始采集

 

 

编辑采集任务名及分组名称,点击下一步,进入采集规则的设置

 

 

  

建立采集规则

 

复制要采集页面的URL,将红色方框内的打开网页拉至流程线,将复制的URL粘贴好,点击保存,如图片所示

 


网页在八爪鱼打开后,需要点击流程中的“打开网页”步骤,设置AJAX网页加载,以便确保数据采集的时候不会遗漏,像这个示范站,我们实际滚动大约需要4次,所以我们在AJAX加载到底部,滚动次数可以设置为4次或5次均可,次数可以适当的比实际的滚动次数稍微多一两次,如图片所示

 


创建循环翻页


接下来将要采集的页面拉至底部,找到下一页,鼠标右键点击,选择执行循环下一页操作

如图片所示

 

 

完成翻页的循环后,点击自定义

 

 

选择点击"元素文本",再点击确定进行保存

 


点击翻页循环的翻页按钮,选择高级选项,勾选页面加载,根据网站的不同去设置滚动次数和滚动方式,点击保存(这个网站我们滚动4次就差不多了)

 

 

 

由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项,如下图所示,我们需要点击A标签取到图片的链接地址,并以此链接为循环列表,添加元素到列表的时候,每次都需要点击A标签,2-3次添加之后系统会将所有选中的图片链接自动读取出来。

如图所示:右键点击网页中第一个图片,在跳出的命令框中,选择执行“创建一个元素列表”

 

将其添加到列表中

 

同样的方法,选择第二个图片,按照添加步骤将其添加到列表中

 

网页中所有的图片的链接都将被全部识别出来并添加到列表中

 

点击循环完成列表的创建

 

 

完成循环列表后,把流程图里提取数据的循环拉翻页循环里如下图

 

 

完成后如红色方框所示,点击保存

 

  

采集图片的URL,按上面的操作进入到详情页后,就是提取数据了,对于产品名称和价格,都是文本形式,提取非常简单,而对于图片,会需要先采集到图片本身的URL,再进行转换,采集办法如下图所示,选中图片后,在弹出的对话框中可选中IMG标签,选择图片的超链接进行采集。

 

 选取图片的名称,右键点击,选择抓取这个元素文本


完成采集后的字段,可以进行字段名称的修改



完成字段修改后,点击保存,进入下一步,开始采集


 

开始采集,导出数据

 

设置完成后,保存,来看下采集的成果。网页中URL都采集下来,我们导出为EXCEL格式的文件。

 

 

将图片的URL转换为图片批量下载下来,相关的工具八爪鱼免费下载。将URL地址导入工具即可将图片转换下来

 

 

经过以上简单的步骤AJAX网页上的瀑布流图片就可以轻松采集出来了


注意事项

采集不同的数据需要的规则略有不同,不懂怎么编辑规则的可以去规则市场寻找完成的规则

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
采集规则如何排错?
动态网页常用的两种数据加载方式ajax和js动态请求
后羿采集器——良心的爬虫软件
揭秘:采集98%网页公开数据实操技巧(禁止买卖!)
后羿采集器下载
【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服