打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
[开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

[DotnetSpider 系列目录]



为什么要造轮子


同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JAVA、PYTHON,甚至于还有NODEJS,C++;再或者去开源中国查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。


而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。直到.NET要出开源版的消息传来,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。但一开始是比较忐忑的,觉得自己水平不够去完全重新设计一个新的框架出来,因此参考了JAVA的一个轻量级爬虫框架webmagic,并加入了我自己的理解和改进。如果设计或写得不好请大家指正海涵


框架设计


由于我是参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)


 



  • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等

  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  • PageProcesser: 负责HTML解析、目标URL的选择

  • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献


优点



  • 数据对象是通过Json结构来解析的:可以实现类中属性是类的情况(较少此种情况, 而且数据Pipeline仅限MongoDB时才能存储此种类型数据)

  • 支持Json文件定义爬虫:最终实现跨语言调用

  • 自动创建数据库、数据表

  • 支持 .NET CORE,可以跨平台

  • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响

  • 支持自定义代理池


基本使用


基本使用只需要引用DotnetSpider2.Core(Nuget中获取)


DotnetSpider实现一个完整爬虫是需要4个模块的:Scheduler、Downloader、PageProcessor、Pipeline。由于Downloader和Scheduler都是有基本实现的,因此只需要实现PageProcessor和Pipeline就可以实现一个基本爬虫了,这种方式也是最自由的方式。


完全自定义的例子如下:




        public static void Main(string[] args)        {            // Custmize processor and pipeline 完全自定义页面解析和数据管道            BaseUsage.CustmizeProcessorAndPipeline();            Console.WriteLine("Press any key to continue...");            Console.Read();         }        public static void CustmizeProcessorAndPipeline()        {            // Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等            var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };            for (int i = 1; i < 5; ++i)            {                // Add start/feed urls. 添加初始采集链接                site.AddStartUrl("http://" + $"www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_{i}.html");            }            Spider spider = Spider.Create(site,                // use memoery queue scheduler. 使用内存调度                new QueueDuplicateRemovedScheduler(),                // use custmize processor for youku 为优酷自定义的 Processor                new YoukuPageProcessor())                // use custmize pipeline for youku 为优酷自定义的 Pipeline                .AddPipeline(new YoukuPipeline())                // dowload html by http client                .SetDownloader(new HttpClientDownloader())                // 1 thread                .SetThreadNum(1);            spider.EmptySleepTime = 3000;            // Start crawler 启动爬虫            spider.Run();        }        public class YoukuPipeline : BasePipeline        {            private static long count = 0;            public override void Process(ResultItems resultItems)            {                foreach (YoukuVideo entry in resultItems.Results["VideoResult"])                {                    count++;                    Console.WriteLine($"[YoukuVideo {count}] {entry.Name}");                }                // Other actions like save data to DB. 可以自由实现插入数据库或保存到文件            }        }        public class YoukuPageProcessor : BasePageProcessor        {            protected override void Handle(Page page)            {                // 利用 Selectable 查询并构造自己想要的数据对象                var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();                List<YoukuVideo> results = new List<YoukuVideo>();                foreach (var videoElement in totalVideoElements)                {                    var video = new YoukuVideo();                    video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();                    results.Add(video);                }                                // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用                page.AddResultItem("VideoResult", results);                // Add target requests to scheduler. 解析需要采集的URL                foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes())                {                    page.AddTargetRequest(new Request(url.GetValue(), null));                }            }        }        public class YoukuVideo        {            public string Name { get; set; }        }            



 


配置式爬虫


配置式爬虫需要额外引用DotnetSpider2.Extension(Nuget中获取)


大部分情况下只需要配置式来实现一个采集任务。相对于基本使用方式,配置式爬式只需要短短的几行代码就可以实现一个爬虫。但凡事有利就有弊,配置式爬的自由度相对低了一些。


使用配置式爬虫的步骤如下:



  1. 定义数据实体类,通过添加Attribute来定义数据的存储规则、数据从页面的解析规则

  2. 定义爬虫任务的定义,继承EntitySpiderBuilder

  3. 在Maink中实例化定义好的爬虫任务,并调用Run方法


完整代码如下, 感受一下就好,后面章节会详细介绍如何实现:




    public class JdSkuSampleSpider : EntitySpiderBuilder    {        protected override EntitySpider GetEntitySpider()        {            EntitySpider context = new EntitySpider(new Site            {                //HttpProxyPool = new HttpProxyPool(new KuaidailiProxySupplier("快代理API"))            });            context.SetThreadNum(1);            context.SetIdentity("JD_sku_store_test_" + DateTime.Now.ToString("yyyy_MM_dd_hhmmss"));            // dowload html by http client            context.SetDownloader(new HttpClientDownloader());            // save data to mysql.            context.AddEntityPipeline(new MySqlEntityPipeline("Database='test';Data Source=localhost;User ID=root;Password=1qazZAQ!;Port=3306"));            context.AddStartUrl("http://list.jd.com/list.html?cat=9987,653,655&page=2&JL=6_0_0&ms=5#J_main", new Dictionary<string, object> { { "name", "手机" }, { "cat3", "655" } });            context.AddEntityType(typeof(Product));            return context;        }        [Schema("test", "sku", TableSuffix.Today)]        [EntitySelector(Expression = "//li[@class='gl-item']/div[contains(@class,'j-sku-item')]")]        [Indexes(Index = new[] { "category" }, Unique = new[] { "category,sku", "sku" })]        [TargetUrlsSelector(XPaths = new[] { "//span[@class=\"p-num\"]" }, Patterns = new[] { @"&page=[0-9]+&" })]        public class Product : ISpiderEntity        {            [StoredAs("sku", DataType.String, 25)]            [PropertySelector(Expression = "./@data-sku")]            public string Sku { get; set; }            [StoredAs("category", DataType.String, 20)]            [PropertySelector(Expression = "name", Type = SelectorType.Enviroment)]            public string CategoryName { get; set; }            [StoredAs("cat3", DataType.String, 20)]            [PropertySelector(Expression = "cat3", Type = SelectorType.Enviroment)]            public int CategoryId { get; set; }            [StoredAs("url", DataType.Text)]            [PropertySelector(Expression = "./div[1]/a/@href")]            public string Url { get; set; }            [StoredAs("commentscount", DataType.String, 32)]            [PropertySelector(Expression = "./div[5]/strong/a")]            public long CommentsCount { get; set; }            [StoredAs("shopname", DataType.String, 100)]            [PropertySelector(Expression = ".//div[@class='p-shop']/@data-shop_name")]            public string ShopName { get; set; }            [StoredAs("name", DataType.String, 50)]            [PropertySelector(Expression = ".//div[@class='p-name']/a/em")]            public string Name { get; set; }            [StoredAs("venderid", DataType.String, 25)]            [PropertySelector(Expression = "./@venderid")]            public string VenderId { get; set; }            [StoredAs("jdzy_shop_id", DataType.String, 25)]            [PropertySelector(Expression = "./@jdzy_shop_id")]            public string JdzyShopId { get; set; }            [StoredAs("run_id", DataType.Date)]            [PropertySelector(Expression = "Monday", Type = SelectorType.Enviroment)]            public DateTime RunId { get; set; }            [PropertySelector(Expression = "Now", Type = SelectorType.Enviroment)]            [StoredAs("cdate", DataType.Time)]            public DateTime CDate { get; set; }        }    }



 




public class Program{    public static void Main(string[] args)    {        JdSkuSampleSpider spiderBuilder = new JdSkuSampleSpider();        spiderBuilder.Run();    }}



代码地址


https://github.com/zlzforever/DotnetSpider  望各位大佬加星 :)


发现一个更简单可以帮助小白做数据采集的工具


爬一爬 http://www.pa1pa.com


参与开发或有疑问


QQ群: 477731655


邮箱: zlzforever@163.com

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
列举几个简单的例子来更好的理解scrapy工作的原理
Python爬虫常见面试题!
python爬虫Scrapy框架笔记
Scrapy是爬虫里面最牛逼的框架!学会百分之八十的爬虫随便玩!
一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件
机器学习平台建设指南
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服