此仓库中文件为阅读APP书源配置文件阅读APP下载:https://www.90pan.com/o138704
──────🇨🇳添加前缀搜索🇨🇳───────用法:“单跳逆原动静字图”等字后跟“^”再跟“搜索关键字”,可实现这些字对应的功能。范围:本次搜索到的所有书籍都会执行指定的功能。示例:“图^斗破苍穹”、“逆静^斗破苍穹#天蚕土豆”、“跳^斗破苍穹$www.qidian.com”。─────⤵跳:允许目录自动跳转,目录标题说点击跳转时可如此做。逆:设置书籍目录章节逆向排序,配合指定网站的搜索方式针对小说全是逆向排序的网站比较方便。原:设置书籍不进行净化替换,优点是加载正文快速且不会被误删内容,缺点是需要自己写“替换净化”规则并在正文中启用才能净化网站推广文本。动:强制设置正文动态加载(正文默认会进行需要动态加载还是静态加载的判断,然后自动切换模式,若判断失误导致本应切换成动态加载却未切换时,可强制设置正文动态加载)。静:强制设置正文静态加载(正文默认会进行需要动态加载还是静态加载的判断,然后自动切换模式,若判断失误导致本应保持静态加载却切换成动态加载而使正文加载时间变长时,可强制设置正文静态加载)。图:设置成看图模式(不设置则默认图文模式),只显示图片,不显示文字。字:设置成纯字模式(不设置则默认图文模式),只显示文本,不显示图片。─────⤴──────🇨🇳设置书籍变量🇨🇳───────用法:将“单直跳全逆原图字动静”中任意多个字或“[目录url]”或“[正文尾页url]单”或“数字#第二页链接#”或“[目录尾页url]录”放在详情页右上角的书籍变量中,确认后点刷新就能触发这些字段对应的功能。范围:只控制当前书籍执行指定功能。书籍变量格式示范:[http://m.biquku.la/0/425/]全字─────⤵[注:前面`前缀设置全体`哪里列出的所有指令这里也能用]直:不做目录识别,直接将详情页作为目录页,或以“[目录链接]”格式直接指定目录链接,目录识别错误时可这种做。全:直接显示查询到的所有章节,跳过章节筛选环节,因为筛选机制导致章节不全时可这样做。─────⤴──🇨🇳目录有分页却无翻页按钮或书籍无目录🇨🇳──单:无目录打开即正文但有尾页或下一页按钮的书籍,必须设置为单向模式,这样书源会直接将入口页作为正文第一页,并将第一页及其所有下一页共同构造生成“正文1”、“正文2”…的目录形式来阅读,搜索前缀“单^”、书籍变量“单”、添加网址“?单”。录:有目录分页但无目录下一页按钮的书籍,可在书籍变量中直接指定复制到的最后目录页链接为目录链接并添加指令“录”,即可自动生成所有目录分页。书籍变量:“[https://m.zuizaoxiaoshuo.com/ml/33280_13]录”还可复制最后那个目录页链接并在其后加“?录”进行“添加网址”,从而自动生成补全所有目录分页。示范链接:“https://m.zuizaoxiaoshuo.com/ml/33280_13/?录”辅助生成──无目录打开即正文也无尾页和下一页按钮的书籍,需指定章节数量并用第二页链接作为参考链接生成所有分页。书籍变量──220#https://wap.yqshuwang.com/2021n/02/14972_2.html#效果说明──根据第二页链接“https://wap.yqshuwang.com/2021n/02/14972_2.html”生成220条章节的目录列表。单个章节──目录仅一个章节且这个章节正文中无下一页按钮时,可复制那个章节的正文尾页链接并用指令“单”,便可将所有正文分页构造成章节列表。书籍变量──[http://www.yulinzhanye.la/20/20733/532447_9.html]单──────🇨🇳通用书源用法🇨🇳───────在导入的书籍链接后加“?”,然后跟着“单直跳全逆原图字动静”中任意多个字或“[目录url]”或“[正文尾页url]单”或“数字#第二页链接#”或“[目录尾页url]录”,也能实现功能增强中描述的效果。如:“https://m.30sy.com/book/wonengtingjiannidexitongyin0weichuanshu0/?跳”,会将“https://m.30sy.com/book/wonengtingjiannidexitongyin0weichuanshu0/”对应的书籍加入书架,并设置其目录动态加载。添加指令的链接后也可跟URL参数,如“https://m.qubook.net/read.php?id=115393&txt=/TXT/%CA%F5%D0%DE%B4%F3%CE%D7.txt?1051#https://m.qubook.net/read.php?id=115393&txt=/TXT/%CA%F5%D0%DE%B4%F3%CE%D7.txt&yeshu=1#,{'webView':true}”这种写法也是可行的。
───混用搜索引擎式和全网搜书式───简言:`<前缀>书名#作者$域名`中,书名前后的关键字都只能是文字描述的模样作者处只能填作者,域名处只能填域名,前缀处只能填前缀但书名处则可以完全套用“搜索引擎的通用搜索格式”,自由发挥,浏览器能怎么搜这里就能怎么填例子:“字^我的 玄幻小说$www.qidian.com”含义:在“www.qidian.com”中搜名称含“我的”的玄幻小说,设置搜到的书籍正文都只查询文字
现象:搜索到相关性高的条目少,只有一两条相关性高的。
原因:同一书源的同一书名结果只显示一条(无论实际结果是多少),书源规则剔除书名中额外文本的能力越强,搜索显示相关性高的条目就会越少(剔除得太干净没有额外文字就都变成同一个名字就被合并成一条显示了)。
办法:详情页点进换源列表,就能看到本次搜索到的其它所有与当前书名相同的书籍。
下页:如果都还没有符合要求的结果,退回搜索界面,上拉刷出下一页,会有更多结果,总之搜索引擎的所有结果页都能通过上拉全部刷出来。
原因一:阅读APP版本太低,不支持书源使用到的新API,请下载最新版
原因二:搜索分组勾选了“精确搜索”,搜索结果被软件屏蔽
源库订阅:http://no-mystery.gitee.io/shuyuan/%E6%96%B0%E7%89%88%E6%BA%90%E4%BB%93%E5%BA%93%E8%AE%A2%E9%98%85.json
精校书源:http://no-mystery.gitee.io/shuyuan/%E7%B2%BE%E6%A0%A1%E4%B9%A6%E6%BA%90%E5%90%88%E9%9B%86.json
通用书源全网搜书全网通用:http://no-mystery.gitee.io/shuyuan/%E5%85%A8%E7%BD%91%E9%80%9A%E7%94%A8.json
把搜索引擎做成书源,借助搜索引擎全网搜书。
搜索有多种方式(书名#作者$网站
、书名$网站
、书名#作者
、书名
、#作者(仅夸克支持)
),具体用法见书源编辑界面首页的“源注释”和用法展示视频。
其中夸克支持“#作者”指定作者搜索,这种方式得到的书籍与普通搜索最大的不同在于,借助了夸克官方的数据直接获取相关作者的书籍,然后从链接到的结果页中筛选出小说网站重定向过去直接观看。
发现采用夸克官方分类排行榜,书籍链接指向夸克搜索结果页面,书源从中筛选出小说网站重定向过去直接观看,不满意的话,进入详情页点右上角选择书籍变量,将其清空,然后点刷新会重新定向到新的小说网站。
书名采用关键字切割法,先获得初级书名,然后根据各种条件以及搜索页及详情页获取到作者名,进一步识别删除那种书名跟着的作者名或其它无关内容,然后对比网站提供的元数据和author相关标签,存在包含关系时选择其中最短的。
分类、作者、最新章节规则优先识别网站元数据,网站相应元数据时改用最近文本识别法,用正则表达式进行内容抓取,先定位关键字,再查找是否仅跟冒号或处于标签末尾,然后排除一些常见错误定位,然后识别最近的下个文本。
简介规则优先识别网站元数据,网站无相应元数据时改用内容识别法,通过各种判定规则先移除无用标签,避免无关文本被当做简介识别,再通过文本特征精确定位识别简介。
目录链接采用“链接构造正则->正则识别链接”这种正则关联上下级链接的思想根据上级链接精确识别下级链接,并辅以一些目录识别关键字、目录链接关键字识别或排除相关链接,从而构造出专门识别目录链接的正则表达式去识别目录链接。
章节链接优先使用从目录链接处传来的参考链接识别章节(目录链接处尽可能识别最新章节链接或书籍首章,若有则将其作为参考链接),若不成功则退而求其次采用与目录链接相似的识别方式,根据目录链接构造出专门识别章节链接的正则表达式去识别章节链接。
正文规则:采用无用标签移除思想,使用各种判定规则找出所有不可能存在正文内容的标签并全部移除,从而避免获取到与正文无关的文字。
然后剔除链接及其环绕文字,以及网站插入的带有负数编号的宣传文本,再对正文中的章节名、书名、页尾、未缩进文本(仅在正文存在缩进段落时对未缩进段落进行标记)
施加不同标记。
而且,自动判定正文是否需要动态加载,需要的会自动动态加载,不需要的继续保持静态加载。不需要动态加载的网页不会因为动态加载而变慢,需要动态加载的网站不会因为只静态加载而获取不到内容,两全其美。
替换规则:结合正文添加的章节名、书名、页尾、未缩进文本
四大标记的相互位置以及标记环绕文本,能快速安全的剔除绝大部分网站宣传文本,而且能根据网站强行切断点识别方法判断出这种网站强行切断段落的位置,并绕开不删被网站强行切断到下一页的未缩进正文重新将网站强行切断的内容合并。
此外:对英文、全角字符、拼音字符串、数字、图片标签、非中英文字符进行标记,然后结合上下文判断出疑似广告的字符串并施加特殊标记
,然后再结合上下文其它条件谨慎判断标记成广告的字符串是真广告还是小说内容
可指定为“图片模式”,采用专门识别图片的jsoup表达式识别img标签,排除网站图标、过渡动画等无关图片。且会自动跳过不执行只针对文字的替换规则。
可指定为“文字模式”,采用专门识别文字的jsoup表达式识别文本标签,排除图片及图片环绕文本的影响,识别正文更加干净。
书中净化规则特意避开了img标签,净化的同时不会破坏图片显示,所以不仅可以搜书,还可以搜漫画。
单页文章自动构造目录:当某个文章中不存在目录时,自动为将构造目录,从而可以浏览没有目录的单页网页。
自动生成jsoup规则:原来,目录和正文存在多页时每次都重复进行同样识别工作,随着页数的增加使得通用书源与专用书源的速度差距越来越大,为此通用书源做了一次全面的改变,即只在首个目录页和首个正文页进行内容的识别判断筛选等工作,然后生成“jsoup”规则,从第二页起直接根据jsoup规则查到内容,让通用书源搜索范围足够大的同时也能有接近专用书源的速度。页数越多这种增强使通用书源速度越接近专用书源,页数越少则比专用书源则慢得更明显(发挥不出自动生成jsoup的优势,而首次进行的一系列计算又不可避免)。
通用书源V26、全网搜书Pro V43─────优化目录URL规则中的参考链接识别规则,避免将目录“第1页”错当做参考链接,导致章节列表除了正常章节外混入目录分页的问题。优化目录列表规则,调整首条章节列表识别规则,更进一步避免识别无关链接。修正目录下一页规则中链接排除规则中的正则预处理部分,避免符合预处理规则的链接未被排除而被错当做下一页链接的情况发生。优化正文下一页规则,原来仅末尾章节判断下一页是否指向目录页,现在每章都进行这种判断,避免有些网站每章之后都浪费时间去加载不必要的链接。优化正文下一页规则,将“a.match(c)”形式的写法改为“~a.indexOf(c)”,解决正则冲突导致下一页包含“?”时正则出错的问题。
通用书源V24、全网搜书Pro V41─────目录存在下一页但没有下一页按钮时,需复制最后一个目录分页链接。通用书源可在复制到的最后目录页链接后加“?录”,从而自动生成所有目录分页。如“https:/✘/m.zuizaoxiaoshuo.com/ml/33280_13/?录”。全网搜书书源则需在简介中直接指定复制到的最后目录页链接为目录链接并添加指令“录”,也能自动生成所有目录分页。即:{[https:/✘/m.zuizaoxiaoshuo.com/ml/33280_13]录}。
通用书源V23、全网搜书Pro V40─────①修复正文规则在特定情况下错将body标签移除,导致部分书籍出现正文内容为空的问题!②精确识别目录首尾分页,将首目录页结果直接跨越式传递到尾目录页处进行对比,用subList方法选中清除前端相同部分。从而解决每个目录分页都有最新章节列表的书籍最后一页最新章节列表大于正常章节列表时,出现的局部章节逆向排序这个顽固问题!!!③优化正文规则,当内容识别不到采用兜底识别规则时,优先查找图片,其次查找文本。若内容满足兜底规则要求但同时正式内容只是文字却有无关图片干扰时,请设置成“纯文字”模式获取正确内容!若内容为图片,设置成图片模式时,因为图片标签存在多个src或存在data-src而在阅读中显示不出来时,可将图片模式改为动态模式(“?图”->“?动”),因为非图片模式下替换规则会对图片标签进行格式化处理且动态模式能保证图片标签已写入,能解决一部分图片无法显示的问题,如“https:/✘/www.shenglifubang.cn/book/webBookDetail/1936?动”
全网搜书Pro V38、通用书源V21───────⓪删除目录下一页规则(改为在目录列表规则中获取)。①删除目录Url规则中试图获取正向目录链接的规则(目录列表规则已加强,无需再试图获取正向目录链接),加快目录链接获取速度。②章节列表及目录下一页皆放在目录列表规则中获取!!这样做的的好处是,可以对比不同分页获取到的章节列表,实现目录的整体操控。 如:(一) 对比不同目录分页的章节列表,删除不同分页前后相同的所有链接! 解决每个目录分页都有最新章节列表的书籍,最后一页出现局部章节倒序的问题。 实现意外获取到非章节链接时,可通过对比不同目录分页排除非章节链接的功能!! 如:(二) 所有目录分页集中获取,解决设置目录逆向时,列表出现“7、8、9、4、5、6、1、2、3”这样局部正向排序而分页依然逆向排序的问题。
通用书源V16、全网搜书Pro V33───────⓪优化分类规则,排除将表情符号识别成分类的可能①优化简介识别规则,进一步排除无关文本。②优化目录列表规则,上个版本不小心把规则弄成了,详情页和目录页不一致时才移除“javascript:”开头的标签,现在改回无条件移除。③优化目录列表规则,上个版本将vip章节识别方法改得过于严格,导致有些网站vip章节识别不到了,现在放宽规则。④简化目录url规则⑤简化并增强正文规则识别精确度
通用书源V14、全网搜书Pro V31───────⓪优化纯图模式正文加载速度①“全网搜书”前缀改为“转单跳逆原动静字图”等字后跟“^”再跟“搜索关键字”的方式指定,原来的指定方式将不再有效。②新增指定书源不执行替换规则的功能,只需在将“{原}”插入简介前端保存刷新即可指定。“通用书源”可在添加网址时在网址后加“?原”的方式实现同样效果。“全网搜书”可在搜索书籍时加前缀“原^”指定本次搜到的所有书籍都不执行替换规则。③增强单页模式,设置为单页模式的书籍,书源将尝试自动构造目录。添加网址“https://wap.yqshuwang.com/2021n/02/14972.html?静字单”的效果与“https://wap.yqshuwang.com/2021n/02/14972.html?静字220#https://wap.yqshuwang.com/2021n/02/14972_2.html#”一致。对于那种没法自动构造目录的书籍,依然需要采用类似“https://wap.yqshuwang.com/2021n/02/14972.html?静字220#https://wap.yqshuwang.com/2021n/02/14972_2.html#”的方式人工设置目录如何生成。否则,只能通过不断加载下一页的方式加载所有目录,几百页的书籍大概10多分钟才能加载完目录,几千页的书消耗的时间更是不可想象。而自动生成目录或人工设置生成目录的只需要几分钟。
通用书源V12-5、全网搜书Pro V29-5───────⓪“通用书源”添加网址时,链接后可先跟指令再跟URL参数,如“https:/✘/m.qubook.net/read.php?id=115393&txt=/TXT/%CA%F5%D0%DE%B4%F3%CE%D7.txt?1051#https:/✘/m.qubook.net/read.php?id=115393&txt=/TXT/%CA%F5%D0%DE%B4%F3%CE%D7.txt&yeshu=1#,{'webView':true}”。①优化正文规则的内容筛选机制,少数依然会获取到正文标签之外标签的网站,现在也能精确识别了。如“m.qubook.net”网站的小说。②鉴于夸克搜书通过发现看书时,有可能访问到被墙或已经挂了的网站,导致加载目录失败,故对得到的链接进行是否能访问的检测,若检测失败就替换成另一个网址。
通用书源V12,全网搜书Pro V29───────⓪优化“通用书源”详情页书名规则,获取更准、执行更快①将“全网搜书”三个书源搜索页的分类规则调整到书名处执行,减少不必要的变量传递,并优化相应规则,获取更准、执行更快②优化“全网搜书”三个书源搜索页的书名规则,获取更准、执行更快。──⤵至此版本,所有书源终于从头到尾又完全优化了一遍,所有可以加载更快的地方均以优化成所能想到的最快执行写法。经过最近几个版本的连续更新后,可以明显发现书籍整体加载速度快了很多很多。向后回溯四个版本对比现在的版本,一本六千多章的书,原来加载到正文时需要消耗36秒以上,现在只需要12秒左右。──⤴
通用书源V11,全网搜书Pro V28───────⓪重构“目录列表规则”,更改执行方式!当目录有分页时,将在目录第一页执行所有规则并试探出能查询到章节链接的jsoup表达式;剩下的目录分页将跳过“试探出能查询到章节链接的jsoup表达式”的所有语句,直接用目录第一页传递来的jsoup表达式获取章节链接。加载目录分页很多又没找到参考链接的书籍时,目录整体加载速度比上个版本快无数倍。①重构“正文规则”,更改执行方式!当正文有分页时,将在正文第一页执行所有规则并试探出能精确定位到内容元素的jsoup表达式,以及判断出当前书籍正文需要动态加载还是静态加载;剩下的正文分页将跳过“试探出能精确定位到内容元素的jsoup表达式”及“判断出当前书籍正文需要动态加载还是静态加载”的所有语句,直接用正文第一页传递来的变量来决定是否动态加载和定位内容元素。全书正文整体加载速度大大提高!②优化正文动态加载机制,减少正文内容不全的情况。
通用书源V9-2,全网搜书Pro V26-2───────⓪修正select结果为空时,后跟remove()方法触发try语句捕获错误,导致其中变量未执行而使后面访问未定义变量时正文加载失败的问题。①将“正文下一页规则”中一条语句提前到“章节url规则”处执行,避免每次加载下一页时都重复执行同样的语句,提升正文加载速度。
通用书源V8-6,全网搜书Pro V25-6───────⓪预先替换result中的特定内容,解决org.jsoup.Jsoup.parse()方法解析特定字符串出现错乱导致内容缺失的问题①优化作者名获取规则,获取作者名的能力加强,原来获取不到的现在有些也能获取了;获取作者名更准确,原来识别错成其它文字的现在有些修正回来了。②大幅度增强优化封面获取规则,原来获取不到的现在能获取到,原来获取错成其它封面的现在也基本修正回来。③净化规则加强,新增一种情况的识别与净化④“通用书源”的书名规则加强,比原来获取更精确
通用书源V7,全网搜书Pro V24───────⓪章节脚本:尝试从script中直接抓取章节链接数组,解决有些网站需要点击特定按钮才会通过js加载完整目录的问题。并尝试将其中utf-8编码字串还原为字符。例如:http://m.lssin.com/bookinfo/206651.html①目录生成:制作原因──没有目录且正文分页特别多的书籍,一页页的加载下一页会非常非常的慢,根据参考链接生成所有分页组成目录列表则只需加载一两页的时间内就可生成数百数千章大小的目录列表。举例说明──插入{220#https://wap.yqshuwang.com/2021n/02/14972_2.html#},则能参考“https://wap.yqshuwang.com/2021n/02/14972_2.html”生成220条章节的目录列表。重点突出──其中“##”之间是第二页链接,是生成目录必不可少的参考内容。通用书源──添加形如:“https://wap.yqshuwang.com/2021n/02/14972.html?220#https://wap.yqshuwang.com/2021n/02/14972_2.html#”的网址也能达到修改简介同样的效果。
通用书源V6,全网搜书Pro V23───────①将“正文规则”中的“while(c--)”替换成“for(;c;c--)”,修复动态加载未执行的问题。旧版问题追踪:由于js中“while(c--)”与“for(;c;c--)”不等效,导致动静态判断机制判断正文需要动态加载时,虽判断成功却未执行动态加载的问题。②全面增强“目录url规则”的判断机制,目录链接识别准确度更进一步!增强部分描述:由于网站分类、网站推广、网站其它与书籍无关链接大多数字数通常都是固定的二到四个字,故根据此点移除只包含一至四个字又不包含特定关键字的其它链接,避免非目录链接被识别成目录链接的可能。根据当前baseUrl构造出可大致匹配当前书籍章节链接的正则识别表达式,并将符合此正则表达式的链接移除,避免章节链接被误当成目录链接识别。根据当前baseUrl构造出可大致匹配当前网站其它书籍详情页链接、目录页链接的正则识别表达式,并将符合此正则表达式又非当前书籍链接的其它链接移除,避免其它书籍的链接被误当成当前书籍的目录链接识别。
通用书源V5,全网搜书Pro V22───────①改进“目录URL规则”处,用于识别章节参考链接的元素查询表达式,原来识别不到参考章节的有些网站现在也能识别了。②改进“目录列表规则”中元素筛选规则里按结构屏蔽无关链接的写法,避免有些漫画网站的正常章节被屏蔽导致识别章节出现偏差的问题。③优化正文规则,指定为看“图”模式时,屏蔽封面图。④优化正文下一页规则,避免同时得到多个下一页链接时,正则判断出现误判导致下一页的数量明明超过两页却只加载了两页的问题,这种情况常见于漫画网站
通用书源V3,全网搜书Pro V20───────⓪鉴于谷歌搜索结果的元素布局经常变动,故换种不容易受这些变动影响的书籍列表识别规则,修复最近谷歌搜书没有结果的问题①新增动态加载的指定方式,跳过动态静态判断切换程序,强行指定正文动态加载,正文的程序没有自动切换成动态时可强行指定为动态加载,解决偶尔有些网站内容不全的问题。②新增静态加载的指定方式,跳过动态静态判断切换程序,强行指定正文静态加载。③将修改简介、设置前缀、书籍链接后缀三种方式指定书源功能的相关代码统一处理,涉及到此逻辑的其它代码全部精简。④替换规则中,优化冒号后跟着链接这种规则的识别,避免单独的“:”也被标记,导致误删正文正常内容。⑤将替换规则中,一条替换规则中的“☯.☯”更正为“☯\.☯”,避免这条规则错误的标记了不应该标记的段落,导致误删正文正常内容。
Pro V18──────百度搜书:重写三个(最新章节规则、详情页url规则、书名规则)与书籍来源网址相关的规则搜索页最新章节规则:优先获取直接链接,其次获取文本中不包含“...”的快照链接的文本,再其次获取快照链接,再再其次获取标题链接,尽量获取到最接近原网站的网址。详情页url规则:在搜索页最新章节规则处处理后向后传递变量,优先获取直接链接,其次获取快照链接,再其次获取标题链接详情页书名规则:设置baseUrl,优先以直接链接设置,否则以base标签文本设置,否则以快照链接的文本设置(不是快照链接,是快照链接的文本)像“www.cnoz.org”这样的网站,百度搜书终于也能看了。所有书源:优化正文下一页规则网址以method=get方式加载时的处理方式
更新到Pro V4-2────优化章节名标记方法,识别删除插入内容中的章节名更加精确有效优化目录URL规则中目录链接的父元素定位规则
更新到Pro V3-3────1、综合测试书源设置{转直跳全逆动字},发现并修复一些错误。①修复目录URL规则中未将book.customIntro转化为String,导致设置{直}时目录加载出错。②修复目录列表规则中,设置{全}时使用了未定义变量b有问题,导致目录加载出错。2、精简优化目录列表规则,代码更少,效果更好。3、优化搜索页书名规则,解决一些网站识别到的书名包含额外文字的问题。4、优化改进正文下一页规则:旧规则屏蔽了href='?page=2'这种下一页,现在不再屏蔽只有一段的链接。───专业版终于画上了句号
更新到Pro V2-1───终于实现了“百度搜书”的“尽可能转化链接为电脑版”的功能。这样一来,谷歌搜书、百度搜书、夸克搜书(原夸克原网、夸克电脑合二为一)都可以通过前缀和修改简介启动这个功能了。
更新到Pro V1-2───优化目录识别规则:旧规则中,识别到的目录链接为以“javascript:”开头时,会直接将当前页作为目录页,新规则新增排除一种情况,链接即使以“javascript:”开头,只要元素包含“最新”字段时,依然会继续查找其它目录链接。
更新到V60,改头换面────1、完全重构“百度搜书”详情页所有规则。解决由于java.getElement漏洞导致获取内容缺失,使得详情页所有规则都有一定几率无法获取到有效信息的难题。解决由于java.getElement获取的内容缺失误导目录链接识别机制,导致将非目录链接当做目录链接的难题,如“www.wujiuwenxue.com”。重构前,有快照时用快照,此时一切正常。无快照时,目录章节为相对链接时会拼接出错,导致正文获取失败。重构后,有快照时用快照,无快照时自动跳转并将baseUrl设置成跳转后的网站,不管有无快照都能正确拼接章节链接。2、所有书源详情全部改为先预处理剔除不必要的内容,再用java.setContent格式化设置内容。设置内容之后出现的规则全部简化,原来用于剔除不必要内容的规则全部删除,因为已不需要。3、目录链接规则:章节链接的父元素识别方法从“:not(:matchesOwn(\S),:has(:not(a):matchesOwn(\S)+:has(a:only-child):only-child,:not(a):matchesOwn(\S)+a:only-child))”简化为“matchesOwn(^$)”,效果更好,代码更少。4、去除详情页“────”分隔的内容,因为阅读已经支持详情页复制URL了,这个设计的作用就不大了,故将用于获取额外内容的所有代码全部删除。5、优化正文未缩减段落标记,避免有些网站会变得全成一段,且由此导致误删部分内容。6、改进目录链接无文本时的识别方法,为这种链接的识别关键字添加前后字段限制,并屏蔽“hot|sort|top”三个关键字,避免把分类排行当做目录。7、优化夸克搜书详情页规则,避免执行不必要的语句,删除不必要的变量。8、删除“夸克电脑”的发现页:①因为和“夸克原网”得到的结果一样,重复没有意义。②删除发现页后,详情页可去除大量不必要的判断语句,加载详情页变快。9、重构夸克电脑所有界面中链接的处理方式,争取让夸克原网和夸克电脑具有明显的区别,各展所长。这次更新后,夸克原网与夸克电脑将有如下区别────夸克原网────特点:进退自如⓪有发现①搜索页加载快(不考虑转化链接为电脑版)②关键字加“@”前缀,可允许目录链接自动跳转③关键字加“$”前缀,可指定章节链接动态加载(不指定时静态加载)。静态加载比动态加载快很多,但指定动态加载后能读取到需要异步加载才能显示的网页正文,比如大多数漫画网站以及部分正版小说网站。────夸克电脑────特点:懒人专属①无发现,且搜索页加载慢(优先考虑转化链接为电脑版,争取获得目录不分页的电脑版链接)②取消关键字加“@”前缀的设定,因为需要目录链接自动跳转的情况很少③取消关键字加“$”前缀的设置,对所有章节都采用动态加载。正文加载等同于“夸克原网”加“$”前缀的效果,好处是不用考虑内容需不需要动态加载,坏处是对于不需要动态加载就能显示内容的网站来说,凭白无故降低了加载正文的速度。PS:更多相关信息,源注释都有介绍
──────────────────────────────────
──────────────────────────────────
──────────────────────────────────
──────────────────────────────────
──────────────────────────────────
联系客服