Greasy Fork

懒人小说下载器

通用网站内容抓取工具,可批量抓取小说、论坛内容等并保存为TXT文档

目前为 2021-12-29 提交的版本。查看 最新版本

作者
hoothin
评分
0 0 0
版本
2.6.0
创建于
2016-11-23
更新于
2021-12-29
大小
24.3 KB
兼容性
与 Firefox 兼容 与 Chrome 兼容 与 Opera 兼容 与 Safari 兼容
许可证
MIT
适用于
所有网站

test case

起点晋江红袖以及其他知名小说站都推荐用这个脚本【小说】下载脚本,遇到没人愿意适配的不知名小站再考虑我的脚本。

轻量级抓取脚本,用于下载网页中的主要内容,理论上适用于任何非Ajax写入正文的小说网站、论坛、贴吧等而无需为此写任何规则。 脚本会自动检索页面中的主要内容并下载(省得复制完gal攻略还要手动逐条删除“某某某13级头衔水龙王发表于X年X月X日来自XX客户端”)。 如果位于小说目录页会遍历所有章节并排序拼接后存为TXT文档。

img

【高亮或者格式化页面中选中的代码,并统计字数】


操作说明 - Usage

  • 打开小说目录页、论坛或贴吧内容页
  • 按下 CTRL+F9 或点击命令菜单
  • 按下 SHIFT+CTRL+F9 忽略目录,仅下载当前页
  • 关于配置项
    • 以下功能需要通过油猴命令菜单进入
    • 自定义下载目录范围:如https://xxx.xxx/book-[20-99].html,https://xxx.xxx/book-[01-10].html,意思为下载book-20.html到book-99.html,以及book-01.html到book-10.html,使用[1-10]则不补0
    • 通过章节选择器自定义下载:输入要下载的章节链接的css选择器即可,后面可以接上url替换码、以及自定义处理代码
    • 干扰码:填入干扰码的css选择器,如.mask,.ksam,意为删除class为mask或者ksam的元素
    • 按标题名重新排序:是则把目录页所有链接按标题名排序后存入txt,否则按页面位置顺序排列
    • 下载线程数:同时下载的线程数,默认为20,遇到存在限制的站点可调低
  • 自定义例子
    1. po18,章节的选择器为 .l_chaptname>a ,输入并下载后发现通过 url 无法下载正文内容,正文是 ajax 通过 articlescontent 下载的,此时可后接 @@articles@@articlescontent (@@ 分隔) 将章节 url 中的 articles 替换为 articlescontent , 综上 .l_chaptname>a@@articles@@articlescontent 即可适配该站。其中第一个 articles 可使用正则,例如 @@articles\d+@@$1content 代表将链接中的「articles1」「articles2」等替换为「1content」「2content」。
    2. pixiv,p站小说的章节选择器为main>section ul>li>div>a,无需替换链接,因此后两项留空,有6个@了 doge,正文在meta里,需要自定义代码提取meta-preload数据的content项,综上 main>section ul>li>div>a@@@@@@var noval=JSON.parse(data.querySelector("#meta-preload-data").content).novel;noval[Object.keys(noval)[0]].content; 即可下载p站小说,其中 "data" 代表抓取网页的document对象,若返回的是纯文本,则用 data.body.innerText 获取。

如果有帮助到你,请我喝杯奶茶吧,帮我提神并确保常更新

donation

测试网页 - Test case

为啥要写这个脚本?

主要是 怠惰啊 因为我要下载驰星周的漂流街,却发现前人的轮子“【小说】下载脚本”不能用,又不想为这破站 dogedoge 写规则,而且我就是看不上霸道总裁修仙穿越你咬我啊指不定它三天两头改个版呢。写个通用规则的脚本,一来可以不用追着数不清的小说站适配修改更新,二来也免去了法律风险。 这个脚本会自动去查找主要内容并下载,不需要写规则。当然如果你家网站广告内容比正文还多我也没办法。 遇到特殊网站还是建议用“【小说】下载脚本”。