超级管理员 发表于 2020-5-28 19:20:21

[原创工具] 【5.15脚本更新】python小说爬虫工具,附源码

5.15更新
[*]加了一个换源,功能是实现了但是代码冗余,抽取基类做继承的话就增加耦合,后续有时间再更新代码吧(市面上那些追更小说一下子几十上百的换源是怎么实现的?????)
[*]给小说爬取加了超时抛出异常,毕竟不是每个源都是那么稳定
[*]搜索换成线程,因为发现搜索结果较大的时候界面又卡住了....
[*]细节修改,增加代码健壮性
ps:   2016年注册的账号,最近才发第一个新人贴,我这么佛性的人也是没谁了......写这个工具除了是因为方便朋友下书,也是自己对异步协程的一次复习,写代码的时候是想到什么就写什么,所以看起来应该很乱,爬小说总的来说技术含量并不高,所以新人贴也差不多快完结了,等后续看看群友有啥需求不,比如增加新源,增加转码成epud或者mobi啥的.......       朋友们投投币啊,给点更新动力
演示:https://attach.52pojie.cn/forum/202005/15/004806qbi9p62hip8z999t.gif
**** Hidden Message *****
源码: https://static.52pojie.cn/static/image/filetype/zip.gif bookdownload.zip (4.84 KB, 下载次数: 120)
5.13更新:
更新了一下软件,把遗留问题解决一下,并看看后续还有啥能更新的解决的问题
[*]解决开始下载之后会出现无响应
[*]弹窗太烦去掉了,改成一个console看进度
[*]目前尝试过程中发现不用太担心反爬,重试机制最终还是会下载完所有章节,尝试过1800+章节小说下载不到1分钟
后续修改目标
[*]尝试增加换源功能
[*]目前由于下载保存的都是utf8导致整合文件过大,后续尝试使用gbk

最新演示:
https://attach.52pojie.cn/forum/202005/13/233255v7tlq6vqxmobl0bq.gif
工具链接:
**** Hidden Message *****

5.12版本:
1. 使用python的asyncio,爬取的速度挺快
2. 整理了一下页面的格式,放到手机上看还是不错的
3. 由于爬取速度过快,可能会爬取失败,内部加了重试逻辑,只要最后能生成txt应该就是全部章节
4. 自助搜索功能

lxkfwqpcvj 发表于 2020-5-28 20:48:13

有竞争才有进步嘛

qqqiyycedn 发表于 2020-5-28 20:53:58

不知该说些什么。。。。。。就是谢谢

宫梦秋 发表于 2020-5-28 20:59:14

我抢、我抢、我抢沙发~

pltgfeskxv 发表于 2020-5-28 21:36:47

学习了,不错,讲的太有道理了

be13fbcqrw 发表于 2020-5-28 22:39:24

有竞争才有进步嘛

sqdwntuoxd 发表于 2020-5-28 22:45:04

沙发!沙发!

xvabnkiqwt 发表于 2020-5-28 22:45:41

写的真的很不错

蒙5063 发表于 2020-5-28 22:45:51

沙发!沙发!

iskukdjlhz 发表于 2020-5-28 22:46:36

这是什么东东啊
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: [原创工具] 【5.15脚本更新】python小说爬虫工具,附源码