搜索
楼主: mianning
收起左侧

[软件] 请教如何下载这个可预览的清华大学“文泉学堂”的pdf文件

[复制链接]
Wandering...
发表于 2020-2-2 18:03:47 | 显示全部楼层
数量少,不嫌累可以学我最笨的方法
用360浏览器,打开网页后在每页右上方可选择快速存图。你可以获得248张图片。然后用PDFShaper转化为PDF就行了
mianning
 楼主| 发表于 2020-2-2 18:51:01 | 显示全部楼层
Wandering... 发表于 2020-2-2 18:03
数量少,不嫌累可以学我最笨的方法
用360浏览器,打开网页后在每页右上方可选择快速存图。你可以获得248张 ...

哈哈哈,老哥,你这个方法我有时也会用,没有办法的办法
现在我用这个扩展可 图片助手 收集的
Wandering...
发表于 2020-2-2 18:56:48 | 显示全部楼层
mianning 发表于 2020-2-2 18:51
哈哈哈,老哥,你这个方法我有时也会用,没有办法的办法
现在我用这个扩展可 图片助手 收集的

https://github.com/gumblex/wqxt_pdf
这有个爬虫,用法自己摸索,到现在我还没成功过一次
enzozzj
发表于 2020-2-2 19:02:02 来自手机 | 显示全部楼层
Wandering... 发表于 2020-2-2 18:56
https://github.com/gumblex/wqxt_pdf
这有个爬虫,用法自己摸索,到现在我还没成功过一次

这个要怎么使用?小白不懂
imba-tjd
发表于 2020-2-2 19:05:05 | 显示全部楼层
本帖最后由 imba-tjd 于 2020-2-2 19:31 编辑

F12观察网络选项卡的请求可以发现规律

  1. https://lib-nuanxin.wqxuetang.com/page/img/3205966/1k=.....
  2. https://lib-nuanxin.wqxuetang.com/page/img/3205966/2k=.....
复制代码


很明显k之前的数字就是页号,k之后的是一串很长的字符,所以k就是key的意思。所以只要用浏览器访问一次获取k的值,然后循环下载图片就好了。如果k失效了就只能再用浏览器访问一次了,因为不知道k是怎么生成的。请求一下发现失败了,所以应该还需要带上cookie等其它常见的反爬信息。 emmmm发现每张图片的k都是不同的,那这样就不行了。

另一种方式是用selenium。
风之咩~
发表于 2020-2-2 19:06:24 | 显示全部楼层
本帖最后由 风之咩~ 于 2020-2-2 19:14 编辑
Wandering... 发表于 2020-2-2 18:56
https://github.com/gumblex/wqxt_pdf
这有个爬虫,用法自己摸索,到现在我还没成功过一次

这网站用不了这个 图片地址都是js实时回调填充的 单纯的rq访问是爬不到的

两个js扒了半天 k参数的算法始终没头绪 大风风这个搞前端的都放弃装死了
py配合chrome驱动倒是可以做 只是很蠢
Wandering...
发表于 2020-2-2 19:19:07 | 显示全部楼层
本帖最后由 Wandering... 于 2020-2-2 19:26 编辑
风之咩~ 发表于 2020-2-2 19:06
这网站用不了这个 图片地址都是js实时回调填充的 单纯的rq访问是爬不到的

两个js扒了半天 k参数的算法 ...

是jwt加密,折腾一下午,算不出来,网上已经有人写出爬虫了,详情看茶社我的帖子有兴趣研究一下吗
Wandering...
发表于 2020-2-2 19:21:33 | 显示全部楼层
enzozzj 发表于 2020-2-2 19:02
这个要怎么使用?小白不懂

安装 python
打开这个文件的文件夹,shift+右键,在此处打开命令窗口,输入python crawl_wqxt.py bookid(就是https://lib-nuanxin.wqxuetang.com/read/pdf/XXX)有点慢,还会卡死,爬完以后自动转化成pdf文档
风之咩~
发表于 2020-2-2 19:35:28 | 显示全部楼层
Wandering... 发表于 2020-2-2 19:21
安装 python
打开这个文件的文件夹,shift+右键,在此处打开命令窗口,输入python crawl_wqxt.py bookid ...

看到了 人家写法都出来了...

评分

参与人数 1人气 +1 收起 理由
Wandering... + 1 感谢支持,欢迎常来: )

查看全部评分

mianning
 楼主| 发表于 2020-2-2 19:44:13 | 显示全部楼层
Wandering... 发表于 2020-2-2 18:56
https://github.com/gumblex/wqxt_pdf
这有个爬虫,用法自己摸索,到现在我还没成功过一次

劳累老哥还写了个程序,感激啊
我学习学习
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 苏ICP备07004770号 ) GMT+8, 2020-2-18 20:40 , Processed in 0.087756 second(s), 15 queries .

快速回复 返回顶部 返回列表