查看: 3800|回复: 37
收起左侧

[软件] 请大家推荐一款保存网页的软件

[复制链接]
旧茶叶
发表于 2018-11-13 13:32:38 | 显示全部楼层 |阅读模式
有两个要求:
1.可以自动保存图片和文字(chrome保存为mhtml的功能必须要保证所有的图片都被加载出来,才能把所有图片都存下来。如果图片量很大就要花费很多时间)
2.有些图片点“查看图片”后会出现更清晰的图片,希望软件能自动完成这个功能,保存更清晰的图片

随便注册
发表于 2018-11-13 14:03:52 | 显示全部楼层
不常用就凑合吧,好像是从缓存提取。就IE是重下,不用你等全下完再操作,就是有时卡半小时,“取消”半小时。

第二个我是改网页源文件,但每个网站都得写规则。
156276449
发表于 2018-11-13 15:42:00 | 显示全部楼层
源文件怎么改
旧茶叶
 楼主| 发表于 2018-11-13 17:08:04 | 显示全部楼层
随便注册 发表于 2018-11-13 14:03
不常用就凑合吧,好像是从缓存提取。就IE是重下,不用你等全下完再操作,就是有时卡半小时,“取消”半小时 ...

最近的需求量挺大的……ie对于微信公众号的文章好像没有下载选项
我试过teleport,如果打开index.html会是下图这种情况……我用chrome打开的,他却认为我是ie
如果从teleport选择用chrome打开,又显示不出图片。因为有些文章主要就是需要对比步骤和图片显示的细节……


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
随便注册
发表于 2018-11-13 17:47:43 | 显示全部楼层
旧茶叶 发表于 2018-11-13 17:08
最近的需求量挺大的……ie对于微信公众号的文章好像没有下载选项
我试过teleport,如果打开index.html会 ...

以mp.weixin.qq.com为例

1.下载https://github.com/amate/Proxydomo/releases

2.替换附件中的规则和语言文件

3.选项——生成数字证书——重启软件,以过滤https

4.证书添加到系统或浏览器的信任根目录,因为原理是中间人劫持,证书有效期1年

5.浏览器代{过}{滤}理端口按选项里的设置

静态那个我都勾上,静态能显示的,存下来一般不会少东西

你看看index.html的内容,应该下载回来的就不对吧,不是用Chrome时才判断的。teleport大概发送的UA太旧,IE10能看啊。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
laouse
发表于 2018-11-13 18:57:36 | 显示全部楼层
ScrapBook X
火狐52 的扩展
旧茶叶
 楼主| 发表于 2018-11-14 00:25:11 | 显示全部楼层
随便注册 发表于 2018-11-13 17:47
以mp.weixin.qq.com为例

1.下载https://github.com/amate/Proxydomo/releases

好像我没有表达清楚我的意思
是这样的,我这边是IE11,在teleport里选择chrome或IE11都可以打开保存的网页,这两个都无法加载图片(从teleport创建的文件夹看图片是都已经保存下来了的)。然后如果在这个文件夹里找到index.html并选择用chrome打开的话,网页就成为了上面的截图……
下载回来是否正确以及UA太旧……我不会看这个,所以不知道怎么断定了
Proxydomo搞定了,唯一不同是用switchtyomega代替了步骤5,设置如下图
然后从日志里也可以看到有连接活动,所以应该设置成功了……请问下一步应该怎么办?
我没有查出来,不好意思……

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
旧茶叶
 楼主| 发表于 2018-11-14 00:28:44 | 显示全部楼层
laouse 发表于 2018-11-13 18:57
ScrapBook X
火狐52 的扩展

谢谢……要是我不会上面的方法那就只好沙盘里丢一个52esr了
随便注册
发表于 2018-11-14 00:42:35 | 显示全部楼层
旧茶叶 发表于 2018-11-14 00:25
好像我没有表达清楚我的意思
是这样的,我这边是IE11,在teleport里选择chrome或IE11都可以打开保 ...

能先给个网址不?
设置好后就用浏览器另存为,但你好像要用离线批量?teleport没用过,跟Offline Explorer类似?
旧茶叶
 楼主| 发表于 2018-11-14 14:03:18 | 显示全部楼层
随便注册 发表于 2018-11-14 00:42
能先给个网址不?
设置好后就用浏览器另存为,但你好像要用离线批量?teleport没用过,跟Offline ...

Offline Explorer看起来好像和teleport确实差不多
用Offline Explorer抓取的话图少的网址是这个,我抓去的链接在这里,密码321f。三种导出方式,最后的结果都会和用ie打开类似,也就是下图。
然后用proxydomo然后再用右键另存为可以成功抓下来整个网页……
离线批量好像还好吧,一个个添加进去再全部开始就好了……
我发现某些公众号总喜欢删除文章,来不及看就看不到了。如果是模型这种就是尽量能存下来大图片就大图片(不过我发现电脑上最大的也不如手机上存下来的)。然后其他的一些不追求图片品质了,就是怕会突然蹦一个图文结合的片段(比如设计实验交互等等的),那个时候就是能看懂就行。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
随便注册
发表于 2018-11-14 14:41:34 | 显示全部楼层
旧茶叶 发表于 2018-11-14 14:03
Offline Explorer看起来好像和teleport确实差不多
用Offline Explorer抓取的话图少的网址是这个,我抓去 ...


试用了teleport,沙盘中用的,好卡啊~
下的这个版本http://www.tenmax.com/teleport/ultra/download.htm
确实是IE7的User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT)
但很奇怪,weixin也没拦着不让看,不管直连还是代{过}{滤}理,都没问题。index.html不是统一命名啊?我这就那一堆“乱码”当文件名。
直连下了几百个文件

是不显示图片,因为img标签里仍然是data-src,全部替换为src即可,不知道它是凭什么逻辑把图下下来的。

它不是有代{过}{滤}理设置吗,你让它用上Proxydomo,我这试验很成功。

三种导出方式是浏览器另存为、teleport、Offline Explorer?

没有百度盘号,下不了,方便的话,只压缩html上传论坛,不用要图片。

我让你用Proxydomo,是想着用IE另存为来着 网页+文件夹,文件名明显,也好管理。

===============
图片大小,不知道手机上给的什么链接,不过电脑上的这个,去掉后面的部分就大一点,加一条类似的替换规则即可
  1. 640\?wx_fmt=jpeg
复制代码

https://mmbiz.qpic.cn/mmbiz_jpg/StibGC8yqWxqQxKY119SVTJPq1LbnUib4iarc782NlBjyAjk3XTPwIzHW9LSELW6gqhSx3aFicEaOW8G6R4JQfoqUA/640?wx_fmt=jpeg
旧茶叶
 楼主| 发表于 2018-11-14 15:49:22 | 显示全部楼层
本帖最后由 旧茶叶 于 2018-11-14 15:52 编辑
随便注册 发表于 2018-11-14 14:41
试用了teleport,沙盘中用的,好卡啊~
下的这个版本http://www.tenmax.com/teleport/ultra/download. ...
校园网卡了,编辑掉
旧茶叶
 楼主| 发表于 2018-11-14 15:51:24 | 显示全部楼层
随便注册 发表于 2018-11-14 14:41
试用了teleport,沙盘中用的,好卡啊~
下的这个版本http://www.tenmax.com/teleport/ultra/download. ...

teleport我用的1.65汉化版……1.72的那个我找到了注册机但是好像需要序列号,序列号没找到,就用1.65了。
看见Offline Explorer之后就把它删了……文件也没了……现在重新安装(发完上一帖就Windows更新了,不知是否和后面的有关)……下载网页后……文件夹里是空白的,先不折腾了
“因为img标签里仍然是data-src,全部替换为src即可”这句话我就不知道怎么试了……
三种储存方式是:Offline Explorer的htm、exe、mht,然后用ie打开后就是上面那张图,也就是都无法打开
Offline Explorer下载的htm形式的上传到这里了
用火狐尝试也在下面,应该也是“网页+文件夹”的样子,ie的代{过}{滤}理不知是不是我没设置对,图片全是下图那样
如果火狐和ie的另存为差不多那就用先火狐吧……

微信在电脑和手机上给出的图片不一样,手机上那张图能有1mb。不过,请问这个规则是用啥设置的鸭?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
随便注册
发表于 2018-11-14 17:11:47 | 显示全部楼层
本帖最后由 随便注册 于 2018-11-14 17:30 编辑
旧茶叶 发表于 2018-11-14 15:51
teleport我用的1.65汉化版……1.72的那个我找到了注册机但是好像需要序列号,序列号没找到,就用1.65了。 ...


“因为img标签里仍然是data-src,全部替换为src即可”
7楼不是说用teleport下载(应该没经过Proxydomo),文件夹里有图片但不显示。记事本查看htm的源文件,发现它没给替换,正常应该是<img src="图片网址">,weixin是data-src,替换了就好。
========
不是你的问题,是Offline Explore有问题,它不解析weixin的图片网址啊反斜线结尾的还给补了个default.htm。可能只认识带后缀名.jpg的,现在这种它没见过

既然需要批量,我用AutoHotKey做了个,代码现抄的,所以不会改,也不知道怎么存htm,希望你能接受mht
网址列表一行一个,记事本打开ahk,编辑下保存位置
不知道Win10能不能用,不能就只好回去用teleport了
AHK跟着系统设置走,所以要先设置好IE,确认经过Proxydomo


有的是局域网设置里,有的PPPoE网线直接插电脑是上面那个,只要Proxydomo日志里有活动就对了

========
就是新建一条规则,普通的查找替换

========
附件是导出?没用过导出,但和离线一样吧,Offline Explore在下载文件夹生成一个htm,所有的下载项目,以起始页为标题,一条条的列在这里,点击去才是下载回来的网页,附件只是目录页。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
旧茶叶
 楼主| 发表于 2018-11-15 00:19:55 | 显示全部楼层
随便注册 发表于 2018-11-14 17:11
“因为img标签里仍然是data-src,全部替换为src即可”
7楼不是说用teleport下载(应该没经过Proxydomo ...


AHK兼容模式尝试win7、win8后均无法打开,Offline Explore应该是用不成了
感觉大佬更倾向于IE,我这边按照14楼的图片那样设置代{过}{滤}理,并且proxydomo里面确实有连接显示,但图片如14楼那样显示不出(是那种方框里面有×),证书我导入了……网页显示的是证书错误,所以ie图片显示不出应该是证书的问题……不知道为啥导入了证书,网页还是显示错误……
那似乎只有用teleport了
谢谢大佬了!!!


旧茶叶
 楼主| 发表于 2018-11-15 00:31:00 | 显示全部楼层
随便注册 发表于 2018-11-14 17:11
“因为img标签里仍然是data-src,全部替换为src即可”
7楼不是说用teleport下载(应该没经过Proxydomo ...

ie显示不出图片的原因解决了
这里
可是另存为不会把图片存下来呀……
附件是我保存下来的样子……

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
随便注册
发表于 2018-11-15 00:55:17 | 显示全部楼层
本帖最后由 随便注册 于 2018-11-15 02:02 编辑

附件里的没经过Proxydomo处理啊,我说的浏览器另存为、离线下载器以及最后的AHK都是要经过Proxydomo处理才行。

安装证书在选择存储区域时,不要用默认的自动,而是下面那个,浏览后选择根证书。如果没错,那就不知道了。

====
这么说吧,你先用浏览器测试成功,什么浏览器都行,再考虑批量的事。成功是指,经过Proxydomo处理,网页源文件里没有js(需勾上那个规则)、没有data-src,另存为后有图片。

这种效果行不行?






文件夹中有个mp_weixin_qq_com.htm,就是浏览器版本过低提示,因为有两个src=""空网址,就把首页存下来了。但之后测试没再提示版本过低
以现有规则为模板,再加一条,替换框留空


====
AHK无法打开是说没反应吧?这个没做界面,你就把.ahk改好后,往exe上一拖,托盘区有图标。或者exe和ahk同名,就可以直接点击exe了。
再就是事先清空IE缓存,它好像总是先从缓存中提取,那就不一定是想要的了。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
旧茶叶
 楼主| 发表于 2018-11-15 17:27:54 | 显示全部楼层
随便注册 发表于 2018-11-15 00:55
附件里的没经过Proxydomo处理啊,我说的浏览器另存为、离线下载器以及最后的AHK都是要经过Proxydomo处理才 ...

哦哦,这样就能用AHK了……
IE应该没有操作错误……我发现ie设置后,ie和火狐的连接在Proxydomo里都有显示(火狐的插件没有切换成那个代{过}{滤}理模式)
火狐目前直接另存为是可以的……我就先用火狐了……
加规则的话就是用记事本打开.ahk,在大花括号里和上面一样排版把两个规则都加进去就可以了吗?
随便注册
发表于 2018-11-15 18:01:19 | 显示全部楼层
本帖最后由 随便注册 于 2018-11-16 00:24 编辑

那不是Proxydomo的界面吗?
算了,上规则文件吧,关了Proxydomo再替换

火狐没切不应该有啊

有显示起码代{过}{滤}理没问题,再确定一下过滤是否生效了,日志会显示匹配了哪条规则。查看网页源文件也行,你好像自始至终没提过源文件有没有变化?

如果都没问题,另存为应该也正常啊?我想不出来你是哪步卡了,批量都整出来了,你那浏览还没确定情况。不然你就每步截图,看看到底怎么回事。

========
我不喜欢保存为MHT,做了个脚本,防火墙放行,不依赖过滤。如果这还不行,那我真纳闷你究竟遇到了啥问题?
文件夹为.files,与Win7之后的_files区分
只适合https://mp.weixin.qq.com/s网址
只提取绝对路径的图片链接,且统一后缀为jpg,非jpg在IE就不显示
网页改版就无效

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
旧茶叶
 楼主| 发表于 2018-11-16 00:25:30 | 显示全部楼层
本帖最后由 旧茶叶 于 2018-11-16 00:54 编辑
随便注册 发表于 2018-11-15 18:01
那不是Proxydomo的界面吗?
算了,上规则文件吧,关了Proxydomo再替换
再次测试了一次……只要是IE的局域网LAN设置走proxydomo……火狐的switchyomega不切换成走6060端口的那个选项……火狐也会走
日志就是上面这个了……这个时候火狐在这个网址
保留IE的局域网LAN设置走proxydomo,关闭proxydomo,我的火狐无法浏览任何网页

IE去除“启用保护模式”可以显示图片。去除“软件呈现而不是用GPU呈现”会显示证书不正确。


仅去除“启用保护模式”批量了三个文件,均无法显示图片。然后我进行了上面的去除“启用保护模式”和 “软件呈现而不是用GPU呈现”操作。此时批量仅能下载最后一个文件,再回到仅去除“启用保护模式”也只能批量下来一个文件了(传到附件里)。不知为啥是这样。

网页源文件的话,我太小白了不会看……就是那种遇到问题只能gooogle或者设计实验组合排除的。之前单纯用火狐另存为成功(文件夹里只有图片),那么我觉得可能可以认为过滤规则也生效了吧(用火狐下载的文件在附件里)

LTSC这次更新又出问题了……佛了巨硬的操作


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2025-12-18 11:19 , Processed in 0.106121 second(s), 2 queries , Redis On.

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表