全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 18755|回复: 27
打印 上一主题 下一主题

有没有一种软件,可以全自动爬行下载目标页面

[复制链接]
跳转到指定楼层
#
发表于 2018-1-13 16:27:52 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
50金钱
带爬取链接深度设定功能

比如我想下载某个网站所有的二级目录

http://www.a.com/abc/

http://www.a.com/def/

http://www.a.com/ghi/


有些模板扒皮软件可以,但是好像不能自动爬取所有链接。

下载了一个叫 HTTrack Website Copier 的工具满足我的需求,但是好像有问题,在下载的时候缓存的文件是 *.html.tmp,但下载结束后,所有Html文件都会自动消失,不知道为什么。

22#
发表于 2018-1-14 21:54:21 | 只看该作者
持续关注
21#
发表于 2018-1-14 20:40:30 | 只看该作者
helwo 发表于 2018-1-14 13:52
难道我这边有问题。我可以访问。奇怪了

现在可以了,之前显示 目录什么什么不存在 之类
20#
发表于 2018-1-14 20:38:52 | 只看该作者
cgs3238 发表于 2018-1-13 16:44
wget 下载整个网站,或者特定目录

1、需要下载某个目录下面的所有文件。命令如下

习惯性的wget -m
19#
发表于 2018-1-14 14:06:59 来自手机 | 只看该作者
离线阅读软件
18#
发表于 2018-1-14 14:05:41 来自手机 | 只看该作者
Python手写爬虫
17#
发表于 2018-1-14 13:52:49 | 只看该作者
baymin 发表于 2018-1-14 12:10
大佬,文件不在了

难道我这边有问题。我可以访问。奇怪了
16#
发表于 2018-1-14 12:11:30 | 只看该作者
webdump
15#
发表于 2018-1-14 12:11:08 | 只看该作者
最近一直在学python

你可以用爬虫解决这一切,没错就是这样简单
橙影 该用户已被删除
14#
发表于 2018-1-14 12:10:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
13#
发表于 2018-1-14 12:10:00 来自手机 | 只看该作者
helwo 发表于 2018-1-14 09:42
https://pan.baidu.com/s/1gePSSpH
密码:ubg4


大佬,文件不在了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-12-19 08:52 , Processed in 0.128255 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表