全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1293|回复: 7
打印 上一主题 下一主题

【已解决】火车头添加文件下载时出错..能跳过吗?

[复制链接]
跳转到指定楼层
1#
发表于 2021-7-13 15:10:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 笑花落半世琉璃 于 2021-7-14 09:42 编辑

添加文件下载时出错,原因:没有探测到文件真实地址,URL=xxxxxxx

手动地址访问是404,这种可以用插件跳过探测吗?


最后还是得靠自己哇,整了个c#插件,最后还是达到了想要的目的

2#
发表于 2021-7-13 15:34:01 | 只看该作者
地址错误 就不会下载了 还探测做什么
如果想这种URL都不下载 或者跳过  可以设置下载这个标签里 - 内容过滤 - (不得包含这个URL)
3#
 楼主| 发表于 2021-7-13 15:50:44 来自手机 | 只看该作者
呆子 发表于 2021-7-13 15:34
地址错误 就不会下载了 还探测做什么
如果想这种URL都不下载 或者跳过  可以设置下载这个标签里 - 内容过滤 ...

它是img标签里的图片,绝对路径。勾选下载图片就自己补全链接了,而内容过滤是补全前的操作,因此无效设置那个无效……关键是有的图片访问不了,有的可以访问,还不能一刀切了。。哎
4#
发表于 2021-7-13 16:01:13 | 只看该作者
笑花落半世琉璃 发表于 2021-7-13 15:50
它是img标签里的图片,绝对路径。勾选下载图片就自己补全链接了,而内容过滤是补全前的操作,因此无效设 ...

那就加个http请求 然后根据返回在去过滤 下载
5#
发表于 2021-7-13 17:48:16 | 只看该作者
错误就自动跳过了,不会处理
6#
 楼主| 发表于 2021-7-14 09:35:11 | 只看该作者
专业黑人抬棺 发表于 2021-7-13 17:48
错误就自动跳过了,不会处理

内容采集是正确的,除了图片探测失败的部分,因此最终只会提示采集成功。
而问题就是探测的时候软件就已经补全完整链接了,如果不做相应代码处理,最后采集到的内容里的图片链接是补全后的,也就是【https://domain/图片路径】,这种如果不处理,采集就没有意义了

也可能是我太菜了吧,反正也只是学习学习,完累了还是得python爬虫一步到位
7#
发表于 2021-7-14 09:41:05 | 只看该作者
笑花落半世琉璃 发表于 2021-7-14 09:35
内容采集是正确的,除了图片探测失败的部分,因此最终只会提示采集成功。
而问题就是探测的时候软件就已 ...

提前把失败的地址 替换掉,或者 采集后 在 sql 替换掉地址也行
8#
 楼主| 发表于 2021-7-14 09:52:40 | 只看该作者
专业黑人抬棺 发表于 2021-7-14 09:41
提前把失败的地址 替换掉,或者 采集后 在 sql 替换掉地址也行

我不知道怎么去描述我遇到的这个东西。反正已经解决了,就不管它
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-12 13:36 , Processed in 0.064706 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表