全球主机交流论坛

标题: 【已解决】火车头添加文件下载时出错..能跳过吗？ [打印本页]

作者: 笑花落半世琉璃 时间: 2021-7-13 15:10
标题: 【已解决】火车头添加文件下载时出错..能跳过吗？
本帖最后由笑花落半世琉璃于 2021-7-14 09:42 编辑

添加文件下载时出错，原因:没有探测到文件真实地址,URL=xxxxxxx

手动地址访问是404，

这种可以用插件跳过探测吗？

最后还是得靠自己哇，整了个c#插件，最后还是达到了想要的目的

。

作者: 呆子 时间: 2021-7-13 15:34
地址错误就不会下载了还探测做什么
如果想这种URL都不下载或者跳过可以设置下载这个标签里 - 内容过滤 - （不得包含这个URL）

作者: 笑花落半世琉璃 时间: 2021-7-13 15:50

呆子发表于 2021-7-13 15:34
地址错误就不会下载了还探测做什么
如果想这种URL都不下载或者跳过可以设置下载这个标签里 - 内容过滤 ...

它是img标签里的图片，绝对路径。勾选下载图片就自己补全链接了，而内容过滤是补全前的操作，因此无效设置那个无效……关键是有的图片访问不了，有的可以访问，还不能一刀切了。。哎

作者: 呆子 时间: 2021-7-13 16:01

笑花落半世琉璃发表于 2021-7-13 15:50
它是img标签里的图片，绝对路径。勾选下载图片就自己补全链接了，而内容过滤是补全前的操作，因此无效设 ...

那就加个http请求然后根据返回在去过滤下载

作者: 专业黑人抬棺 时间: 2021-7-13 17:48
错误就自动跳过了，不会处理

作者: 笑花落半世琉璃 时间: 2021-7-14 09:35

专业黑人抬棺发表于 2021-7-13 17:48
错误就自动跳过了，不会处理

内容采集是正确的，除了图片探测失败的部分，因此最终只会提示采集成功。
而问题就是探测的时候软件就已经补全完整链接了，如果不做相应代码处理，最后采集到的内容里的图片链接是补全后的，也就是【https://domain/图片路径】，这种如果不处理，采集就没有意义了

也可能是我太菜了吧，反正也只是学习学习，完累了还是得python爬虫一步到位

作者: 专业黑人抬棺 时间: 2021-7-14 09:41

笑花落半世琉璃发表于 2021-7-14 09:35
内容采集是正确的，除了图片探测失败的部分，因此最终只会提示采集成功。
而问题就是探测的时候软件就已 ...

提前把失败的地址替换掉，或者采集后在 sql 替换掉地址也行

作者: 笑花落半世琉璃 时间: 2021-7-14 09:52

专业黑人抬棺发表于 2021-7-14 09:41
提前把失败的地址替换掉，或者采集后在 sql 替换掉地址也行

我不知道怎么去描述我遇到的这个东西。反正已经解决了，就不管它

欢迎光临全球主机交流论坛 (https://loc.010206.xyz/)