全球主机交流论坛

标题: 【已解决】火车头添加文件下载时出错..能跳过吗? [打印本页]

作者: 笑花落半世琉璃    时间: 2021-7-13 15:10
标题: 【已解决】火车头添加文件下载时出错..能跳过吗?
本帖最后由 笑花落半世琉璃 于 2021-7-14 09:42 编辑

添加文件下载时出错,原因:没有探测到文件真实地址,URL=xxxxxxx

手动地址访问是404,这种可以用插件跳过探测吗?


最后还是得靠自己哇,整了个c#插件,最后还是达到了想要的目的


作者: 呆子    时间: 2021-7-13 15:34
地址错误 就不会下载了 还探测做什么
如果想这种URL都不下载 或者跳过  可以设置下载这个标签里 - 内容过滤 - (不得包含这个URL)
作者: 笑花落半世琉璃    时间: 2021-7-13 15:50
呆子 发表于 2021-7-13 15:34
地址错误 就不会下载了 还探测做什么
如果想这种URL都不下载 或者跳过  可以设置下载这个标签里 - 内容过滤 ...

它是img标签里的图片,绝对路径。勾选下载图片就自己补全链接了,而内容过滤是补全前的操作,因此无效设置那个无效……关键是有的图片访问不了,有的可以访问,还不能一刀切了。。哎
作者: 呆子    时间: 2021-7-13 16:01
笑花落半世琉璃 发表于 2021-7-13 15:50
它是img标签里的图片,绝对路径。勾选下载图片就自己补全链接了,而内容过滤是补全前的操作,因此无效设 ...

那就加个http请求 然后根据返回在去过滤 下载
作者: 专业黑人抬棺    时间: 2021-7-13 17:48
错误就自动跳过了,不会处理
作者: 笑花落半世琉璃    时间: 2021-7-14 09:35
专业黑人抬棺 发表于 2021-7-13 17:48
错误就自动跳过了,不会处理

内容采集是正确的,除了图片探测失败的部分,因此最终只会提示采集成功。
而问题就是探测的时候软件就已经补全完整链接了,如果不做相应代码处理,最后采集到的内容里的图片链接是补全后的,也就是【https://domain/图片路径】,这种如果不处理,采集就没有意义了

也可能是我太菜了吧,反正也只是学习学习,完累了还是得python爬虫一步到位
作者: 专业黑人抬棺    时间: 2021-7-14 09:41
笑花落半世琉璃 发表于 2021-7-14 09:35
内容采集是正确的,除了图片探测失败的部分,因此最终只会提示采集成功。
而问题就是探测的时候软件就已 ...

提前把失败的地址 替换掉,或者 采集后 在 sql 替换掉地址也行
作者: 笑花落半世琉璃    时间: 2021-7-14 09:52
专业黑人抬棺 发表于 2021-7-14 09:41
提前把失败的地址 替换掉,或者 采集后 在 sql 替换掉地址也行

我不知道怎么去描述我遇到的这个东西。反正已经解决了,就不管它




欢迎光临 全球主机交流论坛 (https://loc.010206.xyz/) Powered by Discuz! X3.4