全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 233|回复: 0
打印 上一主题 下一主题

还要再请教个spider问题。

[复制链接]
跳转到指定楼层
1#
发表于 2019-10-15 14:51:18 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 猛犸 于 2019-10-15 14:57 编辑

我用的spider+selenium+headless chrome
方案是在fetcher里边加了个selenium_fetcher.py
运行时先开一个chrome web server 端口9000
然后运行pyspider --phantomjs-proxy=http://0.0.0.0:9000

正常采集没问题,但是一使用  fetch_type='js' 调用selenium就报错

pyspider错误提示:ValueError('No JSON object could be decoded',)
chrome web server错误提示:post 500  get 404
selenium/webdriver/remote/errorhandler.py", line 208, in check_response
    raise exception_class(value)
最终显示采到的页面是404页面

伪造了user-agent

在 chrome web server上能看到fetch传递过来的json

接下来就出错了。

求大神指点,忙活2个晚上了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-14 20:47 , Processed in 0.063338 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表