对于 Python 爬虫遇到一个问题,对于这样一个网站: www.icgoo.net,它好像是异步加载的,需要的型号数据在 XHR 里的 html 语句里,设置了 csrftoken。请问要什么方案爬取比较好呢?先谢谢打大家了

2018 年 3 月 13 日
 sr0miao
4565 次点击
所在节点    Python
11 条回复
cdwyd
2018 年 3 月 13 日
获取 csrftoken 然后抓就是了
sr0miao
2018 年 3 月 13 日
@cdwyd 请问如何获取呢
Mojy
2018 年 3 月 13 日
最简单的方式是通过模拟浏览器的方式进行爬虫,缺点就是稍微有点慢,需要等到页面加载完成才好
cokky
2018 年 3 月 13 日
用 phantomjs 模拟浏览器方式来试试
Nick2VIPUser
2018 年 3 月 13 日
点进 chrome 里面的 Source,到?partno=ADIS16251ACCZ&qty=1 这个 page 里面搜索 token 字段,把 token 出现的地方打断点调试,边调试边读 js 代码的实现,token 初始值多少经过什么代码变成了什么样子,最后算出来是多少。然后使用 python 代码实现~
welkinzh
2018 年 3 月 13 日
五楼的方法是对的,不过如果处理 token 的 js 比较恶心的话就很麻烦,想简单就用 PhantomJS
locoz
2018 年 3 月 13 日
逆向自己实现加密 /抠 js 加密部分出来运行 /模拟浏览器
fsdman1216
2018 年 3 月 14 日
selenium + webdriver
noqwerty
2018 年 3 月 15 日
requests-html 了解一下
wc110302
2019 年 3 月 14 日
https://blog.csdn.net/qq_39802740/article/details/88557981 我最近写了个爬虫~ 好像就是这个 icgoo 的 哈哈 不过是 366 天前的了
sr0miao
2019 年 3 月 15 日
@wc110302 哈哈,366 天前我还在实习呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/437678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX