yande.re 图站爬虫一枚

2015 年 6 月 20 日
 wudaown

有朋友想收集yande.re里的图片
于是现学撸了一个爬虫出来
大家来拍吧
https://github.com/wudaown/yandeDL

未满18岁慎用
15443 次点击
所在节点    程序员
22 条回复
zonghua
2015 年 6 月 20 日
python做爬虫有什么加成
Imyssed
2015 年 6 月 20 日
其实我比较好奇Y站和K站是不是一个系统啊...好像的说
wudaown
2015 年 6 月 20 日
貌似是的.. y站以前不叫Y站.. 换过名字了
wudaown
2015 年 6 月 20 日
@Imyssed 去K站看了一眼.. 结构都差不多 只要替换几个地方就变成K站爬虫了... 233
yeah2109
2015 年 6 月 20 日
输入关键词以后没有进度提示吗?
yeah2109
2015 年 6 月 20 日
@wudaown 那就在做个k站的吧233
看到提示了,好东西
yeah2109
2015 年 6 月 20 日
我输入了一定的页数,下载了一段时间后
Traceback (most recent call last):
File "yandeDL.py", line 61, in <module>
main()
File "yandeDL.py", line 55, in main
MultiPageDownload()
File "yandeDL.py", line 27, in MultiPageDownload
coreDL(crawler.getSource(next_page_url))
File "yandeDL.py", line 14, in coreDL
crawler.getImg(dLink, filename_list)
File "/root/yandedl/crawler.py", line 123, in getImg
urllib.request.urlretrieve(x[2:-2], filename_list[count])
File "/usr/local/lib/python3.4/urllib/request.py", line 219, in urlretrieve
% (read, size), result)
urllib.error.ContentTooShortError: <urlopen error retrieval incomplete: got only 196325 out of 255091 bytes>
这么显示然后就停止了,是什么原因?
hansnow
2015 年 6 月 20 日
问个和主题不相关的问题哈,楼主帖子里的红色框框是怎么输入的呢?
anthonyeef
2015 年 6 月 20 日
@hansnow markdown自带的吧
wudaown
2015 年 6 月 20 日
@yeah2109 你下载了多少页 用的那个tag? 我自己试试看
wudaown
2015 年 6 月 20 日
shuzhiqian
2015 年 6 月 20 日
iOS开发技术分享群:429196500 欢迎加入!
dlc
2015 年 6 月 20 日
楼主, 为什么我安装完python3.4.0 后双击yandeDL.py打不开。
moenayuki
2015 年 6 月 20 日
wudaown
2015 年 6 月 20 日
@moenayuki 我刚才发现有API的.. 准备重写了
wudaown
2015 年 6 月 20 日
@dlc 能多说一点么... 我在windows测试可以问题......
yeah2109
2015 年 6 月 21 日
@wudaown 关键词 “thighhighs”或者“no-bra” 页数50
dlc
2015 年 6 月 21 日
@wudaown 双击yandeDL.py一闪而过,在cmd用 python yandeDL.py 也打不开。
ghostxdy
2015 年 6 月 21 日
我特的来回复一下,我收藏了
yeah2109
2015 年 6 月 21 日
@dlc python3 不是python

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/199965

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX