这种分布式文件下载方案有现成的工具解决吗?

2020 年 10 月 9 日
 Inn0Vat10n

在小规格 ecs 上部署了爬虫,想要同步数据到本地但是出带宽只有 1MB (学生优惠机)速度很慢,我在想如果我买多台这样的学生机( 10 元每月比起带宽费用便宜多了),然后并发从多台小规格机器上拉取数据,不就可以达到更高的带宽下载了吗?多台学生机通过内网传输,拆分大文件为多个分片,然后我本地再并发从多台机器同时拉取多个分片再进行组装,这样的功能有现成的工具可以实现吗?

1606 次点击
所在节点    问与答
14 条回复
ackoly
2020 年 10 月 9 日
切割成多个文件,分布在多个目录,nfs 挂载多台机子,然后用 rsync 同步就可以
opengps
2020 年 10 月 9 日
如果不介意费用问题,可以先把文件内网传到 oss,然后走 oss 的公网流量(付费)下载
opengps
2020 年 10 月 9 日
你买多台学生机,需要分布在多个帐号下,内网并没有直接打通,所以这条路并不太好走,绕的太远了
yuzo555
2020 年 10 月 9 日
@opengps 都学生机了怎么可能不介意费用问题哈哈
Rheinmetal
2020 年 10 月 9 日
搞个海外 vps 试试? 说不定爬国内资源反而快
其实数据不多的话 oss 也不贵
bowser1701
2020 年 10 月 9 日
@opengps 学生机内网可以云企业网。
Inn0Vat10n
2020 年 10 月 9 日
@opengps
@Rheinmetal
数据量比较大,买 OSS 不如加带宽
swulling
2020 年 10 月 9 日
BT 做种下载就行,
Inn0Vat10n
2020 年 10 月 9 日
10 台学生机也就 100/月,10M 带宽的单机费用。。。
aheadlead
2020 年 10 月 9 日
@Inn0Vat10n #7 你也不说多少数据量…… 如果只有百来 G,妥妥的 OSS 快啊
wjhjd163
2020 年 10 月 9 日
学生机不能多开
要多开得多账号
不同账号内网不通 只能走公网
supermoonie
2020 年 10 月 9 日
oss 不用想了
Inn0Vat10n
2020 年 10 月 9 日
@aheadlead 10GB/天左右
Inn0Vat10n
2020 年 10 月 9 日
@opengps
@wjhjd163
内网不通那没办法了。。。OSS 目前看来是最优了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/713417

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX