Spark 如何将一个 RDD 分成多个 RDD?

2018 年 3 月 29 日
 anonymoustian

现在有这么一个需求,原始数据的格式是

小明 语文成绩,数学成绩,英语成绩

所以 RDD 的格式就为

JavaPairRDD<String, String> chengji; 其中 chengji 数据结构为<小明,[语文成绩,数学成绩,英语成绩]>

现在想把这一个 RDD 拆分成 3 个 RDD

即 JavaPairRDD<小明,语文成绩>

JavaPairRDD<小明,数学成绩>

JavaPairRDD<小明,英语成绩>

这个应该怎么写 请教, 用 flatmap 可以做么? 谢谢!

10204 次点击
所在节点    Hadoop
15 条回复
zhusimaji
2018 年 3 月 29 日
不可以啊,flatmap 就是先 map 后 flat 展开,你要是拆开三个 rdd,最简单的就是 map 三次
liucudliucud
2018 年 3 月 29 日
不用拆,放在一起处理
capric
2018 年 3 月 29 日
sparksql 支持 array explode
select expode(items) as item
anonymoustian
2018 年 3 月 29 日
@zhusimaji 但是我是举个例子。。 就是 这个个数是不同的。 每个 RDD 是 N 个 ,N 各不相同
anonymoustian
2018 年 3 月 29 日
@capric 这个在 hive 里是一个字符串处理的,也可以这么做么
anonymoustian
2018 年 3 月 29 日
@liucudliucud 但是要用这个做 reducebykey
capric
2018 年 3 月 29 日
@anonymoustian 可以的
explode 支持 split
zjxzhqq
2018 年 3 月 29 日
map 就可以了
zjxzhqq
2018 年 3 月 29 日
升级吧,用 ds
capric
2018 年 3 月 30 日
@capric
@anonymoustian
explode 字符串
explode(split(tags ",")) as tag

explode 数组
explode(tags) as tag
anonymoustian
2018 年 3 月 30 日
@capric 非常感谢 已经成功了,谢谢。 另外我很好奇有没有其他的做法呢?
capric
2018 年 3 月 30 日
@anonymoustian 函数级别也支持
df.withColumn("tag", explode($"tags"))
zhusimaji
2018 年 3 月 30 日
@anonymoustian。。。你用 sparksql explode 也只是生成 dataframe,最后做成单独的 rdd,还是要转换
liucudliucud
2018 年 3 月 30 日
把数据 flatten 再详细写 reduce 方法呗
可以详细说下需求
类似于 name type score
liucudliucud
2018 年 3 月 30 日
拆 rdd 这种一个两个还可以,多了效率很低的,强行串行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/442649

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX