有个处理 csv 的问题,想了好几个晚上,都没有办法解决,请教各位

2018 年 5 月 10 日
 kavana

有个超过 256 列的 csv 表,大概在 800 多列,10w 行 另外有一张表,要匹配上面这个表中的部分字段,然后找出关键字对应的值,类似于 vlookup 这种功能 现在的情况是,通过 vlookup 也能找,但是花费的时间比较长,放到数据库里,光导入的时间就不是一点半点的 请教一下大家有没有什么好的办法?

6475 次点击
所在节点    Python
36 条回复
super452
2018 年 5 月 10 日
pandas 了解一下?
ourzhang
2018 年 5 月 10 日
外部表。。。
kavana
2018 年 5 月 10 日
@mengzx 谢谢啦
caryqy
2018 年 5 月 10 日
awk + grep 呢
thedrwu
2018 年 5 月 10 日
10w 行的表,awk 如果写得高效,跑起来飞快。
还能多进程并行!
在几十个核心的服务器上跑个几秒就解决了。
Hopetree
2018 年 5 月 10 日
数据的东西交给 pandas
a132811
2018 年 5 月 10 日
才 10w 行,800 列,也没有多少数据嘛。
简单的匹配 grep, awk。复杂点的匹配,就 python 等处理,很方便的啊。

刚 python3 写了一个, 10 多行的事情:
wget https://ahui132.github.io/bin/grepcolumn
chmod u+x grepcolumn


echo 'name=Jack,gender=male,job=coder' | grepcolumn - 'job,name'

echo 'Jack,male,coder' | grepcolumn - 'job,name' -c 'name,gender,job'

echo 'Jack||male||coder' | grepcolumn - 'job,name' -c 'name,gender,job' -d '||'
annielong
2018 年 5 月 10 日
看字段内容吧,如果是一般的字段,还是导入数据库方便,我曾处理过一次复杂文本的 csv,字段用逗号隔开,但是某个字段是富文本,里面一大堆换行 和逗号,不知道为什么用 Excel 引擎导入只能处理一部分,最后还是写个软件 处理后批量插入数据库
a132811
2018 年 5 月 10 日
csv 的话 pands 最方便:

dataFrame = pandas.read_csv("./marks.csv", sep=",")
dataFrame = pandas.read_table("./marks.csv", sep=",")
zynlp
2018 年 5 月 10 日
spss 了解一下?
zhangsen1992
2018 年 5 月 10 日
数据库操作
Hzzone
2018 年 5 月 10 日
像是中软杯(滑稽)
LaFayette
2018 年 5 月 10 日
10W 多行不算大,pandas 就可以处理
lance7in
2018 年 5 月 11 日
@thedrwu 这么好的工具为啥大伙都不用
guyskk0x0
2018 年 5 月 11 日
试试 apache drill,先把 csv 里需要的字段抽出来
xiaohanqing
2018 年 5 月 12 日
MySQL,loadCSV,6 百万行也是几分钟的事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/453628

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX