想用Python做个用于转换的应用程序,需要用到几个大的对应表文本文件,
如何将这几个文件转换后用户无法识别,而程序可以?
主要流程就是把输入的文件与对应表文本文件进行匹配,之后转换生成新的文件。
以前没有做过类似的程序,因为文件的行数总共有四百万左右,如何才能做到输入文件后迅速生成结果文件?
------
我要做的是中日专业术语的翻译,比如一个专利文件用来输入,然后分割成对应表中存在的单词,再利用对应表中对应的译文,做成翻译用的候补选项文件后输出,翻译者利用此文件选择最合适的专业术语译文。
其中的对应表就是每一行一个中文对应一个译文,如果同一中文对应多个的话就是多行。
对应表文件有三个,中日,中英,英日,每个文件都有上百万条。
如果中日找不到的话,就利用'中英'和'英日'来间接找日文。
------
每次执行时也都要载入大量数据,花时间啊。用pickle能稍微快点,但是还是要一分钟左右。
如何将这几个文件转换后用户无法识别,而程序可以?
主要流程就是把输入的文件与对应表文本文件进行匹配,之后转换生成新的文件。
以前没有做过类似的程序,因为文件的行数总共有四百万左右,如何才能做到输入文件后迅速生成结果文件?
------
我要做的是中日专业术语的翻译,比如一个专利文件用来输入,然后分割成对应表中存在的单词,再利用对应表中对应的译文,做成翻译用的候补选项文件后输出,翻译者利用此文件选择最合适的专业术语译文。
其中的对应表就是每一行一个中文对应一个译文,如果同一中文对应多个的话就是多行。
对应表文件有三个,中日,中英,英日,每个文件都有上百万条。
如果中日找不到的话,就利用'中英'和'英日'来间接找日文。
------
每次执行时也都要载入大量数据,花时间啊。用pickle能稍微快点,但是还是要一分钟左右。