最近对 NLP parsing 问题很感兴趣,想做一套短文本解析的工具,输入一个短文本(往往是一个单元格内容),输出一个像对更加结构化的表示,比如豆瓣里电影《信条》的上映时间是 “2020-09-04(中国大陆) / 2020-08-26(英国) / 2020-09-03(美国)”,可以首先拆分成三个并列的元素,每个元素都是一个日期加上一个限定词,比如第三个元素是日期 “2020-09-03” 加上一个限定词“美国”。
为了避免无脑做出来再拿着锤子找钉子,想先调查一下,各位在工作或者个人项目中是否会有类似的需求,比上述例子简单或者复杂都可以。如果已经有相关解决方案的话,大致是如何实现的(比如手写代码规则,或者基于一些已有工具定制,或者直接外包)。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://v2ex.xtra.eu.org/t/708681
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.