这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
pkookp8

关于目前中文关键字过滤的方式

  •  
  •   pkookp8 · May 13, 2019 via Android · 3293 views
    This topic created in 2582 days ago, the information mentioned may be changed or developed.
    1.正则
    2.特定关键字
    3.机器学习?

    对于 1,规则不好维护,并且有人想特意绕过也不是不能做到,比如使用火星文,同音字
    对于 2,没有语意分析,会导致例如添加了关键字[成人]
    等这人参果长成人型 这句话的成人被屏蔽
    对于 3 不了解,大概是基于统计学,如果没有初始的学习数据,而且很难说得清为什么一句话被过滤出来

    有没有现成的,针对中文进行拆字和注音,依据字形或读音来进行过滤
    可以一定程度上减少火星文,同音字的垃圾内容

    仅讨论技术
    zgcwkj
        1
    zgcwkj  
       May 15, 2019
    目前基本上是正则加关键字过滤,无论中文还是英文。
    因为大脑比写死的程序强,所以如果要别较厉害的话,可以尝试机器学习,但你又懂得多少呢?
    还不如按照大家的方式来的快!(当然你也可以自己研究)
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3244 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:38 · PVG 08:38 · LAX 17:38 · JFK 20:38
    ♥ Do have faith in what you're doing.