This topic created in 3367 days ago, the information mentioned may be changed or developed.
6 replies • 2018-02-25 11:34:24 +08:00
 |
|
1
menc Mar 22, 2017 1
你发的是 word embedding ,不是 word2vec
word2vec 特指 mikolov 在 2011 年发的 paper 中用到的模型和工具。
具体来说,是 CBOW + SKIP-GRAM 两个模型, negative sampling + hierarchical softmax 两种训练方法组成的 word embedding 训练方法。
至于你在视频里说的“最后走一层 softmax ”,完全不可用, softmax 时间复杂度 O(#token), token 有 90w 的情况下( nlp 常见),根本训练不出来,这也正是 mikolov 使用 hierarchical softmax 训练的原因
还是那个建议,多学知识,别急着做些没有信息量的视频,搞个人 PR 。
|
 |
|
2
menc Mar 22, 2017
对 machine learning 和 deep learning ,不是一定公式越多越好,但是一个模型从头到尾讲完,一个公式都没有,我觉得还是有点问题的。
|
 |
|
5
qfdk Mar 23, 2017 via iPhone
|