其实,一句话解释就是想构造一个向量表征方式,使得向量的点击和共现矩阵中的对应关系一致。因为共现矩阵中的对应关系证明了,存在i,k,j三个不同的文本,如果i和k相关,j和k相关,那么p(i,j)=p(j,k)近似于1,其他情况都过大和过小。
- GloVe算法本身使用了全局信息,自然内存费的也就多一些
- 公现矩阵,NXN的,N为词袋量
- W2V的工程实现结果相对来说支持的更多,比如most_similarty等功能
按照词性进行已知词替换,[unknow-n],[unknow-a],[unknow-v]...,然后再进行训练。实际去用的时候,判断词性后直接使用对应的unknown-?向量替代