Skip to content

Latest commit

 

History

History
13 lines (10 loc) · 915 Bytes

File metadata and controls

13 lines (10 loc) · 915 Bytes

GolVe的损失函数?

解释GolVe的损失函数?

其实,一句话解释就是想构造一个向量表征方式,使得向量的点击和共现矩阵中的对应关系一致。因为共现矩阵中的对应关系证明了,存在i,k,j三个不同的文本,如果i和k相关,j和k相关,那么p(i,j)=p(j,k)近似于1,其他情况都过大和过小。

为什么GolVe会用的相对比W2V少?

  • GloVe算法本身使用了全局信息,自然内存费的也就多一些
    • 公现矩阵,NXN的,N为词袋量
  • W2V的工程实现结果相对来说支持的更多,比如most_similarty等功能

如何处理未出现词?

按照词性进行已知词替换,[unknow-n],[unknow-a],[unknow-v]...,然后再进行训练。实际去用的时候,判断词性后直接使用对应的unknown-?向量替代