Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

不同语料库训练的词向量是否可以通用? #144

Open
Xiaqiannbu opened this issue Jun 29, 2021 · 9 comments
Open

不同语料库训练的词向量是否可以通用? #144

Xiaqiannbu opened this issue Jun 29, 2021 · 9 comments

Comments

@Xiaqiannbu
Copy link

如果可以通用,则这个词向量语料库没有的可以去别的词向量语料库找。不过不可以通用则不行。

@Xiaqiannbu
Copy link
Author

稀疏词向量应该不可以,密集词向量不知道可不可以?

@Xiaqiannbu
Copy link
Author

以及同一语料库的词、词+ n-gram、词+字等等是否可以通用?

@shenshen-hungry
Copy link
Collaborator

同一个文件里面的向量是同一次训练的结果,不同文件是不同的训练结果,因此不同文件不建议混合使用,最好单独使用。

@Xiaqiannbu
Copy link
Author

Xiaqiannbu commented Jun 29, 2021 via email

@shenshen-hungry
Copy link
Collaborator

在训练的时候一开始需要对向量随机初始化,这样会导致不同的训练开始的位置不一样。相同语料下每次训练后的结果可以看作是同构的,但是数字肯定不一样,所以没法合起来用。对于不同语料下的训练,即不开始于同一个起点,同时也不同构,所以更没法一起用。

@Xiaqiannbu
Copy link
Author

Xiaqiannbu commented Jun 29, 2021 via email

@Xiaqiannbu
Copy link
Author

Xiaqiannbu commented Jul 1, 2021 via email

@BeHappyForMe
Copy link

我现在想用您的词向量来求两个句子的相似度,计划用gensim加载词向量,然后用gensim内置的WMD的函数wmdistance计算。但是第一步需要加载,我看到有gensim.models.Word2Vec.load函数直接加载,但是不知道应该以怎样的格式把数据喂给它。我用gensim.models.Word2Vec.save保存后打开是乱码。gensim手册(https://radimrehurek.com/gensim/models/word2vec.html )里没有说该以怎样的方式喂数据。我担心无法用gensim加载您训练的词向量,如果怎样就没法使用gensim的功能了。

问一下,同学有找到用gensim加载的方式了吗,同求

@BeHappyForMe
Copy link

BeHappyForMe commented Aug 9, 2021

我现在想用您的词向量来求两个句子的相似度,计划用gensim加载词向量,然后用gensim内置的WMD的函数wmdistance计算。但是第一步需要加载,我看到有gensim.models.Word2Vec.load函数直接加载,但是不知道应该以怎样的格式把数据喂给它。我用gensim.models.Word2Vec.save保存后打开是乱码。gensim手册(https://radimrehurek.com/gensim/models/word2vec.html )里没有说该以怎样的方式喂数据。我担心无法用gensim加载您训练的词向量,如果怎样就没法使用gensim的功能了。

model = models.KeyedVectors.load_word2vec_format('./sgns.weibo.bigram-char.bz2', );
这样可以加载

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants