大致是需要cluster一堆linkedin的英文职称..
目前是打算用google-news的pre-trained word2vec包。
然后我将职称分成了单词,筛去了stopwords。
用numpy做了个narray来存单词和单词之间的similarity。
然后KMeans cluster一下。
但是这样只是单词和单词之间的cluster,我该如何把单词和整个职称联系起来...
刚接触数据不久,很多东西不懂,求多多关照orz
大致是需要cluster一堆linkedin的英文职称..
目前是打算用google-news的pre-trained word2vec包。
然后我将职称分成了单词,筛去了stopwords。
用numpy做了个narray来存单词和单词之间的similarity。
然后KMeans cluster一下。
但是这样只是单词和单词之间的cluster,我该如何把单词和整个职称联系起来...
刚接触数据不久,很多东西不懂,求多多关照orz
于是我mean了一下。感觉结果还好?(((