使用Kmeans对Word2vec的输出做聚类

Word2vec会产出每个词语的权重向量 使用这个向量,可以直接对所有的词语聚类 以下代码,以word2vec的model作为输入,进行kmeans训练,同时进行K的迭代计算,选出WSSSE最小的K值

这里使用的是mllib的库 算出来的K值和WSSSE的对应关系为:

继续阅读使用Kmeans对Word2vec的输出做聚类

Python中文转拼音代码(支持全拼和首字母缩写)

本文的代码,从https://github.com/cleverdeng/pinyin.py升级得来,针对原文的代码,做了以下升级:

代码很简单,直接读取了一个词典(字符和英文的映射),然后挨个替换中文中的拼音即可;

实例中main函数的代码输出结果 代码使用方法: … 继续阅读Python中文转拼音代码(支持全拼和首字母缩写)