使用PaddlePaddle搭建卷积网络做文本数据分类

PaddlePaddle是百度开源的深度学习框架,采用和cafee类似的layer搭建的方式构建深度神经网络,当前也在试图发布fluid新版本提供算子级别的网络构建技能,最近有一个文本分类的需求,试着使用paddle进行了实验,对paddle的使用体验为: 文档不全,特别简陋 模型库比较好,即使不懂的用法,可以搜索代码查找用法; github的问题回复比较及时 感觉Paddle是在大力推广和发展的 … 继续阅读使用PaddlePaddle搭建卷积网络做文本数据分类

使用Kmeans对Word2vec的输出做聚类

Word2vec会产出每个词语的权重向量 使用这个向量,可以直接对所有的词语聚类 以下代码,以word2vec的model作为输入,进行kmeans训练,同时进行K的迭代计算,选出WSSSE最小的K值

这里使用的是mllib的库 算出来的K值和WSSSE的对应关系为:

继续阅读使用Kmeans对Word2vec的输出做聚类