三个短文本数据集及其分类聚类基准

【本文相关数据和代码】参见[Github, https://github.com/jacoxu/STC2] @article{xu2017self, title={Self-Taught Convolutional Neural Networks for Short Text Clustering}, author={Xu, Jiaming and Xu, Bo and Wang, Peng and Zheng, Suncong and Tian, Guanhua and Zhao, Jun and Xu, Bo}, journal={Neural Networks}, doi = “http://dx.doi.org/10.1016/j.neunet.2016.12.008“, year={2017} } 三个数据集分别来自SearchSnippets, StackOverflow和Biomedical. SearchSnippets: … 继续阅读

K-Means聚类之Matlab

[转自]:http://blog.sciencenet.cn/blog-41996-450513.html –基本是对Matlab Help中的翻译 [参考]:Pluskid之漫谈 Clustering (1): k-means K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。 使用方法: Idx=kmeans(X,K) [Idx,C]=kmeans(X,K) [Idx,C,sumD]=kmeans(X,K) [Idx,C,sumD,D]=kmeans(X,K) […]=kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 各输入输出参数介绍: X N*P的数据矩阵 K 表示将X划分为几类,为整数 Idx N*1的向量,存储的是每个点的聚类标号 C K*P的矩阵,存储的是K个聚类质心位置 sumD 1*K的和向量,存储的是类间所有点与该类质心点距离之和 D N*K的矩阵,存储的是每个点与所有质心的距离 […]=kmeans(…,’Param1′,Val1,’Param2′,Val2,…) 这其中的参数Param1、Param2等,主要可以设置为如下: 1. ‘Distance’(距离测度) ‘sqEuclidean’ 欧式距离(默认时,采用此距离方式) ‘cityblock’ 绝度误差和,又称:L1 ‘cosine’ 针对向量 ‘correlation’ 针对有时序关系的值 ‘Hamming’ … 继续阅读