MultiClass SVM尝试分类的问题

最近拿到一些数据, 是从Image中提取出来的训练数据和测试样本, 训练数据共有120W左右的训练样本, 1K维特征, 1K个类别. 4G的数据量分成了11个子文件按类别进行顺序存储(注: 不是随即采样存储, 这也给后面的训练带来了麻烦). 然后尝试进行Linear SVM训练, 或者说只是做一个测试, 因为直观上来讲如此多类别进行传统分类器效果肯定不好. 这里还是把测试中遇到的一些问题都记录下来, 做为后期尝试改进的一个起点吧:-). 然后就开始测试的第一步, 考虑如此高维特征, 那么把线性超平面\(f({\bf{x}}) = {\bf{w}} \cdot {\bf{x}} + b\)中的\(b\)去掉也不会对结果有大的影响, 而且带L2损失的目标函数在求取梯度和Hessian矩阵时会简化很多. \[\begin{array}{l} \nabla {\rm{ = }}\left[ {\begin{array}{*{20}{c}} {\frac{{df}}{{d{\bf{w}}}}}\\ {\frac{{df}}{{db}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {2{\bf{w}} + 2C\sum\limits_{i … 继续阅读