关于交叉验证(Cross Validation)

在pattern recognition 与machine learning 的相关研究中, 经常会将dataset分为training跟 test这两个subsets, 前者用以建立model, 后者则用来评估该model 对未知样本进行预测时的精确度, 正规的说法是generalization ability. 在往下叙述之前, 这边就必须点出一个极为重要的观念: 只有training data才可以用在model的训练过程中, test data则必须在model完成之后才被用来评估 model 优劣的依据.   怎么将完整的dataset分为training set与test set也是学问, 必须遵守两个要点:      1. training set中样本数量必须够多, 一般至少大于总样本数的50%.        2. 两组子集必须从完整集合中均匀取样.   其中第2点特别重要, 均匀取样的目的是希望减少training/test set与完整集合之间的偏差(bias), 但却也不易做到. 一般的作法是随机取样, 当样本数量足够时, 便可达到均匀取样的效果. … 继续阅读