关于交叉验证(Cross Validation)

在pattern recognition 与machine learning 的相关研究中, 经常会将dataset分为training跟 test这两个subsets, 前者用以建立model, 后者则用来评估该model 对未知样本进行预测时的精确度, 正规的说法是generalization ability. 在往下叙述之前, 这边就必须点出一个极为重要的观念: 只有training data才可以用在model的训练过程中, test data则必须在model完成之后才被用来评估 model 优劣的依据.   怎么将完整的dataset分为training set与test set也是学问, 必须遵守两个要点:      1. training set中样本数量必须够多, 一般至少大于总样本数的50%.        2. 两组子集必须从完整集合中均匀取样.   其中第2点特别重要, 均匀取样的目的是希望减少training/test set与完整集合之间的偏差(bias), 但却也不易做到. 一般的作法是随机取样, 当样本数量足够时, 便可达到均匀取样的效果. … 继续阅读

最优化理论与KKT条件

1. 最优化理论(Optimization Theory) 最优化理论是研究函数在给定一组约束条件下的最小值(或者最大值)的数学问题. 一般而言, 一个最优化问题具有如下的基本形式: \[\min .:f({\bf{x}})\] \[\begin{array}{*{20}{c}} {{\rm{s}}{\rm{.t}}{\rm{.:}}} & {{g_i}({\bf{x}}) \le 0,i = 1,2,...,p,} \\ {} & {{h_j}({\bf{x}}) = 0,k = 1,2,...,q,} \\ {} & {{\bf{x}} \in \Omega \subset {{\bf{R}}^n}} \\ \end{array}\] 其中. \(f({\bf{x}})\)为目标函数, \({g_i}({\bf{x}}) \le 0,i = … 继续阅读

支持向量机导论3: 核函数特征空间

Chapter 3: 核函数特征空间(Kernel-Induced Feature Spaces) 现实世界复杂的应用需要有比线性函数更富有表达能力的假设空间. 核表示(Kernel representations)方法提供了一条解决途径, 即将数据映射到高维空间来增加线性学习器的计算能力. 线性学习器对偶空间的表达方式使得这个步骤的隐式操作成为可能. 本章的目的就是展示如何映射到高维空间使得线性分类更容易. 3.1 特征空间中的学习(Learning in Feature Space) 需要学习的目标函数的复杂程度取决于它的表示方式. 因此, 在机器学习中一个普通的预处理策略包括改变数据的表达形式: \({\bf{x}} = \left( {{x_1},…,{x_n}} \right) \to \phi \left( {\bf{x}} \right) = \left( {{\phi _1}({\bf{x}}),…,{\phi _N}({\bf{x}})} \right)\). 这个步骤等价于将输入空间\(X\)映射到一个新的空间, \(F = \left( {\phi … 继续阅读

支持向量机导论2: 线性学习器

Chapter 2: 线性学习器(Linear Learning Machines) 2.1 线性分类(Linear Classification) 两类问题函数可以写成: \(f({\bf{x}}) = \left\langle {{\bf{w}}\cdot{\bf{x}}} \right\rangle  + b = \sum\limits_{i = 1}^n {{w_i}{x_i}}  + b \). 这里\(\left( {{\bf{w}},b} \right) \in {{\rm{R}}^{\rm{n}}} \times {\rm{R}}\)是控制函数的参数, 决策规则由\({\mathop{\rm sgn}} (f({\bf{x}}))\)给出, 惯例, \({\mathop{\rm sgn}} (0) = 1\). … 继续阅读

WordPress模版调整主页宽度及取消主页文档全文显示

WordPress模版调整主页宽度及取消主页文档全文显示 1:调整主页边栏的宽度,要修改style.css文件中body{}中content和secondary的margin值及width值.   body {     padding: 0 2em;    }    #page {     margin: 2em auto;     max-width: 1000px;    }    #branding hgroup {     margin: 0 1.6%;    /* margin: 0 7.6%;   */      }    #access div {     margin: 0 1.6%;    /* margin: 0 7.6%;   */      }    #primary {     float: left; … 继续阅读

支持向量机导论1: 学习方法

中文名: [支持向量机导论] 英文名:[An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods] 中/英文版电子书下载连接: http://download.csdn.net/detail/jacoxu/4434131 本书作者Nello和John建立了SVM网站http://www.support-vector.net/ 提供在线的参考文献和一些软件的连接.  对于刚入门了解SVM的读者可先参看July整理的[支持向量机通俗导论(理解SVM的三层境界)] http://blog.csdn.net/v_july_v/article/details/7624837 .  SVM是在统计学习理论基础上发展起来的新一代学习算法. 是机器学习领域若干标准技术的集大成者. 它集成了最大间隔平面, Mercer核, 凸二次规划, 稀疏解和松弛变量等多项技术. SVM的理论体系涵盖了对偶表示(dual representations), 特征空间(feature spaces), 学习理论(learning theory), 优化理论(optimization theory)和算法(algorithms)等. 本书从学习方法到超平面, 核函数, 泛化性理论, 最优化理论, 最后到SVM. 循序渐渐, … 继续阅读

标记语言综述

注:大部分内容来自w3china.org论坛中ID: fangyuan0809整理的材料, 本人借鉴学习中.http://bbs.w3china.org/dispbbs.asp?boardID=80&ID=86627 摘要: 随着Internet的普及和延伸,标记语言(Markup  Language)得到了迅猛的发展。各种标记语言层出不穷,从SGML到现在互联网上最广泛使用的HTML和用于数据存储与交换、重要数据本身的XML,再到风行一时,用于从HTML到XML标准过渡的XHTML。2000年语义网七层体系结构模型的提出,对标记语言的发展更起到了积极的推动作用。一系列网络本体语言,如RDF(S),XOL、SHOE、DAML+OIL以及OWL的研究得到了显著的进步。鉴于W3C将Semantic Web Services作为未来工作的重点,该文简单介绍了基于语义Web服务的WSDL、RuleML、OWRule+、OWL-S等标记语言。 关键字:标记语言;语义Web;SGML;HTML;XML;OWL   引言 万维网之父蒂姆·伯纳斯·李(Tim Berners-Lee)将万维网的演变分为两个阶段。第一个阶段,万维网应该是一个有利于人们合作的强大工具;第二个阶段,则是蒂姆·伯纳斯·李所定义的语义网阶段。随着Web的发展,用户及开发人员对网络的易用性、友好性提出了更高的要求。目前万维网使用广泛的HTML受制于自身的局限性,越来越不能满足用户需要,加之XHTML2.0计划宣告结束,幸而HTML5给了人们新的希望,HTML5的目标就是要使Web从单纯的内容展示转变成为应用开发平台。另一方面,Web发展的未来是语义的。在这样的语义网中,信息都被赋予了明确的含义,机器能够自动地处理和集成网上可用的信息。语义网使用XML来定义定制的标签格式以及用RDF的灵活性来表达数据,用一种Ontology的网络语言(比如OWL)来描述网络文档中的术语的明确含义和它们之间的关系。各种表示语义的语言得到了着重研究。从RDF(S),DAML+OIL到OWL,从基于语义网服务的OWL-S、 WSDL、SWRL、RuleML、OWRule+等标记语言。  1  标记语言历史 标记语言(Markup Language),也称置标语言,是一种将文本(Text)以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的计算机文字编码。标记只是描述文档的结构和内容(这正是当初提出标记的本意),是在信息文档添加的一种元数据(描述信息的信息),主要包括人们熟知的标签、引用及注释等。标记语言是在文档中添加标记时所采用的规则的集合。标记语言仅表示信息,不参与运算与操作。 “标记(markup)”这个词最早用于出版业,也就是在原稿的边缘加注一些符号来指示打印上的要求。 长久以来,这个工作都是由专门的人(“markup men” )以及校对人来进行,对原稿标志出使用什么样的字体,字型以及字号,然后再将原稿交给其他人进行手工的排版工作。 早在60 年代, 出现了使用描述性标签的描述编码来描述电子文档格式, 其中最具代表性的是IBM 公司发明的GML (Generalized Markup Language, 通用标记语言)。1980 年,ANSI(American National Standards Institute)的CLPT 委员会和GCA和GenCode 委员会在GML 的基础上制定了SGML的草案。1986 年, SGML … 继续阅读