中文短文本同音词识别一些陈旧参考文献锦集

【参考1】:汉语音字转换中同音字(词)的概率后处理 1992
1,该算法用字(词)相对于前后向拼音的条件概率代替常见的字(词)相对于前后向汉字的条件概率,极大地压缩了数据空间,提高了查找效率,使概率后处理的实时应用更趋于现实;

【参考2】:可分隔动词及其在拼音-汉字输入中同音词识别的应用 1992
2,可分隔动词及其在拼音-汉字输入中同音词识别的应用
例:睡觉 – 睡了觉,睡好觉,睡个觉,睡不着觉,睡过觉,睡过了觉
下棋 – 下了棋,下盘棋,下得了棋,下得好棋,下着棋
伸直 – 伸不直,伸得直,伸也伸不直
提高 – 提不高,提的高,提都提不高
那么其中这些,“着”、“了”、“过”、“过了” 都是一些<动><宾>的可分割动词。

【参考3】:统计语言模型及汉语音字转换的一些新结果 1992
3,音字转换由于汉字的多音字问题,显然要考虑上下文关系,一般而言,所给的上下文关系越多,音字正确转换的可能性就越大。现代汉语单字词的使用度约占一半,一般认仅在词级不可能取得满意的结果,而段落篇章又太大,因而多考虑句级上下文,即在一个句子或短语的范围内利用上下文约束来选择恰当的字或音。
从80年代起,就有两种成型的方法:1),基于最长词匹配,优点易于实现,缺点没有充分利用上下文约束,例,【参考4、5】;2),采用基于规则的句法语义分析,特点在有限领域是成功的,而对于开放域几乎是不可能的,这类系统一般速度慢,适应面窄,例,【参考6、7】
现在,基于统计方法建立的语言模型有可能更充分地利用上下文提供的约束。

【参考4】:普及型拼音-汉字变换系统设计 1990

【参考5】:多词组一次性拼音 1990[PDF]

【参考6】:汉语同音词汇的辨析

【参考7】:中文输入中语法分析技术的应用

【参考8】:歧义、系统歧义和语境 1993
自然语言理解分为真值理解和意义理解两方面。本文主要从计算机角度而不是从语言学角度来讨论歧义分析。
群众热爱人民的总理 — 追忆热爱人民的总理

【参考9】:基于2-Gram的索引存储模型设计 2007
最近做Solr项目用到的分词是自带的CJK分词采用的就是2-gram索引存储方式。普通的分词如庖丁解牛或计算所的分词方法虽然较好的解决了中文词的切分问题,但建立索引本身变的更加困难,系统维护难度高。2-gram索引既简单,存储效率高,又有较好的实用性:
1).2-Gram与字索引相比有较高的检索效率。字索引要表示每个字在文本中的不同位置, 索引如果不压缩的话, 比文本集要大得多。因此字索引通常采用数据压缩算法来保证空间利用率, 检索时再解压, 恢复数据后进行相关的计算。2-Gram只要表示一个词条在文本中的频度, 检索时进行文本号的匹配。由于2-Gram不必表示字在文本中的位置, 因而数据空间大大减少, 不采用压缩算法基本上可以保证空间利用率。
2).2-Gram可直接获得词条的频度。词条的频度是相关度的主要参数, 在这一点上2-Gram的效率比字索引要稍高一点。
3).与词索引相比, 2-Gram避免了词表维护, 因此也避免了未登录词处理、语法词表使用、语义表示、歧义处理等问题。这些技术目前尚不成熟, 也不实用。词表维护会给用户增加负担, 要进行歧义处理也会使系统迅速膨胀, 系统维护也会更加繁重。
利用B*树方法进行2-Gram的索引存储模型设计。(当然也有用Hash表来做索引结构的)

【参考10】相似字符串匹配过滤算法研究 2009[硕士论文] ★★★★★第4章介绍了中文过滤算法中的编辑距离算法
相似字符串匹配研究在信息检索领域有广泛应用,研究快速、准确、和低耗的算法对该方向有推动作用。本文采用的是q-Gram过滤算法快速抛弃文本中与匹配无关的文本片段,适合大库查找。
基于索引的相似字符串匹配算法虽然预处理文本会消耗一些时间,但索引一旦建立后,相似字符串匹配的速度要比无索引算法快很多。q-Gram索引是倒排索引的一种,具有占用内存空间小、缓存空间容易管理、索引建立简单等优点。
在中文相似字符串匹配方面,西方语言因分词容易经常以词为单位建立索引进行相似匹配,而中文因需要分词而难于处理。q-gram 索引以固定长度的字符序
列为索引项,不需要分词处理,适合处理中文。目前,快速、低耗的中文q-gram索引结构是众多学者研究的目标。
相似字符串匹配是给定一个长度为n的文本串T,一个相对较短的长为m的模式串P,在T中查找所有与P编辑距离不大于k的子串T’的过程。T, P由字符表∑中的字符组成,字符表大小为δ 。编辑距离指把一个串S1经过插入、修改或删除操作转变成串S2所要进行的最小操作次数,用ED(S1, S2)表示。
目前相似字符串匹配模式主要有两种:On-line模式和 Off-line模式。On-line模式的字符串匹配算法已被广泛研究,该模式下只允许对模式串P进行预
处理,而对T不能。Off-line 模式中,对T进行预处理并建立适当的索引结构来提高匹配速度是非常有效的。
Off-line 模式下主要有二类索引:基于词的索引和基于序列的索引。基于词的索引是以词为单位对文本T进行匹配的,常用于处理自然语言,尤其是西方语
言。基于序列的索引是以字符为单位进行匹配的,常用的索引结构主要有后缀树、后缀数组和倒排索引等。
倒排索引是对文本拆分得到的子串建立的倒排表,常用形式有q-gram和q-sample。
本文提出了一种中文Bigram二级哈希索引结构,该索引针对中文GB2312编码字符集,用哈希函数把字符集中所有汉字映射到一维连续的整数空间中,并采用二级索引结构存储每个Bigram项,该索引结构具有容错高、语言独立和不用停用词等优势。
过滤算法分为两个阶段:过滤阶段和验证阶段;

【参考11】汉字/字符串编辑距离和编辑路径的有效求解技术 1996
理论性的介绍了一下编辑距离。。。没怎么看明白

【参考12】允许错误的(汉字)字符串快速检索技术 1994
介绍了相似汉字字符串匹配算法

【参考13】语句拼音-汉字转换的智能处理机制分析 1998 宗成庆
语句拼音-汉字转换是中文信息处理研究的一个重要方面, 是键盘汉字输入和语音输入的核心技术, 其主要特征是对动态输入的拼音串进行词法分析, 给出所有可能的汉语句子, 然后对这些汉语句子根据上下文环境进行句法分析和语义分析, 动态调整句子中的字词, 输出最佳结果。
汉字不同于英文表音文字,汉字为表意文字。因为无论何种方式输入,显示在屏幕上的每个汉字都必须是汉字编码字符集中的一个单字。它可能是别字或冗余字,但不会是缺一点少一捺的错字。考虑动态规划和HMM算法。

【参考14】自然语言处理在信息检索中的应用综述 2007
在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为:自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。
基于词匹配的信息检索中存在着与自然语言特点相关的问题, 同样促使研究者们求助于自然语言处理:
·不同的词可以表达同一个意思
·同一个词可以表达多种意思
·对一个概念的描述可以有不同的角度
·同一个词在不同的领域也会有不同的意思
实际使用的信息检索系统例如Web搜索引擎中往往不采用去除停止词这一技术,因为它对于检索效果的提高并没有实质上的帮助,反而可能导致在处理一些查询时得不到好的结果。经典的例子就是“to be or not to be”这个查询。因此,在大多数实际检索系统中停止词也被作为索引项保留下来。

【参考15】问答式检索技术及评测研究综述 2005 赵军 ★★★★
问答系统——限定域问答系统
|—–基于常用提问集问答系统
|—–开放域问答系统——结构数据库问答系统
|—–自由文本问答系统
|—–网络问答系统
|—–固定语料库问答系统
|—–单文本问答系统

根据问答技术的技术特色, 我们把问答技术分为三大类: 基于信息检索和信息抽取的问答技术(IR+IE)、基于模式匹配的问答技术(IR+Pattern Matching)和基于自然语言处理的问答技术(IR+IE+NLP)。
基于信息检索和信息抽取的问答技术相对简单, 容易实现。但它以基于关键词的检索技术( 也可被称为词袋检索技术) 为重点, 只考虑离散的词, 不考虑词之间的关系。因此无法从句法关系和语义关系的角度解释系统给出的答案, 也无法回答需要推理的提问。
基于模式匹配的问答技术虽然对于某些类型提问( 如定义, 出生日期提问等) 有良好的性能, 但模板不能涵盖所有提问的答案模式, 也不能表达长距离和复杂关系的模式, 同样也无法实现推理。
基于自然语言处理的问答技术可以对提问和答案文本进行一定程度的句法和语义分析,从而实现推理。但目前自然语言处理技术还不成熟, 除一些浅层的技术( 命名实体识别, 汉语分词、词性标注等) 外, 其他技术还没有达到实用的程度。所以, 这种技术的作用非常有限, 只能作为对前两种方法有效的补充。
我们认为: 基于字符表层的文本分析技术( 例如, 模板技术) 必须和快速、浅层自然语言处理技术有效结合, 才能获得性能优良的问答系统。

【参考16】一种中文分词词典新机制_双字哈希机制 2003
基于词典的分词方法是以汉语词典为基础对中文语句通过匹配进行切分, 这种方法主要包括3种基本算法:正向最大匹配法、逆向最大匹配法、全切分法。
三种典型的分词词典机制:1).基于整词二分的分词词典机制; 2).基于TRIE索引树的分词词典机制; 3).基于逐字二分的分词词典机制.

【参考17】快速中文字符串模糊匹配算法 2004
可以看看这篇文章引用的参考文献

【参考18】中文信息检索系统的模糊匹配算法研究和实现 2007 ★★★★
在现代中文信息检索系统中,用户输入的字符串和实际数据库中的条目往往存在局部偏差, 而基于关键词匹配的检索技术不能很好地解决这一问题。本文参考并改进了Tarhio 和Ukkonen提出的过滤算法, 针对汉字拼音输入法中常出现的同音字/近音字混用现象,将算法进一步扩展到广义的Edit Distance 上。
相关的参考文献也不错。

【参考19】基于中文机构名简称的检索方法研究 2007 ★★
提出一种解决机构名缩写与全拼方案,制定了一种机构名简称规则。基于中文机构名简称的检索, 一般解决两方面的问题, 第一是机构名的简称和全称的匹配, 第二是检索效率。针对第一方面, 即是否是机构名或其简称的分类判别, 在分词领域和信息抽取领域的命名实体识别上, 已经有了广泛和深入的研究, 研究的主要内容是把机构名等未登录词识别出来并基于此实现一个较完美的分词系统, 为后续的中文信息检索等领域提供一种有效的处理途径; 但是针对中文机构名的全称和简称的匹配, 目前尚无研究。本文的研究重点就是解决机构名简称和全称的匹配问题。基本思路是: 我们会根据机构名全称和简称的匹配规则, 离线得到每个全称所有可能的简称; 在需要根据简称检索机构名全称时, 让待查简称和每个全称的所有可能简称以及全称本身分别匹配并计算其匹配得分, 将匹配得分最高的简称所对应的全称作为检索结果。这种检索流程符合人们使用简称的习惯, 能在机构名全称库中准确地找到最佳匹配结果。针对第二方面, 即检索效率, 本文引入一种多级索引机制, 以提高对大数据量的检索效率。本文采用的是基于多级索引的倒排表, 它实现了机构名对应字词、字词对应拼音和拼音对应序列号的三级索引。

【参考20】有关“理解和分词孰先孰后”的反思 2007
心理学角度,理解和分词不可分,是一个互动的过程;工程角度,理解和分词可分,一个数学问题如果加入理解语义问题会增加计算复杂度。“先分词还是先理解”只是一个技术问题, 而不是一个科学问题。人们常把“科学”与“技术”混为一谈, 其实两者之间有很大的区别。“科学”的终极目标是真理, 而技术更关心实用价值。

【参考21】基于短语模糊匹配和句子扩展的统计翻译方法 2009
介绍短语模糊匹配和句子扩展方法

【参考22】 基于向量距离的词序相似度算法 2009
提取公共简拼,利用词序向量进行相似度匹配

【参考23】

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>