java导入UTF-8词典第一行不匹配问题

做字符串匹配过程中要经常导入一些usrdict or stopdict,但是把文件转为utf-8格式,并且在java中以utf-8方式导入时都会出现词典第一行字符无法匹配的问题,但是debug变量,字符显示是完全一样的,那么问题出在那里?

把正常的dict和有问题的dict用UltraEdit打开:

然后利用UltraEdit用16进制看两个文件的不同,会发现有问题的dict文件表头多了一串二进制。

问题应该是出在从其他格式文件转向UTF-8时。所以最好是直接复制一份没问题的UTF-8文件然后导入词典。
不要太相信字符串显示

发表评论

电子邮件地址不会被公开。 必填项已用*标注