Adsense

Donate


主页
搜索引擎模块的问题
 今天一整天都在弄搜索引擎模块,主要的问题还是在分词模块,数字,英文单词,中文汉字要区分开,因为内部编码全部都已经转成了UTF8,所以中文汉字与日 文的字符处理方式是一样的,希望能够在有字典与没有字典文件的模式下都可以正常索引。看了一些开源的分词代码,不过大多针对性太强,不适合多种语言尤其是 中日韩等同时出现的场合,并且对字典的依赖性太强,所以还是决定在自己的分词模块上下功夫,解决了这个问题,应该就可以集成到Minidx系统中了。
 
< Prev   Next >
© 2017 Minidx文件管理系统 | Minidx全文搜索引擎
Minidx! is a professional file management system.