Adsense

Donate

主页 arrow 更新一览
A blog of all sections with no images
Minidx文本抽取Com组件Extract-Text以及VB2005,VC2005 Demo(2008/02/10)
Sunday, 10 February 2008

这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以在一切可以调用Com组件的开发语言中调用这一组件,快速的抽取各种文本内容。VC2005工程Demo源代码从这里 下载,VB2005工程Demo源代码从这里 下载,该组件可以用于商业以及非商业的用途,下面是两篇VB,VC下调用的说明,有任何相关问题都可以在这里 提出,但本人不承担任何形式任何责任和义务。

 利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容VB下调用使用说明

 利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容VC下调用使用说明

leftleftleft

 
Minidx.RC1.1 released(2007/10/20)
Saturday, 20 October 2007

     -- 修正了打开原始文件时格式错误的bug(10.20)

                 点击这里 下载最新版 

 
Minidx的IFilter Com组件中的一个字符串处理函数
Thursday, 20 September 2007

声明:可任意转载,复制,修改,以及用于任何您所希望的目的而与作者无关。 

Minidx的IFilter Com组件中的一个字符串处理函数,过滤掉一些特殊字符,转为标准的ASCII字符

因为要处理包括欧洲以及阿拉伯等其他一些特殊字符,所以case比较多,有需要的自己选择性使用,:) 

Read more...
 
Minidx字典整理程序源代码发布
Sunday, 09 September 2007

 几千条数据排序并去除重复纪录可以有很多排序算法直接内存中操作,但是假如说有几百万条记录需要处理,那就不一定适用了。这个程序最初的目的为了解决Minidx字典中重复数据的问题,但是发现写文件时I/O限制比较明显,虽然可以解决问题,但是效果却不怎么样。发布这一源代码,当作MFC的入门Sample也好,Sqlite的使用例程也好,最差当作写程序的反面教材也好,总归有点用处。:),如果哪位达人可以使之更加高效,希望能够Mail我(丁志刚 This e-mail address is being protected from spam bots, you need JavaScript enabled to view it )

工程基于VS2005,MFC的Unicode模式下编译的,利用了Sqlite3.5.0,作了C++封装处理。写处理中开启了事务.

源代码点击这里下载  

 
重写了Minidx的分词模块,实现了超高速分词(2007/09/08)
Saturday, 08 September 2007

        Minidx原先采用的是单字分词,效率方面比较低,所以重写了Minidx的分词模块,实现了超高速分词以及相当的准确率效果,英文因为还没有对单词作处理,所以出来结果比较奇怪,中文和日文应该准确率还是挺高的。先来几张图片Show一下

中文分词日文分词英文分词

 
Qt中文参考文档
Saturday, 25 August 2007
Qt中文参考文档,好像没有全部翻译完成. >>>在线阅读
 
<< Start < Prev 1 2 3 4 5 Next > End >>

Results 1 - 11 of 46
© 2017 Minidx文件管理系统 | Minidx全文搜索引擎
Minidx! is a professional file management system.