下面有个老兄说的对,
一般是一个提取文档的东西,把纯文本txt提取出来,在查询
我们有一些工具,提取各种文件源,ppt,word,pdf,excel,等等
再放入index server
当然如果pdf太大,记得分几个section
其实初级搜索就3块。
爬数据
索引到服务器
从服务器查询
要做好了,
还有安全,分布式,扩展,调优等太多事情。
【 在 scma11 (iUI) 的大作中提到: 】
: 请指点一下
: 是和中文文本检索一样
: 还是用Lucene/sphinx么?
: ...................
--
FROM 59.108.24.*