课题目标 - NJU-NLP/IntelligentSearch GitHub Wiki
课题目标:
- 针对千万级专利文档进行快速搜索
- 支持基于关键词组合的常规结构性搜索
- 支持语义搜索
- 支持个性化搜索(opt)
- 支持自然语言查询(opt)
基于这样的目标,以及未来可能的分布式跨平台的需求,可以考虑Docker+ElasticSearch的方案。(当然,大家也可以提出其他方案)
以上述方案为例,一个稍微具体一些的任务大纲可以如下:
- docker环境搭建
- elasticsearch环境配置
- 源数据处理(过滤,分类,格式化等)
- 后台搜索API开发
- 中文处理支持(分词,纠错,全简拼搜索)
- 前端可视化界面(搜索界面,结果展示界面)
同时,时刻重视文档工作的必要性和重要性,任何阶段都应该提供详尽易懂可靠的文档(做了个什么,有什么基本功能,什么特别功能,详细搭建步骤,详细使用方法,需要特别说明的技术,目前还遗留的问题及可能的改进措施等)