课题目标 - NJU-NLP/IntelligentSearch GitHub Wiki

课题目标:

  1. 针对千万级专利文档进行快速搜索
  2. 支持基于关键词组合的常规结构性搜索
  3. 支持语义搜索
  4. 支持个性化搜索(opt)
  5. 支持自然语言查询(opt)

基于这样的目标,以及未来可能的分布式跨平台的需求,可以考虑Docker+ElasticSearch的方案。(当然,大家也可以提出其他方案)

以上述方案为例,一个稍微具体一些的任务大纲可以如下:

  1. docker环境搭建
  2. elasticsearch环境配置
  3. 源数据处理(过滤,分类,格式化等)
  4. 后台搜索API开发
  5. 中文处理支持(分词,纠错,全简拼搜索)
  6. 前端可视化界面(搜索界面,结果展示界面)

同时,时刻重视文档工作的必要性和重要性,任何阶段都应该提供详尽易懂可靠的文档(做了个什么,有什么基本功能,什么特别功能,详细搭建步骤,详细使用方法,需要特别说明的技术,目前还遗留的问题及可能的改进措施等)