nerpw - juedaiyuer/researchNote GitHub Wiki
命名实体识别讨论
什么是命名实体识别
命名实体识别是将文本中的元素分成预先定义的类,如人名、地名、机构名、时间、货币等等。作为自然语言的承载信息单位,命名实体识别属于文本信息处理的基础的研究领域,是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。
实体预先定义
传统的ner任务主要是对七大类的识别,现在比较难识别的是机构名称。加上迁移学习和强化学习来对未定义进行定义或扩充
类别有很多,但是细分不细分肯定要按照不同的task来分
slot filling 算是广义的ner
ner的限定,
bootrap种子迭代
种子集,好的语料
lecun大神对CNN情有独钟
ner的应用场景
丛文本中抽取entity
句法分析
标注语料
以前做ner主要是最大熵马尔可夫或者CRF,现在应该都和DL结合
CRF
需要前后标记的依赖,某些集上单独blstm都比不过CRF
最好的模型是BiLSTM+CNN+CRF?
融入词典特征
最新的 gated cnn
GCNN和DBLSTM差不多
先做word2vec可以提供一定的泛化能力,glove,fasttext需要带label
ner可以识别汽车品牌
position embedding一般是在关系抽取中比较重要
word2vec的结果的基础上做聚类,相近的词距离比较近
在杨立昆大神的带领下,facebook就做cnn了
MSRA的一个ner数据是最难做的开放ner任务
stanford nlp工具效果不错
ccks有ner的任务?ccks知识图谱大会
stanford的工具里面加入了CRF和LSTM?
结合kb
blstm+cnn+crf+lexical特征
NLP五个问题 李航 为知笔记
韩家玮 任翔基于数据挖掘方法做的效果不错?
2016 Lifu Huang Building a Fine Grained Entity Typing System Overnight for a New X(X=Language,Domain,Genre)
almost from scratch
人工标注,猪八戒网之类的众包,直接用公开的语料库
亚马逊的数据标注平台,百度众包平台