nerpw - juedaiyuer/researchNote GitHub Wiki

命名实体识别讨论

什么是命名实体识别

命名实体识别是将文本中的元素分成预先定义的类,如人名、地名、机构名、时间、货币等等。作为自然语言的承载信息单位,命名实体识别属于文本信息处理的基础的研究领域,是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。

实体预先定义

传统的ner任务主要是对七大类的识别,现在比较难识别的是机构名称。加上迁移学习和强化学习来对未定义进行定义或扩充

类别有很多,但是细分不细分肯定要按照不同的task来分

slot filling 算是广义的ner

ner的限定,

bootrap种子迭代

种子集,好的语料

lecun大神对CNN情有独钟

ner的应用场景

丛文本中抽取entity

句法分析

标注语料

以前做ner主要是最大熵马尔可夫或者CRF,现在应该都和DL结合

CRF

需要前后标记的依赖,某些集上单独blstm都比不过CRF

最好的模型是BiLSTM+CNN+CRF?

融入词典特征

最新的 gated cnn

GCNN和DBLSTM差不多

先做word2vec可以提供一定的泛化能力,glove,fasttext需要带label

ner可以识别汽车品牌

position embedding一般是在关系抽取中比较重要

word2vec的结果的基础上做聚类,相近的词距离比较近

在杨立昆大神的带领下,facebook就做cnn了

MSRA的一个ner数据是最难做的开放ner任务

stanford nlp工具效果不错

ccks有ner的任务?ccks知识图谱大会

stanford的工具里面加入了CRF和LSTM?

结合kb

blstm+cnn+crf+lexical特征

NLP五个问题 李航 为知笔记

韩家玮 任翔基于数据挖掘方法做的效果不错?

2016 Lifu Huang Building a Fine Grained Entity Typing System Overnight for a New X(X=Language,Domain,Genre)

almost from scratch

人工标注,猪八戒网之类的众包,直接用公开的语料库

亚马逊的数据标注平台,百度众包平台

CV领域的常用数据集和论文里声称的性能排名