web - luckystar1992/ERM GitHub Wiki

https://www.jiqizhixin.com/articles/2018-03-07-3

http://pan.baidu.com/s/1boGGzeR

https://www.jiqizhixin.com/articles/2017-10-07-3

https://github.com/luozhouyang

Paper #1 TagLM Semi-supervised sequence tagging with bidirectional language models 在大语料上通过无监督的方法训练出词向量和语言模型,然后将这两部分再作为具体的序列标注任务的初始化或是辅助特征。实验结果显示这种预训练的方式能够获取词的上下文信息表征并且不需要特殊的领域语料库,证明了预训练的有效性。

Paper #2 CoVe Learned in Translation: Contextualized Word Vectors 文章是在TagLM的基础上进行了更复杂建模和更泛化任务

Paper #3 MLEo Deep contextualized word representations 文章是在TagLM的基础上进行了更复杂建模和更泛化任务

使用预训练的bi-LM语言模型通过在大量语料上无监督训练获得单词的词向量表示并使用了bi-LM的最后一层输出作为额外的特征表示。使用了一个2层的双向RNN模型(TagLM)来进行有监督的序列标注训练。通过将LM的输出表示加在TagLM的不同层实验说明预训练的有效性。 结论是:预训练的加入确实有效,但是不同层之间的差别不大;bi-LM比单一的forward预训练结果要好;bi-LM的预训练是领域无关的。

个人想法:预训练确实有效,bi-LM的输出其实是具有context信息的表示,弥补了词向量的单一表示情况。至于领域无关,bi-LM学到的特征大部分是句法层面的 由于只是做了sequence tagging任务,所以这个领域无关的结论