natural language toolkit - QLGQ/learning-python GitHub Wiki

Brife Introduction

NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.
NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如 Python）的文法和解析的读者来说，理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。尽管 NLTK 附带了很多已经预处理（通常是手工地）到不同程度的全集，但是概念上每一层都是依赖于相邻的更低层次的处理。首先是断词；然后是为单词加上标签；然后将成组的单词解析为语法元素，比如名词短语或句子（取决于几种技术中的某一种，每种技术都有其优缺点）；最后对最终语句或其他语法单元进行分类。通过这些步骤，NLTK 让您可以生成关于不同元素出现情况的统计，并画出描述处理过程本身或统计合计结果的图表。

术语表

全集（Corpora）：相关文本的集合。例如，莎士比亚的作品可能被统称为一个文集（corpus）；而若干个作者的作品称为全集。
直方图（Histogram）：数据集中不同单词、字母或其他条目的出现频率的统计分布。
结构（Syntagmatic）：对语段的研究；也就是全集中字母、单词或短语连续出现的统计关系。
上下文无关语法（Context-free grammar）：由四类形式语法构成的 Noam Chomsky 层级中的第二类。参阅参考资料以获得详尽描述。

基本操作

断词
具体讲， nltk.tokenizer.Token 类被广泛地用于存储文本的有注解的片断；这些注解可以标记很多不同的特性，包括词类（parts-of-speech）、子标志（subtoken）结构、一个标志（token）在更大文本中的偏移位置、语形词干（morphological stems）、文法语句成分，等等。实际上，一个 Token 是一种特别的字典 —— 并且以字典形式访问 —— 所以它可以容纳任何您希望的键。在 NLTK 中使用了一些专门的键，不同的键由不同的子程序包所使用。

import nltk
sentence = """At eight o'clock on Thursday morning  Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens = ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
tagged = nltk.pos_tag(tokens)
tagged[0:6] = [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')]

natural language toolkit - QLGQ/learning-python GitHub Wiki

Brife Introduction

术语表

基本操作

References