nltkDictionaryResources - juedaiyuer/researchNote GitHub Wiki

词典资源

词典或者词典资源是一个词和/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。例如:如果我们定义了一个文本 my_text,然后 vocab = sorted(set(my_text))建立 my_text 的词汇表,同时 word_freq = FreqDist(my_text)计数文本中每个词的频率。vocab 和 word_freq都是简单的词汇资源。

词汇列表语料库

不常见，拼写错误的词汇

def unusual_words(text):
    text_vocab=set(w.lower() for w in text in w.isalpha())
    english_vocab=set(w.lower() for w in nltk.corpus.words.words()) 
    unusual=text_vocab.difference(english_vocab)
    return sorted(unusual)

>>>unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))

停用词语料库

所谓停用词就是指高频词汇，如the,a,and等等。有时候在进一步处理之前需要将他们过滤出去

>>> from nltk.corpus import stopwords
>>> stopwords=stopwords.words('english')
>>> stopwords
...