nltkDictionaryResources - juedaiyuer/researchNote GitHub Wiki
词典资源
词典或者词典资源是一个词和/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。例如:如果我们定义了一个文本 my_text,然后 vocab = sorted(set(my_text))建立 my_text 的词汇表,同时 word_freq = FreqDist(my_text)计数文本中每个词的频率。vocab 和 word_freq都是简单的词汇资源。
词汇列表语料库
不常见,拼写错误的词汇
def unusual_words(text):
text_vocab=set(w.lower() for w in text in w.isalpha())
english_vocab=set(w.lower() for w in nltk.corpus.words.words())
unusual=text_vocab.difference(english_vocab)
return sorted(unusual)
>>>unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))
停用词语料库
所谓停用词就是指高频词汇,如the,a,and等等。有时候在进一步处理之前需要将他们过滤出去
>>> from nltk.corpus import stopwords
>>> stopwords=stopwords.words('english')
>>> stopwords
...