nltkFromWebDiskText - juedaiyuer/researchNote GitHub Wiki

从网络和硬盘访问文本

电子书

编号 2554 的文本是《罪与罚》的英文翻译,我们可以如下方式访问它。

>>> from urllib import urlopen
>>> url = "http://www.gutenberg.org/files/2554/2554.txt"
>>> raw = urlopen(url).read()
>>> type(raw)
<type 'str'>
>>> len(raw)
1176896
>>> raw[:75]
'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

变量raw包含一个有176,831个字符的字符串。这是这本书原始的内容,包括很多我们不感兴趣的细节,如空格、换行符和空行。

请注意,文件中行尾的\r 和\n,这是 Python 用来显示特殊的回车和换行字符的方式(这个文件一定是在Windows 机器上创建的)

对于语言处理,我们要将字符串分解为词和标点符号,这一步被称为分词,它产生我们所熟悉的结构,一个词汇和标点符号的链表,该项操作注意下载punkt-punkt tokenizer models

⚠️ **GitHub.com Fallback** ⚠️