nltk速成
import nltk
nltk.download()

from nltk.book import * #import text 1-9

text1.concordance() #查找
testi.similar() #可替代的词
testi.common_contexts() #相同的前后文
texti.dispersion_plot([“”,””]) #特定词位置
texti.generate() #自动生成,nltk 3.x版本不支持,需要2.0.1

len(texti) #字符串长度
set(texti) #字符串->类链表,获取词汇表种类,直接print出来,太多会崩溃
sorted(set(texti)) #获取所有的项目(包括标点),按照字母表排序
sorted(texti) #获取所有的元素,全部展现,即使重复
len(set(texti)) #共有多少种
from __future__ import division #浮点除法
len(text5)/len(set(text5)) #平均一个项目几次
texti.count() #某词汇出现了几次
#与text相同,senti也是一个已经定义好的变量
sent1.append()#链表的追加
”.join([‘a’,’b’])#链表->字符串
$string.split()#字符串->链表

FreqDist(texti)#各项目频率,字典,项目->次数
FreqDist(texti).keys()#转为从大到小的链表,all show,keys–键值
FreqDist(texti)[]#某项目出现的次数
FreqDist(texti).hapaxas()#彩蛋,只出现一次的项目

#长词
line32 = [i for i in set(text5) if len(i) > 15]
#select * from text5 where len()>15,行内遍历,生成一个数组,开头是u
sorted(line32)
#数组 链表,有排序,但是为什么每个元素开头是u?存疑
fd5 = FreqDisk(text5)
sorted([i for i in set(text5) if len(i) > 7 and fd5[i] > 7])
#注意这里的len()和fd5[],这是两个属性值,但表示方法却有所不同,很有趣

#搭配
bigrams([”, ”])#连词 没啥用
texti.collocations(texti)#固定搭配,怎么实现待学