书名：Getting Started with Python for the Internet of Things
作者名：Tim Cox Dr. Steven Lawrence Fernandes Sai Yamanoor Srihari Yamanoor Prof. Diwakar Vaish
本章字数：72字
更新时间：2025-02-18 10:15:24

How to do it...

Introduce sentence tokenization:

from nltk.tokenize import sent_tokenize

Form a new text tokenizer:

tokenize_list_sent = sent_tokenize(text)
print "nSentence tokenizer:" 
print tokenize_list_sent

Form a new word tokenizer:

from nltk.tokenize import word_tokenize 
print "nWord tokenizer:" 
print word_tokenize(text)

Introduce a new WordPunct tokenizer:

from nltk.tokenize import WordPunctTokenizer 
word_punct_tokenizer = WordPunctTokenizer() 
print "nWord punct tokenizer:" 
print word_punct_tokenizer.tokenize(text)

The result obtained by the tokenizer is shown here. It divides a sentence into word groups: