当做语音&文本相关的技术时,经常会涉及到文本的分词实现。以下是对中文的文本简单实现。
一、单个中文句子的分词
import jieba
text_ = "我爱我的祖国!"
# 精确模式
seg_list = jieba.cut(text_, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))
# 全模式
seg_list = jieba.cut(text_, cut_all=True)
print("全模式: " + "/ ".join(seg_list))
# 搜索引擎模式
seg_list = jieba.cut_for_search(text_)
print("搜索引擎模式: " + "/ ".join(seg_list))
输出信息为:
精确模式: 我/ 爱/ 我/ 的/ 祖国/ !
全模式: 我/ 爱/ 我/ 的/ 祖国/ !
搜索引擎模式: 我/ 爱/ 我/ 的/ 祖国/ !
二、一段中文的分词
分词内容保存在 example.txt
路上只我一个人,背着手踱着。
这一片天地好像是我的;我也像超出了平常旳自己,到了另一世界里。
我爱热闹,也爱冷静;爱群居,也爱独处。
像今晚上,一个人在这苍茫旳月下,什么都可以想,什么都可以不想,便觉是个自由的人。
白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。
以下对中文锻炼进行分词。
import jieba
f=open("example.txt","r",encoding='utf-8') # 读取中文
str_lines = f.readlines()
text_list = []
idx = 0
for line in str_lines:
if len(line)>0:
idx += 1
text_ =line
print("{}) ------------------------".format(idx))
print("原句:",text_)
seg_list = jieba.cut(text_, cut_all=False)
print("分词精确模式: " + "/ ".join(seg_list))
输出信息:
1) ------------------------
原句: 路上只我一个人,背着手踱着。
分词精确模式: 路上/ 只/ 我/ 一个/ 人/ ,/ 背着手/ 踱/ 着/ 。/
2) ------------------------
原句: 这一片天地好像是我的;我也像超出了平常旳自己,到了另一世界里。
分词精确模式: 这/ 一片/ 天地/ 好像/ 是/ 我/ 的/ ;/ 我/ 也/ 像/ 超出/ 了/ 平常/ 旳/ 自己/ ,/ 到/ 了/ 另/ 一/ 世界/ 里/ 。/
3) ------------------------
原句: 我爱热闹,也爱冷静;爱群居,也爱独处。
分词精确模式: 我/ 爱/ 热闹/ ,/ 也/ 爱/ 冷静/ ;/ 爱/ 群居/ ,/ 也/ 爱/ 独处/ 。/
4) ------------------------
原句: 像今晚上,一个人在这苍茫旳月下,什么都可以想,什么都可以不想,便觉是个自由的人。
分词精确模式: 像/ 今晚/ 上/ ,/ 一个/ 人/ 在/ 这/ 苍茫/ 旳/ 月/ 下/ ,/ 什么/ 都/ 可以/ 想/ ,/ 什么/ 都/ 可以/ 不想/ ,/ 便觉/ 是/ 个/ 自由/ 的/ 人/ 。/
5) ------------------------
原句: 白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。
分词精确模式: 白天/ 里/ 一定/ 要/ 做/ 的/ 事/ ,/ 一定/ 要说/ 的话/ ,/ 现在/ 都/ 可/ 不理/ 。/ 这是/ 独处/ 的/ 妙处/ ,/ 我且/ 受用/ 这/ 无边/ 的/ 荷香/ 月色/ 好/ 了/ 。/
欢迎加入 TechLinkX AI微信群,技术交流。