1 分词
1.1 设计原则
切分粒度大;非字典词少、单字字典词少;总体次数少。
1.2 基于词典匹配的分词
1.3 基于语法和规则的分词
目前处在试验阶段
1.4 基于统计的分词
1.5 技术难点
1.5.1 歧义识别
交集型歧义:AB | C or A | BC
组合型歧义:AB or A | B
交集型歧义更为常见,也相对更容易处理。
1.5.2 新词识别
2 词性标注
2.1 问题描述
这里实际是把词性当作状态,词当作观测序列,于是问题抽象成了由观测序列推状态,与 HMM 中的第二个基本问题有了很好的对应。事实上,HMM 也是解决词性标注的主要方法。