场景:假设给你一篇文章。
目标:说白了,就是数学的分类。但是如何实现分类呢。下面将逐步一 一 分析与拆解。先把目标定好了和整体框架定好了。而不是只见树木而不见森林。
情感分类(好评、差评,中性)
整体框架:
中文分词:
常见的中文分词方法:
1、基于词典的方法:
- 正向最大匹配法:从左到右依次取词,与词典进行匹配,找到最长匹配的词。
- 逆向最大匹配法:从右到左依次取词,与词典进行匹配。
2、基于统计的方法:
- 隐马尔可夫模型(HMM):通过统计词与词之间的出现频率和上下文关系来进行分词。
- 条件随机场(CRF):考虑了更复杂的特征和上下文信息。
3、基于机器学习的方法:
- 支持向量机(SVM):将文本转化为特征向量,通过训练分类器来进行分词。
- NB模型、随机森林模型
4. 基于深度学习的分词方法(也更先进):近年来,深度学习在NLP领域取得了显著进展,基于深度学习的分词方法也逐渐成为研究热点。这些方法通过神经网络模型(如循环神经网络RNN、长短期记忆网络LSTM、Transformer等)学习汉字的上下文信息,进而实现分词。
- 神经网络方法:如循环神经网络(RNN)、长短时记忆网络(LSTM)、卷积神经网络(CNN)等,能够自动学习文本的特征和模式。