5. 文本分字、词、句
参考文章: https://mp.weixin.qq.com/s/MLmi-Yoi9sez8-5DPtcBVw
官方文档(构造参数): https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter/Segmenter
官方文档(使用): https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter
地域参考(每个语言的Subtag): https://www.iana.org/assignments/language-subtag-registry/language-subtag-registry
分句
//第一个参数是文本语言 第二个参数
const segmenter = new Intl.Segmenter(
'zh', { granularity: 'sentence' }
);
Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)
分词
//第一个参数是文本语言 第二个参数
const segmenter = new Intl.Segmenter(
'zh', { granularity: 'word' }
);
Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)
分字
//第一个参数是文本语言 第二个参数
const segmenter = new Intl.Segmenter('zh');
Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)