自然语言处理spaCy

news2025/4/18 8:38:25

spaCy 是一个流行的开源 自然语言处理(NLP) 库,专注于 高效、易用和工业化应用。它由 Explosion AI 开发,广泛应用于文本处理、信息提取、机器翻译等领域。

zh_core_web_sm 是 spaCy 提供的一个小型中文预训练语言模型,适用于基本的(NLP)任务。以下是关于它的关键信息:

1. 模型特点

  • 小型(SM):模型体积较小,占用内存少,适合快速处理和轻量级应用。

  • 预训练:基于中文文本训练,包含词汇、句法和实体识别等基础能力。

  • 功能:支持分词(Word Segmentation)、词性标注(POS)、依存句法分析(Dependency Parsing)和命名实体识别(NER)等。

2. 主要用途

  • 文本分词和词性标注。

  • 识别实体(如人名、地名、组织机构等)。

  • 句法分析(需注意小型模型的精度可能较低)。

3. 安装与使用

  • 安装步骤

    1. 确保已安装 spaCypip install spacy

    2. 下载模型:

  • 到下面网址上下载对应的spacy版本的zh_core_web_sm 

  • https://github.com/explosion/spacy-models/releases?q=zh_core_web_sm&expanded=true

  • 下载到自己指定的路径下,命令行cd至该路径下,进行安装

  • pip install zh_core_web_sm-3.6.0-py3-none-any.whl

  • 示例代码

    import spacy
    import pytextrank
    from spacy import displacy
    # 加载模型
    nlp = spacy.load("zh_core_web_sm")
    
    # 处理文本
    text = "小明考上了中国传媒大学。他买了票,很快就要去北京了"
    #断句
    doc1=nlp(text.strip())
    sents=[sent.text.strip() for sent in doc1.sents]
    print(*sents,sep="\n")
    # 命名实体识别NER
    doc2 = nlp(text)
    ents=[(ent.text,ent.label_) for ent in doc2.ents]
    # ORG代表机构组织名,GPE代表地名
    print(*["\t".join(e) for e in ents],sep="\n")#中国传媒大学 ORG 北京	GPE
    #分词和词性标注
    words=[(token.text,token.pos_) for token in doc2]
    print(words)
    
    #依存句法分析
    sentid=1
    r=[]
    for token in doc2:
        rec=(sentid,token.i+1,token.text,token.pos_)
        if token.head.i==token.i:
            rec +=(0,None,None)
        else:
            rec +=(token.head.i+1,token.head.text,token.head.pos_)
        rec +=(token.dep_,)
        r.append(rec)
    print(f"句子:{text}\n 依存分析结果:")
    print("句子编号\t 词序\t 词\t 词性\t 支配词序\t 支配词\t 支配词性\t 依存关系")
    print(*["\t".join(map(str,e)) for e in sorted(r)],sep="\n")
    #依存关系图
    svg=displacy.render(doc2,style="dep")
    fout="sent.svg"
    with open(fout,"wt",encoding="utf-8") as fpw:
        fpw.write(svg)

4. 性能与限制

  • 优点:轻量、速度快,适合对精度要求不高的场景。

  • 缺点:相比更大的模型(如 zh_core_web_md/lg),准确率较低,尤其是对复杂句子或专业术语。

5. 替代模型

  • 若需要更高精度,可尝试:

    • zh_core_web_md:中等规模,含词向量。

    • zh_core_web_lg:大规模,精度更高但资源消耗大。

6. 注意事项

  • 需配合 spaCy 3.x 使用,版本不兼容可能导致错误。

  • 中文处理效果受训练数据影响,特定领域(如医学、法律)可能需要微调。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2335535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 开发工具:从 Eclipse 到 IntelliJ IDEA 的进化之路

Java 开发工具:从 Eclipse 到 IntelliJ IDEA 的进化之路 在 Java 开发的历史长河中,开发工具的演变不仅改变了程序员的编码方式,也深刻影响了整个行业的开发效率和代码质量。从 Eclipse 到 IntelliJ IDEA,这不仅是工具的更替&…

GPT - 2 文本生成任务全流程

数据集下载 数据预处理 import json import pandas as pdall_data []with open("part-00018.jsonl",encoding"utf-8") as f:for line in f.readlines():data json.loads(line)all_data.append(data["text"])batch_size 10000for i in ran…

红宝书第四十三讲:基于资料的数据可视化工具简单介绍:D3.js 与 Canvas绘图

红宝书第四十三讲:基于资料的数据可视化工具简单介绍:D3.js 与 Canvas绘图12 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、D3.js:数据驱动文档的王者 1 核心特性&#x…

深入理解 Vue 的数据代理机制

何为数据代理? 通过一个对象代理对另一个对象中的属性的操作(读/写),就是数据代理。 要搞懂Vue数据代理这个概念,那我们就要从Object.defineProperty()入手 Object.defineProperty()是Vue中比较底层的一个方法&…

Java excel导入/导出导致内存溢出问题,以及解决方案

excel导入/导出导致内存溢出问题,以及解决方案 1、内存溢出问题导入功能重新修正,采用SAX的流式解析数据。并结合业务流程。导出功能:由于精细化了业务流程,导致比较代码比较冗杂,就只放出最简单的案例。 1、内存溢出问…

10 个最新 CSS 功能已在所有主流浏览器中得到支持

前言 CSS 不断发展,新功能使我们的工作更快、更简洁、更强大。得益于最新的浏览器改进(Baseline 2024),许多新功能现在可在所有主要引擎上使用。以下是您可以立即开始使用的10 CSS新功能。 1. Scrollbar-Gutter 和 Scrollbar-Co…

思科模拟器的单臂路由,交换机,路由器,路由器只要两个端口的话,连接三台电脑该怎么办,划分VLAN,dotlq协议

单臂路由 1. 需求:让三台电脑互通 2. 在二层交换机划分vlan,并加入; 3. 将连接二层交换机和路由器的端口f0/4改为trunk模式 4. 路由器:进入连接路由器的f0/0端口将端口开启 5. 进入每个vlan设dotlq协议并设网络IP&#xff08…

14 nginx 的 dns 缓存的流程

前言 这个是 2020年11月 记录的这个关于 nginx 的 dns 缓存的问题 docker 环境下面 前端A连到后端B 前端B连到后端A 最近从草稿箱发布这个问题的时候, 重新看了一下 发现该问题的记录中仅仅是 定位到了 nginx 这边的 dns 缓存的问题, 但是 并没有到细节, 没有到 具体的 n种…

实战教程:使用JetBrians Rider快速部署与调试PS5和Xbox上的UE项目

面向主机游戏开发者的重大新闻!在2024.3版本中,JetBrains Rider 增加了对 PlayStation5 和 Xbox 游戏主机的支持,您可以直接在您喜欢的游戏主机上构建、部署和调试 Unreal Engine 和自定义游戏引擎。 JetBrains Rider现在支持主机游戏开发&am…

专题十五:动态路由——BGP

一、BGP的基本概念 BGP(Border Gateway Protocol,边界网关协议)是一种用于在不同自治系统(AS)之间交换路由信息的外部网关协议(EGP)。通过TCP179端口建立连接。目前采用BGP4版本,IP…

hive数仓要点总结

1.OLTP和OLAP区别 OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用…

git安装(windows)

通过网盘分享的文件:资料(1) 链接: https://pan.baidu.com/s/1MAenYzcQ436MlKbIYQidoQ 提取码: evu6 点击next 可修改安装路径 默认就行 一般从命令行调用,所以不用创建。 用vscode,所以这么选择。

微信小程序实战案例 - 餐馆点餐系统 阶段1 - 菜单浏览

阶段 1 – 菜单浏览(超详细版) 目标:完成「首页=菜品卡片列表」 打好 UI 地基会从 云数据库 拉取 categories / dishes 并渲染打 Git Tag v1.0‑menu 1. 技术/知识点速览 知识点关键词说明云数据库db.collection().where().…

Dashboard的安装和基本使用

1.Dashboard简介: Dashboard是Kubernetes的Web图形用户界面(GUI),它为用户提供了一个直观的方式来管理和监控Kubernetes集群。 2.实验基础和前置条件: 本实验以Kubernetes集群环境搭建与初始化-CSDN博客为基础和前置…

英语单词 list 11

前言 这一个 list 是一些简单的单词。感觉这个浏览单词的方法比较低效,所以准备每天最多看一个 list ,真要提升英语水平,感觉还是得直接做阅读理解题。就像我们接触中文阅读材料一样,当然光知道这个表面意思还不够,还…

通义灵码助力Neo4J开发:快速上手与智能编码技巧

在 Web 应用开发中,Neo4J 作为一种图数据库,用于存储节点及节点间的关系。当图结构复杂化时,关系型数据库的查找效率会显著降低,甚至无法有效查找,这时 Neo4J 的优势便凸显出来。然而,由于其独特的应用场景…

高性能文件上传服务

高性能文件上传服务 —— 您业务升级的不二选择 在当今互联网数据量激增、文件体积日益庞大的背景下,高效、稳定的文件上传方案显得尤为重要。我们的文件分块上传服务端采用业界领先的 Rust HTTP 框架 Hyperlane 开发,凭借其轻量级、低延时和高并发的特…

Java Lambda 表达式详解:发展史、语法、使用场景及代码示例

Java Lambda 表达式详解:发展史、语法、使用场景及代码示例 1. Lambda 表达式的发展史 背景与动机 JDK 7 前:Java的匿名内部类虽强大,但代码冗余(如事件监听器、集合遍历)。JDK 8(2014)&#…

【从0到1学Elasticsearch】Elasticsearch从入门到精通(下)

我们在【从0到1学Elasticsearch】Elasticsearch从入门到精通(上)这边文章详细讲解了如何创建索引库和文档及javaAPI操作,但是在实战当中,我们还需要根据一些特殊字段对文档进行查找搜索,仅仅靠id查找文档是显然不够的。…

Python实现贪吃蛇二

上篇文章Python实现贪吃蛇一,实现了一个贪吃蛇的基础版本,但存在一些不足,也缺乏一些乐趣。本篇文章将对其进行一些改进,主要修改/实现以下几点: 1、解决食物随机生成的位置与蛇身重合问题 2、蛇身移动加速/减速功能 3…