使用机器学习,通过文本分析,轻松实现原本复杂的情感分析

news2024/10/7 4:32:39

01、案例说明

本期分享案例是:文字分析-情感分析,内容是关于某部电影评论好坏的分析,使用大量的已知数据,通过监督学习的方法,可以对于未知的评论进行判断其为正面还是负面的评价。

对于数据分析,原来都是处理数值型的问题。直到最近才将数据分析的能力延伸到文本分析的领域之内。通过这个案例我们可以了解对于文字,也同样的可以利用一些聪明的方式,做成数值方式的表现而进行文字分析,如下图所示:

图片

02、数据资料

首先我们看到导入的数据,与之前所经历的数值数据是非常不同,基本在Text的属性里面,是非结构性的文字,其内容与长度都有所不同。这个部分RM是作为文本的方式来处理,也请特别注意,如果是使用EXCEL 等其他外部的数据导入,最好还是使用 Import Guru的功能,避免其辨识为其他种类的属性。

03、操作流程

Step1读入数据

导入数据之后,将目标值设定为情绪反应(Set Role),以及第三个算子(NominalToText)再一次确保其数据是文本而不是多项式的种类。

最主要的核心在第四个操作(Process Document)元之内,这是RM一个特殊的算子,其参数包括设定如何将令牌(Token)输出成为文字向量(Vector),打开其中我们可以看到有几个标准的操作。如下图所示:

图片

第一个算子(Tokenize)将文字首先转换为令牌,使用的方式是只要不是文字,就作为一个令牌,所以所有的空白/标点/特殊符号都会去除掉。

第二个算子(Transform Cases)将所有的英文字转为小写的字体,避免因为大小写而变成不同的令牌。

第三个算子(Filter Stopwords)是使用一个在RM中预先建立的字典,将所有没有意义的字词去除掉。

做完这些之后,其输出的形态变成一个超大的矩阵,如下图所示:

图片

其中一共有200个数据,但是属性却达到13418个属性。而其中的数值(小于1的数值)是其对应令牌在这个数据中的TF-IDF 的数值。

在这里我们就完成了最关键的步骤,也就是将文本的资料转换为实数的数值。通过这个方法,我们之前所学习的所有机器学习模型,都可以应用在这个巨大的矩阵之上。 

Step2 模型建立

有了这个了解,我们就可以用之前我们熟悉的交叉检验的算子对这个数据进行模型的建立。因为属性的庞大,通常我们会使用的是支持向量机(SVM),但是其原理和之前是完全相同的,包括对于精准度的验证,可以直接打开这个(Cross Validation)算子进行观察。

Step3: 测试数据

这个步骤(Create Document),我们自行在系统之内创建了一个测试的数据,然后通过使用这个模型来判断这个数据它的情绪反应为何种。但是请注意,这个所创建的测试数据它们的种类是文本而不是其他的任何一种数据。

第2个步骤是使用之前相同的文本处理的算子,对数据进行令牌建立和向量输出。但是特别注意,因为这个算子它并不能自行创建令牌,必须使用原来模型所使用的令牌,所以需要将在第一个步骤所产生的文本处理的算子,其wor端口必须直接相连,才能够确保这两个算子所使用的令牌是一致的,如下图所示:

图片

Step4: 模型使用

这个步骤就如我们之前所了解的一样,使用已经建立好的模型,对于未知的数据进行判断,并且将其结果输出。

04、结果说明

对于我们所建立的测试数据,系统的判断如下,对于结果其信心度有0.587。但是考量模型本身的精确度仅有63.5%+/-6.26%,再配合我们的信心程度很难确定的说这个判断是否准确,仅能作为参考。而如果细读文字的本身,事实上对于人脑也是一个较为难以立判好坏的数据,所以无法因此证明系统的无效性,如下图所示:

图片

对于电脑要发展到与人脑有类似的功能,仅仅使用这种简单的文档分析的方式,远远不能达到可接受的程度。事实上,这个已经是需要进入神经网络和自然语言处理的全新领域。但是简单的使用这种操作,仍然可以产生出很有趣的结果。

当然另外一个问题,就是对于中文的处理。这个案例里面使用的全部都是英文,其中的文档处理的(Process Document)算子,必须要重新调整使用我们在之前所提到的Jieba的Python程序码才有办法处理中文。相关的案例,如果有兴趣的话可以与我们联络,可以共同讨论。


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是数据分析领域中最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的企业级一站式数据科学平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署的全流程需求,同时支持数据和流数据的实时分析可视化,适用于从学术研究到企业级应用的广泛场景。

欲了解更多信息,欢迎关注公众号:Altair 澳汰尔

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1889627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

contrastive loss and triplet loss

contrastive loss 想要positive pair 的距离接近0 而triplet loss只需要postive pair的距离 和 negtaive pair 的距离相差m以上, postive pair的距离不一定为0, 所以条件更松驰, 为网络训练更友好一点 reference: https://www.youtube.com/watch?vBcF6FfZHDqA

图书管理系统(含登录验证码操作)

文章目录 登录需求分析登录界面注册功能:登录功能:忘记密码:验证码规则: 图书管理系统需求Book包Book类BookList类 IOperation包IOperation接口查找图书新增图书删除图书显示图书借阅图书归还图书退出系统 User包user类Users类adm…

【Java】如果让你设计一个分布式链路跟踪系统?你怎么做?

一、问题解析 分布式链路跟踪服务属于写多读少的服务,是我们线上排查问题的重要支撑。我经历过的一个系统,同时支持着多条业务线,实际用上的服务器有两百台左右,这种量级的系统想排查故障,难度可想而知。 因此&#…

大数据------JavaWeb------JSP(完整知识点汇总)

JSP 定义 JSP(Java Server Pages),即Java服务端页面。它是一种动态的网页技术,其中可以定义HTML、CSS、JS等静态内容,还可以定义Java代码的动态内容JSP HTML Java 说白了JSP就是一个页面,它既可以写HTML标…

昇思第8天

保存与加载 保存模型使用save_checkpoint接口,传入网络和指定的保存路径 要加载模型权重,需要先创建相同模型的实例,然后使用load_checkpoint和load_param_into_net方法加载参数。 使用静态图加速 AI编译框架分为两种运行模式&#xff0c…

红酒与建筑:品味历史与艺术的交汇

在时间的长河中,红酒与建筑都是人类智慧的结晶,它们各自承载着历史的厚重与艺术的韵味。当这两者交汇时,仿佛是一场穿越时空的对话,将我们带入一个既古老又现代、既深沉又温柔的世界。今天,就让我们一起走进这个奇妙的…

鸿翼FEX文件安全交换系统,打造安全高效的文件摆渡“绿色通道”

随着数字经济时代的到来,数据已成为最有价值的生产要素,是企业的重要资产之一。随着数据流动性的增强,数据安全问题也随之突显。尤其是政务、金融、医疗和制造业等关键领域组织和中大型企业,面临着如何在保障数据安全的同时&#…

Windows11 安装MySQL

MySQL下载官网 安装教程参考 选择Windows离线安装 典型安装

springboot大学生请假管理系统-计算机毕业设计源码17453

摘 要 从20年代开始,计算机疯狂的出现在人们的生活以及工作当中,成为人们生活、工作的好帮手,计算机深入到每家每户当中,网络办公,网络教学更是替换了传统手工记录管理的方式,使用计算机办公可以不必局限于…

3D模型如何在力控组态中打开?---模大狮模型网

在展览3D模型设计行业中,力控组态是一个关键的技术应用。通过适当的力控组态,可以实现模型的互动性和真实感,提升展览效果和用户体验。本文将探讨如何在力控组态中打开和应用3D模型,从而达到更加生动和引人入胜的展示效果。 一、了…

Linux文件与日志

目录 1. Linux 文件系统 1.1 inode号 1.2 EXT类型文件恢复 1.3 xfs类型文件备份和恢复 2. 日志分析 2.1 日志类型 2.2日志配置文件 2.3 日志分析的重要性 在Linux系统中,文件和日志是管理和维护系统运行所不可或缺的。理解它们的工作原理和如何有效地管理和…

民宿小程序开发,在线预订模式

一、开发背景 如今,随着互联网技术的快速发展,大众的生活消费都集中在了手机上,通过手机进行各种活动,同时也包括了预订酒店民宿,由此,民宿预约小程序出现在了大众的生活中。 二、民宿小程序特点 民宿小…

the problem when using langchain chat openai model and crewai same llm models

题意: when i am using langchain chat openai model and invoking method its working but when using in crewai same llm models it gives invalid api key 当你提到在使用 langchain 的 chatopenai 模型并调用方法时一切正常,但在 crewai 中使用相…

MySql Innodb 索引有哪些与详解

概述 对于MYSQL的INNODB存储引擎的索引,大家是不陌生的,都能想到是 B树结构,可以加速SQL查询。但对于B树索引,它到底“长”得什么样子,它具体如何由一个个字节构成的,这些的基础知识鲜有人深究。本篇文章从…

Python入门 2024/7/3

目录 for循环的基础语法 遍历字符串 练习:数一数有几个a range语句 三个语法 语法1 语法2 语法3 练习:有几个偶数 变量作用域 for循环的嵌套使用 打印九九乘法表 发工资案例 continue和break语句 函数的基础定义语法 函数声明 函数调用 …

数字化时代的新型共赢商业模式

在数字化时代的洪流中,一种名为“双轨订单协同增效模式”的新型商业架构正悄然兴起,它以别出心裁的理念和运作机制,在市场中开辟出了一片新天地。 一、模式概览 “双轨订单协同增效模式”根植于用户间的协同合作与订单流转优化。用户通过加入…

Ansys Maxwell 2024 R2更新介绍

Ansys Maxwell 2024 R2更新概览 具体更新介绍 01 Continuum Air [Beta] 02 New Power Electronics Solver 03 Combination of DC & AC Fields 04 More Features: More Capabilities…

视图库对接系列(GA-T 1400)四、视图库对接系列(本级)注册

视图库对接系列(本级)注册 在之前的步骤中,我们已经把项目大体的架构已经写出来了。那我们就来实现注册接口。 GA-T 1400中的步骤如下: 这里的话,我们实现的简单点, 我们不进去鉴权,也就是设备或平台找我们注册的话&…

在SpringBoot 3.0环境下创建一个SpringBoot 项目

一、环境配置 1.专业版的IDEA 版本号:尽量选择不要太老,不要太早 这里以2023.3.1为例。 官网:Download IntelliJ IDEA – The Leading Java and Kotlin IDE (jetbrains.com) 破解版:网上找资料哦!!&#…

【Python】基于动态规划和K聚类的彩色图片压缩算法

引言 当想要压缩一张彩色图像时,彩色图像通常由数百万个颜色值组成,每个颜色值都由红、绿、蓝三个分量组成。因此,如果我们直接对图像的每个像素进行编码,会导致非常大的数据量。为了减少数据量,我们可以尝试减少颜色…