成为AI产品经理——模型构建过程(上)

news2024/9/23 9:33:50

目录

一、背景

1.对内

2.对外

二、模型构建过程 

1.模型设计

2.特征工程

① 数据清洗

② 特征提取

数值型数据

标签/描述类数据特征

非结构化数据(处理文本特征)

网络关系型数据 

③ 特征选择 

④ 训练集/测试集


一、背景

虽然产品经理不需要参与到模型构建工作中,但是我们需要对模型构建过程有一定的了解,有点两点好处:

1.对内

配合算法同学进行数据收集、模型训练、参数调优,及时跟进项目优化,应对突发状况。

2.对外

如果模型训练过程中出现问题,我们能够使用非技术性的话语向业务方解释,帮算法同学争取更多的时间。

二、模型构建过程 

 模型构建主要包括以下五个部分:

模型设计、特征工程、模型训练、模型验证、模型融合、模型部署,接下来我们对于以下概念依次讲解。

1.模型设计

模型设计时我们需要确认以下几个问题:

① 有没有必要建立这个模型?

② 我们当前的技术和资源能不能做这个模型?(数据源够不够、样本怎么获取、目标变量怎么设定)

③ 我们需要达到怎么样的预期结果?

 不同的需求决定了模型的应用场景,决定了它能够达到的业务预期。

2.特征工程

特征工程的概念是:将其他类型的数据转化成数量化信息以供模型训练。

特征工程是模型构建过程中耗时最长的一项工作,为什么特征工程耗时最长呢?

我们知道模型训练就是从数据中提取特征,然后根据特征使用算法来建立出对于未知数据进行预测的模型。算法逼近特征,而特征决定模型的上限。

特征工程里面又细分了其他工作模块:

数据清洗、特征提取、特征选择、训练集/测试集。

① 数据清洗

我们提供的数据并不是可以直接使用的数据,因为可能会存在异常数据、不均衡数据、数据残缺、量纲不一致等问题。

此时我们需要对残缺数据进行补全;对于干扰数据进行删除;对于异常数据进行标注;对于不均衡数据:丢弃较多的数据或者补充较少的数据;对于量纲(单位)不一致的数据进行归一化处理。

② 特征提取

特征提取通常有四种常见类型:数值型特征数据,标签或描述类数据,非结构化数据,网络关系型数据。

  • 数值型数据

包含大量数值特征的数据。使用数值数据时,我们需要分两部分:主体变量特征和度量维度特征。比如京东的浏览页面次数是主体特征数据,浏览时长和浏览次数排名就是其他度量维度特征。

  • 标签/描述类数据特征

有些特征没有大小关系,无法使用数值表示,我们称为标签/描述类数据。比如:好瓜、坏瓜。这种就是标签/描述类数据,我们可以将好瓜标记为[0,1],将坏瓜标记为[1,0]。

  • 非结构化数据(处理文本特征)

 非结构化数据通常出现在UGC(User Generated Content)用户生成内容。比如用户的评论信息。现在我们需要使用用户的评论信息进行特征提取,这里需要使用到自然语言处理的方法。比如:买了一箱,孩子很喜欢。我们筛选出“孩子”,就可以知道这是一位亲子用户。

简而言之,非结构化数据(文本特征数据),我们就是进行文本清洗和挖掘,挖掘出一定的用户特征。

  • 网络关系型数据 

网络关系型数据就是通过数据信息获得用户的社交关系。比如我们可以通过同一公司地址基本确定两者是同事关系。我们可以通过用户同一家庭地址基本确定两者的亲人关系。

通常来说:算法工程师可以通过通讯录、收货地址、位置信息、好友助力等信息确定用户的关系网络,这个关系网络中的信息就可以作为我们特征提取的参考。

③ 特征选择 

第一步:跟进特征覆盖率、IV指标(信息的价值量)进行筛选。

IV:判断哪些特征进入模型,这个特征重不重要就使用IV指标。IV值就是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。

第二步:根据业务需求设定阈值,筛选掉一部分数据。

第三步:根据特征的稳定性筛选数据。

IV指标详解:机器学习-变量筛选之IV值和WOE - 知乎 (zhihu.com)

④ 训练集/测试集

 做完以上的工作我们就开始划分训练集和测试集了,我们通常将样本60%数据作为训练集,20%作为验证集,剩余20%用于测试集,三者数据相互独立。

训练集用于训练模型,验证集用于对训练后的模型进行验证微调,测试集用于对训练和验证后的数据进行测试,评估模型是否达到业务指标。

在模型构建过程中,因为很多因素的不确定性,导致会出现很多计划外的工作,所以你需要充分的了解模型构建流程为算法同学争取更多的时间和资源。

参考文献:刘海丰——《成为AI产品经理》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1244537.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

飞翔的鸟游戏

一.准备工作 首先创建一个新的Java项目命名为“飞翔的鸟”,并在src中创建一个包命名为“com.qiku.bird",在这个包内分别创建4个类命名为“Bird”、“BirdGame”、“Column”、“Ground”,并向需要的图片素材导入到包内。 二.代码呈现 pa…

深入了解Java8新特性-日期时间API

阅读建议 嗨,伙计!刷到这篇文章咱们就是有缘人,在阅读这篇文章前我有一些建议: 本篇文章大概2000多字,预计阅读时间长需要3分钟。本篇文章的实战性、理论性较强,是一篇质量分数较高的技术干货文章&#x…

爬虫逆向你应该懂得Javascript知识

背景 大家在学习爬虫逆向的时候,一般都会涉及到对js源文件进行代码扣去,但是有的时候,你最好有js基础,能发现加密或者解密在那个位置,或者是能用python改写js代码,这就对个人的Javascript的能力有一定要求…

【考研数据结构代码题8】三元组表示的稀疏矩阵快速转置

题目:三元组表示的稀疏矩阵快速转置 考点:矩阵的压缩与存储 难度:★★★ 稀疏矩阵压缩存储 三元组结构 //三元组结构 typedef struct {int row;int col;int value; } Term; 核心代码 // 转置函数,a为原矩阵,b存放转…

【灌水】自动跑团机器人

实现一个自动COC跑团机器人 这几天玩博德之门3有点累了 #假如你有一台服务器,你最想做哪些事?# 这他妈是什么idea收集器,你们就是靠这个收集idea吗,那我就说一个绝对不赚钱的了。 简单实现了追书人的基本流程,最后…

iview table 默认排序字段不高亮解决办法

iview treeSelect 组件封装 1、表格增加排序时触发的方法2、定义三个变量,sortColumnDefaultStyle存放默认的样式,定义页面默认的列以及顺序3、显示的列加上 sortable, 和样式4、使用下面这块代表默认选中5、点击时清除掉默认的排序6、把排序的字段查询时…

TensorFlow实战教程(十九)-Keras搭建循环神经网络分类案例及RNN原理详解

从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了卷积神经网络CNN原理,并通过Keras编写CNN实现了MNIST分类学习案例。这篇文章将详细讲解循环神经网络RNN的原理知识,并采用Keras实现手写数字识别的RNN分类案例及可视化呈现。基础性文…

为什么说品牌低价不是一件好事

消费者货比三价为的是买到低价质优的产品,而网络电商平台的公开,也促进了消费者及品牌进行比价,那品牌低价一定就是好事吗,一定会拉高品牌销量吗。其实是不一定的,低价意味着成本的降低,也可能滋生很多产品…

matlab使用scatter函数画图时报错“数组索引必须为正整数或逻辑值”解决办法

一、背景 在使用matlab的scatter函数画图时报错“数组索引必须为正整数或逻辑值”。 scatter函数说明:scatter(x,y) 在向量 x 和 y 指定的位置创建一个包含圆形标记的散点图。 二、解决办法 如果使用scatter函数时报上述错误,尝试将连续函数先转换为函…

Adobe xd有免费版可以使用吗?

Adobexd现在收费了吗?Adobexd是收费的。Adobexd在中国提供个人版和团队版两项收费政策。个人版每月订阅60元,每年订阅688元;团队版每月订阅112元/用户,每年订阅1288元/用户。 虽然AdobeXD的免费计划已经下线,但Adobe仍…

基于动量的梯度下降

丹尼尔林肯 (Daniel Lincoln)在Unsplash上拍摄的照片 一、说明 基于动量的梯度下降是一种梯度下降优化算法变体,它在更新规则中添加了动量项。动量项计算为过去梯度的移动平均值,过去梯度的权重由称为 Beta 的超参数控制。 这有助于解决与普通梯度下降相…

virtualList 封装使用 虚拟列表 列表优化

虚拟列表 列表优化 virtualList 组件封装 virtualList 组件封装 本虚拟列表 要求一次性加载完所有数据 不适合分页 新建一个select.vue 组件页面 <template><div> <el-select transfer"true" :popper-append-to-body"true"popper-class…

Android修行手册-超出父布局进行显示以及超出父布局实现点击

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff0c;以及各种资源分…

ubuntu下docker环境使用GPU配置

本文主要讲述整个命令流程&#xff0c;具体讲解请看官网nvidia-容器工具包和一篇总结得很详细的博文docker使用GPU总结 docker的版本必须安装19.0版本以上的&#xff0c;这里也只讲19.0版本以上的使用方法 首先设置一下网络信息 curl -fsSL https://nvidia.github.io/libnvi…

批量插入SQL 错误 [933] [42000]: ORA-00933: SQL 命令未正确结束

使用DBeaver向【oracle数据库】插入大量数据 INSERT INTO Student(name,sex,age,address,birthday) VALUES(Nike,男,18,北京,2000-01-01) ,(Nike,男,18,北京,2000-01-01) ,(Nike,女,18,北京,2000-01-01) ,(Nike,女,18,北京,2000-01-01) ,(Nike,男,18,北京,2000-01-01) ,(Nike…

Visio学习笔记

1. 常用素材 1.1 立方体&#xff1a;张量, tensor 操作路径&#xff1a;更多形状 ⇒ 常规 ⇒ 基本形状 自动配色 在选择【填充】后Visio会自动进行配色&#xff1b;

我劝烂了,这东西大学生早用早解脱

大学生看我&#xff0c;这个东西太太太香了啊&#xff01;&#xff01;&#xff01; 要写论文&#xff0c;写总结的都给我用起来 这东西能自动写文章&#xff0c;想写几篇就写几篇&#xff0c;篇篇不重复&#xff01;只要输入一个标题&#xff0c;马上就能生成一篇。真的贼香…

2023-11-23 LeetCode每日一题(HTML 实体解析器)

2023-11-23每日一题 一、题目编号 1410. HTML 实体解析器二、题目链接 点击跳转到题目位置 三、题目描述 「HTML 实体解析器」 是一种特殊的解析器&#xff0c;它将 HTML 代码作为输入&#xff0c;并用字符本身替换掉所有这些特殊的字符实体。 HTML 里这些特殊字符和它们…

视频去水印软件有哪些?分享四款好用去水印软件

对于从事自媒体的朋友们来说&#xff0c;保护自己的视频作品免受盗用至关重要。为了标识归属&#xff0c;我们通常会在视频上添加水印。然而&#xff0c;当我们在寻找素材并打算进行剪辑时&#xff0c;发现素材上的水印会严重干扰使用。在这种情况下&#xff0c;我们需要采取一…