算法如何应用,思路都在这

news2024/9/21 10:41:04

目录

01 问题定义

02 问题建模

03 特征工程

04 模型选择

05 模型融合


本文深入探讨了算法在不同领域的应用方法和背后的思考逻辑。作者夏师傅通过丰富的案例分析,揭示了算法如何助力产品决策、优化业务流程,并提供了实用的策略和技巧。无论您是技术专家还是对算法应用感兴趣的读者,本文都将为您提供全新的视角和启发,希望对你有所帮助。

算法如何应用,思路都在这© 由 人人都是产品经理 提供

专业成就职业大家好,我是策略产品夏师傅。

策略产品当中涉及到大量算法模型的应用,比如召回,排序策略的设计,除了规则逻辑之外,算法模型是很多体量比较大的业务必备的。所以有必要跟大家聊一下实际工作中,我们是如何利用算法模型来解决业务问题的。

了解这些也有助于大家熟知算法工程师的工作流程大概是什么样的,降低沟通成本。

算法模型解决业务问题整体上可以分为如下几步,接下来我将分别讲一下每一步具体做点什么。

算法如何应用,思路都在这

算法如何应用,思路都在这© 由 人人都是产品经理 提供

01 问题定义

不能为了上模型而使用模型。

所以首先,我们需要明确我们要解决的问题是什么?

问题可以是具体的用户需求,比如:用户希望看到自己感兴趣的商品排到前面;也可以是目前业务面临的问题,比如:目前平台GMV渗透率高的品类曝光流量不足,这些其实都是问题。但是对于使用算法模型来解决的话,关键点在于如何把这个问题变成算法模型能理解,能解决的问题。

因此这里面必然涉及到一个如何从感性的问题描述转变为一个可以让模型去理解和预测的问题。

这就到了第二个环节:问题建模。

02 问题建模

问题建模的关键其实就两个:业务指标定义和模型预测目标定义。

业务指标定义即根据当前业务核心场景去定义核心业务指标,这块涉及到一些数据指标体系搭建。

模型预测目标主要用于根据该目标去设定模型的收敛目标,也就是模型要预测什么,输出什么值。典型的比如ctr预估,实际上就是输出了ctr这个值。

在问题建模阶段,还有两个重要的事情:样本选择和交叉验证。

简言之,我们从原始数据(日志)当中选择跟当前模型预估指标相关的样本,然后把这些样本分为训练集和测试集,然后通过交叉验证的方法对模型进行训练和评估。

这块不得不提一下关于模型评估的指标。指标的分类有很多,最常见的其实就是准确率,召回率,AUC曲线等,包括常见的NDCG是对排序模型的衡量关键指标。

03 特征工程

完成了问题定义和问题建模,接下来就进入了很关键的特征工程,从大量的数据当中进行特征抽取,核心目的是为了将特征输入给模型,让模型从数据中学习规律。

关于如何做特征选择,再实际工作当中,最为关键的是下面两个方面:

算法如何应用,思路都在这© 由 人人都是产品经理 提供

第一点好理解,特征是为目标服务的,因此选择出来的特征必须能够表征目标;第二点的意思是这个特征要在不同的物品之间有相当明显的差异。比如销量,有的高,有的低;评价,有的是100%好评,有的是80%好评,这些都可以称之为特征。

但是,如果你们业务的基本上99%的物品好评率都在100%,那基本上这个特征就不用加了。

有差异才有区别,有区别才能作为一个决策的因素。

什么情况下我们需要进行特征选择?

训练数据包含许多冗余或无用的特征,移除这些特征并不会导致丢失信息。

其中冗余是指一个本身很有用的特征与另外一个有用的特征强相关,或它包含的信息能从其它特征推演出来;特征很多但样本相对较少,也就是某一个维度的信息数据量太少,覆盖度较低。

关于特征选择的4个步骤:

以下是模型特征选择的4个步骤,策略产品经理以了解为主:

  1. 产生过程:产生特征或特征子集候选集合;
  2. 评价函数:衡量特征或特征子集的重要性或者好坏程度,即量化特征变量和目标变量之间的联系以及特征之间的相互联系。为了避免过拟合,可用交叉验证的方式来评估特征的好坏;
  3. 停止准则:为了减少计算复杂度,需设定一个阈值,当评价函数值达到阈值后搜索停止;
  4. 验证过程:在验证数据集上验证选出来的特征子集的有效性。

04 模型选择

当我们把上面的事情确定之后,接下来就到了关键的模型选型的环节。大家都知道,具体的算法模型其实有很多种,不同的模型有很大差别,使用场景不同,能够处理的特征也有很大差异。

比如对于协同过滤,常见的usercf和itemcf两种,还有一些基于两个基本的协同过滤模型的变种,比如i2i,频繁二项集等。那我们就需要思考什么样的场景比较适合usercf,什么样的场景比较适合itemcf。

另外,虽然这些模型都能做到根据用户行为数据去进行个性化推荐的目标,但是具体的落地过程其实是大相径庭的。当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确地从数据中学习到相应规律,从众多模型中选择最佳的模型。

05 模型融合

正如上面说的,其实不同的模型有不同的应用场景,所以一般线上通常是含有多个模型,最大化利用每个模型的优势,进而达到目标收益最大化,而模型融合以后得结果其实就是线上最终展示出来的结果。

以上就是关于算法是如何解决业务问题的介绍,希望大家能够明白一点,不要为了用算法而用算法,也不要认为算法就一定能更好的解决问题,关键点不在这,而是基于业务的实际情况去决定到底使用算法还是规则,使用什么样的算法。

本文由人人都是产品经理作者【夏唬人】,微信公众号:【策略产品夏师傅】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024 年 Web 开发者必备的 30 款 CSS 工具

2024 年 Web 开发者必备的 30 款 CSS 工具 | 瑆箫博客 找到合适的 CSS 工具可能需要花费不少时间,但是这份 2024 年最棒的 30 款 CSS 工具清单,可以让你的选择变得轻松许多。无论你的 CSS 技能水平如何,这份清单都能提供调试、优化代码和提升…

Bazel 快速入门与核心知识

Bazel 快速入门与核心知识 Bazel 简介 Bazel 是一款与 Make、Maven 和 Gradle 类似的开源构建和测试工具。 它使用人类可读的高级构建语言。Bazel 支持多种语言的项目 (C/C, Java, Python, …),可为多个平台构建输出。Bazel 支持跨多个代码库和大量用户的大型代码…

2024怎么选蓝牙耳机性价比品牌?四款小白必看优选王炸机型推荐!

如今国人对蓝牙耳机的选择日益重视,蓝牙耳机作为智能的手机备件,普及率也是一升再升,但市面上很多品牌虽然宣传自己音质好和佩戴感舒适,其实性能不佳,那么2024怎么选蓝牙耳机性价比品牌?身为资深的蓝牙耳机…

复变函数在大模型中的应用

1. 导入 说来惭愧,我研究生时的研究方向是复分析,但毕业近十年来几乎没用到它。 我还记得实习时做自我介绍时,我说我的研究方向是复分析。面试官不太了解,我便解释说,这是关于对 -1 开平方得到的虚数 i 的研究。 在…

信号的捕捉

1.信号的产生 信号递达:实际执行信号的处理动作称为信号的递达 信号未决:信号从产生到递达之间的状态 进程可以阻塞某个信号 被阻塞的信号产生时将保持在未决状态,直到进程解除对此信号的阻塞,才执行递达的动作 注意,忽略和阻塞是不同的,只要信号阻塞就不会被递达,而忽略是递达…

【Apache Doris】数据均衡问题排查指南

原文阅读:【巨人肩膀社区博客分享】【Apache Doris】数据均衡问题排查指南 一、前提概要 当集群处于以下几种情况时,可参考本文进行问题排查。 •BE节点之间的数据不均 •单个BE节点上的多个磁盘之间的数据不均 •BE节点的上线和下线进度卡死&#…

《高等代数》两条线行列式

说明:此文章用于本人复习巩固,如果也能帮助到大家那就更加有意义了。 注:两条线行列式的固定做法为按照第一列展开。

Kafka分布式集群部署实战:跨越理论,直击生产环境部署难题与解决方案,性能调优、监控与管理策略大揭秘,轻松上手分布式消息中间件

本文介绍kafka的集群如何部署和安装,1-4章理论知识,第5章详解集群的部署,部署Kafka之前需要先部署好分布式的Zookeeper,不喜欢理论的可以直接看第5章,欢迎大家一起探讨技术! Zookeeper集群部署参考文章&…

VUE-组件间通信(三)全局事件总线

一、作用&#xff1a;任意组件间通信 二、实现 1、创建全局事件总线 new Vue({render: h > h(App),beforeCreate(){//创建全局事件总线Vue.prototype.$busthis} }).$mount(#app) 2、学生组件 触发事件 <template><div class"studentInfo"><h…

(备份)常用ASCII 8*8 点阵 以及查询显示字符的点阵

图片 #include "driver/spi_master.h" #include "driver/gpio.h" #include "freertos/FreeRTOS.h" #include "freertos/task.h" #include "string.h" #include "driver/i2c.h" #include "esp_rom_sys.h"…

【postman如何生成python代码】

postman如何生成python代码 https://jingyan.baidu.com/article/86fae3461577c27d48121ad1.html

【大模型系列篇】词向量 - 从Word2Vec到ELMo

&#x1f525;&#x1f525;&#x1f525;首先安利一个比较不错的忍不住就想一键三连的大模型科普: 大模型科普专栏 - AI老兵文哲&#xff08;哔哩哔哩&#xff09; 词向量&#xff08;又叫词嵌入&#xff09;已经成为NLP领域各种任务的必备一步&#xff0c;而且随着BERT、GPT等…

JS打造一款你自己的专用字体:使用p5.js与JavaScript实现

前言 在最近的生成艺术项目中遇到一个小问题&#xff1a;如何在作品中优雅地添加文本元素&#xff0c;同时避免使用网络字体&#xff0c;要么侵权要么花钱~~给项目增加不必要的负担&#xff0c;我决定不走寻常路&#xff0c;自己动手&#xff0c;丰衣足食&#xff0c;用JS打造…

C++11 新特性基础

前言 C11是继&#xff0c;C98/03之后的最大的一次更新&#xff0c;这次更新虽然花了很长的时间&#xff0c;但是真的推出了很多的干货&#xff01;本期内容开始我们将介绍C11常用的操作&#xff01; 目录 前言 一、C11介绍 二、统一的列表初始化 1、{}初始化 2、std::in…

【机器学习】循环神经网络(RNN)介绍

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 循环神经网络(RNN)介绍什么是RNN?RNN的基本原理递归神经网络单元前向传播反向传…

Ubuntu下安装和配置MQTT服务器Mosquitto

MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级的通信协议&#xff0c;设计用于物联网设备之间的低带宽、不稳定网络环境下的高效通信。MQTT允许设备通过发布&#xff08;publish&#xff09;和订阅&#xff08;subscribe&#xff09;模式进行消…

清华2024内地录取3500人,其中900多人是走这个政策进来的... ...

2024年&#xff0c; 清华大学共录取本科新生3800余人&#xff0c;其中内地学生3500余人&#xff0c;覆盖全国31个省份1000 多所生源中学;港澳台学生60余人&#xff0c;国际学生约230人。 大李露个脸 清华大学2024年新生数据 普通批提前批共录取1549人&#xff0c;占比44% 强基计…

火龙果检测-目标检测数据集(包括VOC格式、YOLO格式)

火龙果检测-目标检测数据集&#xff08;包括VOC格式、YOLO格式&#xff09; 数据集&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1NdRBsHnYCK9xZd7bzQoN5w?pwd779l 提取码&#xff1a;779l 数据集信息介绍&#xff1a; 共有 1106 张图像和一一对应的标注文件 标注…

macos OneNote 2016 for Mac 官方pkg下载地址 - macos 10.15 Catalion 可用Onenote版本官方下载地址

macos 10.15 Catalion 版本的系统已经无法正常从应用商店下载到可用的Onenote 应用,原因是版本不受支持, 而且onenote官方链接的应用商店地址https://apps.apple.com/us/app/microsoft-onenote/id784801555?mt12在中国地区也无法访问, 所以中国地区用户如果想使用onenote应用…

【云原生系列之SkyWalking的部署】

1、分布式链路追踪 1.1概念 在较大的web集群和微服务环境中&#xff0c;客户端的一次请求需要经过不同的模块&#xff0c;多个不同中间件&#xff0c;多个不同机器一起相互协作才能处理完成客户端的请求&#xff0c;而在这一系列的请求过程之中,处理流程可能是串行执行,也可能…