读书笔记//《数据科学工程实践》

news2024/11/18 1:33:10

出版时间:2021年11月
副标题:用户行为分析、A/B实验、SQLFlow
作者们是一线互联网企业的数据科学家、数据分析师和算法工程师,主要就职于滴滴、部分就职于腾讯、快手等。
点评:神仙下凡布道。感谢大佬们的分享。本书让我领略了大厂如何运用最新数据技术解决商业问题。有点小瑕疵就是,有部分章节的引用案例不是大厂实战,缺少说服力。

再次感叹,平台和机会多么重要啊!

文章目录

    • 一、数据科学是什么
    • 二、观测数据的分析技术
      • (一)如何分析用户的选择
      • (二)与时间相关的行为分析
      • (三)洞察用户长期价值:基于神经网络的LTV模型
      • (四)使用体系化分析方法进行场景挖掘
      • (五)行为规律的发现与挖掘
      • (六)对观测到的事件进行因果推断

一、数据科学是什么

数据科学包括三要素,商业理解是方向,量化模型是起点,数据技术是道路。

二、观测数据的分析技术

(一)如何分析用户的选择

场景:
家庭旅游时,选择哪种交通方式出行?自驾还是非自驾?飞机、火车、长途汽车、自驾?

DCM的功能:
用来分析”从有限互斥选项集中进行单项选择“的计量模型。选择结果=F(决策者,备选项集合,备选项属性)。

DCM的任务:
1.预测一组决策者的决策行为
2.决策者在做出决策时,衡量不同选项属性的影响
3.了解不同群体如何评价一个备选项的不同属性,以便通过精心设计的策略,修改对个体决策者有重要影响的选项的属性,以主动的方式去改变用户行为。

常用的DCM模型:
在这里插入图片描述

附IIA假设:选择两个备选项的概率之比与其他备选项的存在无关。这条假设一般很难达到。因此,NL比MNL更科学、严谨,应用更广。

python实现:

pip install statsmodels
pip install pylogit

from collections import OrderedDict #记录模型的声明specification
import scipy # Hausman卡方检验
import statsmodels.stats.outliers_influence import variance_inflation_factor #多重共线性检验。因LR是广义线性模型。

import statsmodels.api as sm # 引入逻辑回归
import pylogit

(二)与时间相关的行为分析

场景:

二手车定价(本章案例)。通过建模分析找到最优定价策略并实现自动化定价。
其他应用如用户留存分析、病人的治愈情况、 婚姻持续情况、产品出现故障的情况。

  • 问题
    价格越高存放时间越长,则仓储及维护成本越高。

  • 两个核心点
    1.求解在不同价格水平下,具备不同信息参数的二手车随时间连续变化的留存(未被出售)概率曲线,进而得出随时间推移车辆消耗的成本。
    2.基于毛利最大化原则寻找最优价格。

解决方案排除:
回归模型(如线性回归、决策树回归等)处理的是截面数据。模型输出结果是特定时间截面下的事件发生概率。有两个不足:1.它无法处理连续时间信息,即车辆留存概率与时间的关系。2.难以分析调价对出售概率的影响。

生存分析:
同时关注事件结果、事件发生时间。

  • 关键词:
    生存曲线、半衰期(中位生存时间)

python实现:

from lifelines import KaplanMeierFitter #引入生存分析包 KM生存曲线
from lifelines.statistics import logrank_test #引入生存分析包 logrank检验
from lifelines import NelsonAalenFitter #引入生存分析包 风险曲线
from lifelines import CoxPHFitter #引入生存分析包 Cox模型

(三)洞察用户长期价值:基于神经网络的LTV模型

LTV (lift time value)
用户长期价值,是基于用户行为的公司估值法。该方法有5大要素:用户获取、用户留存、用户下单、用户消费、边际利润。

行业应用:零售、金融服务、媒体、制药等。

特点:
1.长期性
2.变化性。初创公司,重视获客规模;稳定发展的公司,重视留存、用户平台价值。好的产品和运营策略,可以增强用户黏性,延长LTV。

LTV能解决的问题:
1.如何找出最优价值的用户?
2.企业怎么才能产生让用户长期喜爱和依赖的产品?
3.影响用户购买行为的因素有哪些?如何更好地满足不同用户的需求?
4.如何制定获客预算?

python实现:

pip install Keras

from sklearn.preprocessing import MinMaxScaler
from Keras.layers import Input,ConvID,Dropout,LSTM,TimeDistributed,Bidirectional,Dense
from Keras.models import model
from Keras.callbacks import EarlyStopping

(四)使用体系化分析方法进行场景挖掘

(待补充)

(五)行为规律的发现与挖掘

(待补充)

(六)对观测到的事件进行因果推断

(待补充)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/451769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小白也能看懂,解读数据中台

不同的企业对数据有不同的需求。企业数据应用不断更新迭代,企业的中台系统也需要不断变化。从数据处理与数据治理两个维度出发,可以设计一个解耦的数据中台体系架构。该数据中台体系架构具有一定的柔性,可按照企业应用需求进行组合&#xff0…

多语言(CurlPHPPHPsdkJAVAC#Python)调用阿里巴巴商品API接口

2月2日消息,《晚点LatePost》独家报道,阿里集团国内批发业务1688近期完成了一系列组织和业务调整。其中,原1688商贸发展中心和产地发展中心合并为1688商家发展中心,由原商贸发展中心总经理王强负责;1688新成立分销供应…

苹果天气应用专利获批,苹果Find My技术改变防丢技术走向

根据美国商标和专利局(USPTO)公示的清单,苹果近日获得了名为“用于管理天气信息的用户界面”专利,编号为 US 11630559 B2。 苹果在专利描述中表示,部分管理天气信息的技术复杂且效率低下,用户需要多次点击…

spring redis Sentinel 哨兵 原理

客户端选择 redis 常用的连接客户端 有三个 Jedis:是老牌的Redis的Java实现客户端,提供了比较全面的Redis命令的支持,Redisson:实现了分布式和可扩展的Java数据结构。Lettuce:高级Redis客户端,用于线程安…

el-table合计功能滚动条层级问题

问题描述 版本:2.15.13 el-table在使用合计功能及固定列功能的同时,由于固定列的结构是固定区域增加了div加上定位,用来盖住下面的内容。当使用了合计功能的时候滚动条的区域在el-table__body-wrapper会导致固定列区域下的滚动条被挡住&…

计算机网络三:运输层

一、运输层 1. 概述 运输层协议为运行在不同主机上的应用进程之间提供了逻辑通信功能,使得不同主机好像直接连在一起一样 运输层协议是在端系统中而不是在路由器中实现的。网络路由器仅作用于网络层分组(即数据报)的网络层字段,而不检查封装在该数据报…

微搭低代码学习之数据展示

低代码平台是一个快速发展的领域,未来有着广阔的发展前景。以下是一些低代码平台未来的发展方向: 1.人工智能和机器学习 随着人工智能和机器学习技术的不断发展,低代码平台将能够更好地利用这些技术来提高应用程序的智能化和自动化水平。例如…

APP渗透—绕过反代理、反证书检测

APP渗透—绕过反代理、反证书检测 1. 前言1.1. 无法获取数据包情况 2. 反代理2.1. 反代理情况2.1.1. 某牛牛反代理2.1.2. 某探反代理 2.2. 绕过反代理2.2.1. Proxifier设置2.2.1.1. 设置代理服务器2.2.1.2. 配置代理规则2.2.1.3. 检测状态 2.2.2. 抓包测试 2.3. 总结 3. 反证书…

用HTML+CSS简单的画一个支付宝页面(超详细)

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:老茶icon 🙊 ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎 📚系列专栏:Java全栈,计…

Pyqt实现合并PDF遇到的问题集合

1.exit code -1073740791报错 pycharm遇到如下报错: “Process finished with exit code -1073740791 (0xC0000409)” 就是遇到这种问题就不知道问题在哪里,有点摸不着头脑 解决措施: 1.点击导航栏“Run”后选择“Edit Configurations” …

Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用

Python是功能强大、免费、开源,实现面向对象的编程语言,在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能,这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以…

Keil使用 fromelf 生成bin文件

一、语法格式如下: fromelf [options] input_file [options] 选项如下,可以组合使用,两者之间用空格隔开: 二、在Keil中的使用过程 1、配置Output,生成可执行文件 aa即为可执行文件名,后缀为axf。…

十三、51单片机之EEPROM(I2C)

1、EEPROM简介 (1)存储设备类型:ROM、RAM、PROM(可编程ROM)、EPROM(可擦除ROM)、EEPROM(电可擦除ROM)。 (2)为什么需要EEPROM? 某些数据内容我们需要掉电不丢失且在程序运行中可以修改这些数据内容,这就需要用到EEPROM。 (3)EEPROM和flas…

家庭智能开关通断—Homekit智能

智能通断器,也叫开关模块,可以非常方便地接入家中原有开关、插座、灯具、电器的线路中,通过手机App或者语音即可控制电路通断,轻松实现原有家居设备的智能化改造。 随着智能家居概念的普及,越来越多的人想将自己的家改…

Rust之泛型、特性和生命期(一):基本概念

开发环境 Windows 10Rust 1.69.0 VS Code 1.77.3 项目工程 这里继续沿用上次工程rust-demo 泛型、特性和生命期 每种编程语言都有有效处理概念重复的工具。在Rust中,一个这样的工具就是泛型:具体类型或其他属性的抽象替身。我们可以表达泛型的行为或…

IMX6ULL_Pro网卡配置

(15条消息) 【IMX6ULL_Pro板卡学习】配置 VMware 使用双网卡_vmware配置双网卡_爱学习的小莲的博客-CSDN博客https://blog.csdn.net/qq_52201194/article/details/127474352?ops_request_misc%257B%2522request%255Fid%2522%253A%2522168223524716800182730924%2522%252C%2522…

Windows逆向安全(一)之基础知识(十一)

二维数组 二维数组初始化 int arr[3][4]{{1,2,3,4},{5,6,7,8},{9,10,11,12} };查看反汇编 7: int arr[3][4]{ 8: {1,2,3,4}, 0040D498 mov dword ptr [ebp-30h],1 0040D49F mov dword ptr [ebp-2Ch],2 0040D4A6 mov dword …

CentOS(linux)使用Docker安装nacos

1. 拉取nacos镜像 docker pull nacos/nacos-server:2.0.3 2. 创建所需文件夹(以安装在home目录下为例) 1) 创建conf文件夹 mkdir -p /home/nacos/conf a. 新增文件application.properties(或者不增加该文件,会使用默认的) 文件内容如下: # spring server.servlet.contextP…

不知道玩什么游戏的你看过来

推荐一:原神 《原神》游戏设定在一个名为“蒂瓦特”的奇幻世界。 被神选中的人,将被赐予“神之眼”,引导“元素之力”,成为“旅者”。 在旅途中,结识性格各异、才华横溢、能力各异的小伙伴。 我们将一起战胜强大的敌…

PyTorch实战2:彩色图片识别(CIFAR10)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍦 参考文章:365天深度学习训练营-第P2周:彩色图片识别🍖 原作者:K同学啊|接辅导、项目定制 目录 一、数据准备二、构建简单CNN网络⭐1. torch…