DeepCTR:易用可扩展的深度学习点击率预测算法包

news2024/10/5 12:34:06

这个项目主要是对目前的一些基于深度学习的点击率预测算法进行了实现,如PNN,WDL,DeepFM,MLR,DeepCross,AFM,NFM,DIN,DIEN,xDeepFM,AutoInt等,并且对外提供了一致的调用接口。 关于每种算法的介绍这里就不细说了,大家可以看论文,看知乎,看博客,讲的都很清楚。

DeepCTR的设计主要是面向那些对深度学习以及CTR预测算法感兴趣的同学,使他们可以利用这个包:

  1. 从一个统一视角来看待各个模型
  2. 快速地进行简单的对比实验
  3. 利用已有的组件快速构建新的模型

统一视角

DeepCTR通过对现有的基于深度学习的点击率预测模型的结构进行抽象总结,在设计过程中采用模块化的思路,各个模块自身具有高复用性,各个模块之间互相独立。 基于深度学习的点击率预测模型按模型内部组件的功能可以划分成以下4个模块:输入模块,嵌入模块,特征提取模块,预测输出模块。

快速实验

下面是一个简单的用DeepFM模型在criteo数据集上训练的的例子。

import pandas as pd
from sklearn.metrics import log_loss, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

from deepctr.models import DeepFM
from deepctr.feature_column import SparseFeat, DenseFeat, get_feature_names

if __name__ == "__main__":
    data = pd.read_csv('./criteo_sample.txt')

    sparse_features = ['C' + str(i) for i in range(1, 27)]
    dense_features = ['I' + str(i) for i in range(1, 14)]

    data[sparse_features] = data[sparse_features].fillna('-1', )
    data[dense_features] = data[dense_features].fillna(0, )
    target = ['label']

    # 1.Label Encoding for sparse features,and do simple Transformation for dense features
    for feat in sparse_features:
        lbe = LabelEncoder()
        data[feat] = lbe.fit_transform(data[feat])
    mms = MinMaxScaler(feature_range=(0, 1))
    data[dense_features] = mms.fit_transform(data[dense_features])

    # 2.count #unique features for each sparse field,and record dense feature field name

    fixlen_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4 )
                           for i,feat in enumerate(sparse_features)] + [DenseFeat(feat, 1,)
                          for feat in dense_features]

    dnn_feature_columns = fixlen_feature_columns
    linear_feature_columns = fixlen_feature_columns

    feature_names = get_feature_names(linear_feature_columns + dnn_feature_columns)

    # 3.generate input data for model

    train, test = train_test_split(data, test_size=0.2, random_state=2018)
    train_model_input = {name:train[name] for name in feature_names}
    test_model_input = {name:test[name] for name in feature_names}

    # 4.Define Model,train,predict and evaluate
    model = DeepFM(linear_feature_columns, dnn_feature_columns, task='binary')
    model.compile("adam", "binary_crossentropy",
                  metrics=['binary_crossentropy'], )

    history = model.fit(train_model_input, train[target].values,
                        batch_size=256, epochs=10, verbose=2, validation_split=0.2, )
    pred_ans = model.predict(test_model_input, batch_size=256)
    print("test LogLoss", round(log_loss(test[target].values, pred_ans), 4))
    print("test AUC", round(roc_auc_score(test[target].values, pred_ans), 4))

快速构建新模型

所有的模型都是严格按照4个模块进行搭建的,输入和嵌入以及输出基本都是公用的,每个模型的差异之处主要在特征提取部分。
下面是DeepFM模型的特征提取核心代码,大家也可以利用这些已有的组件去构建自己想要的模型。

fm_input = Concatenate(axis=1)(embed_list)#将输入拼接成FM层需要的shape
deep_input = Flatten()(fm_input)#将输入拼接成Deep网络需要的shape
fm_out = FM()(fm_input)#调用FM组件
deep_out = DNN(dnn_hidden_units, dnn_activation, l2_reg_dnn, dnn_dropout,dnn_use_bn, seed)(deep_input)#调用Deep网络组件
deep_logit = Dense(1, use_bias=False, activation=None)(deep_out)

如何使用呢!?

首先可以通过一下命令进行安装~

pip install deepctr[cpu]#CPU版本
pip install deepctr[gpu]#GPU版本

 DeepCTR:易用可扩展的深度学习点击率预测算法包 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/14519.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

做平台没有会员流量?没有客户留存?不妨来试试这个!超A分享购

商业模式最具有拓客引流的创新新模式,当属是“分享购”商业模式。 分享购是一个能够融合总流量与资源的商业运营模式,能够完成全部生态布局的应用,通过融合自营品牌、供应链选品、CPS生活服务等优质,可以实现“交易、共享”的新型…

Spring Cloud框架(原生Hoxton版本与Spring Cloud Alibaba)初级篇 ---- 服务调用

目录一、Ribbon负载均衡服务调用概述Ribbon负载均衡演示RestTemplateRibbon核心组件IRuleRibbon负载均衡算法原理(RoundRobinRule原理)源码(RoundRobinRule)手写负载算法二、OpenFeign服务接口调用概述使用步骤OpenFeign超时控制O…

鉴源论坛 · 观模丨浅谈随机测试

作者 | 黄杉 华东师范大学软件工程学院博士 苏亭 华东师范大学软件工程学院教授 首发 | 鉴源论坛 观模 01 什么是随机测试 (Random Testing) 随机测试是一种使用随机、相互独立的程序输入来对计算机程序进行测试的黑盒软件测试(在完全忽…

疫情联防联控解决方案-最新全套文件

疫情联防联控解决方案-最新全套文件一、建设背景1、疫情防控数据涉及多方,共享难2、疫情数据使用实时性和准确性差3、敏感信息容易泄露和滥用4、建设成本高,后续扩展性弱二、思路架构三、建设方案四、获取 - 疫情联防联控全套最新解决方案合集一、建设背…

OA系统必备的五个基本要素

如果你正在寻找可以将工作流程提升到一个新水平的OA系统(或办公自动化系统),请查看其是否具备以下五个基本功能。 1、简单的工作流设计器 一个现代的OA系统应该从业务用户的角度出发。 当你坐下来试用一个OA系统时,先从制定自…

spring中使用getBean获取ioc容器创建的对象常见异常

1、获取bean对象的三种基本方式 0、前提准备 <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocat…

线性代数 --- 投影Projection 五(投影矩阵的性质)

投影矩阵的性质 1&#xff0c;投影矩阵不可逆。 行列式的值为0&#xff0c;条件数无穷大&#xff0c;说明该矩阵不可逆是一个奇异矩阵singular matrix。 同样&#xff1a;行列式的值为0&#xff0c;条件数趋近于无穷大&#xff0c;说明该矩阵不可逆是一个奇异矩阵singular matr…

C# async / await 用法

目录 一、简介 二、异步等待返回结果 三、异步方法返回类型 四、await foreach 五、Task.Delay 结束 一、简介 await 运算符暂停对其所属的 async 方法的求值&#xff0c;直到其操作数表示的异步操作完成。 异步操作完成后&#xff0c;await 运算符将返回操作的结果&…

遨博机械臂——末端工具ROS驱动

文章目录知识目标1. 机械臂末端工具&#xff08;EOAT&#xff09;2. 电动夹爪3. 气动吸盘参考知识目标 学习机械臂常用末端工具构成&#xff1b;学习aubo机械臂安装电动夹爪及启动吸盘的方法&#xff1b;学习电动夹爪及气动吸盘ROS驱动的使用方法。 1. 机械臂末端工具&#x…

【附源码】计算机毕业设计JAVA校园社团管理平台

【附源码】计算机毕业设计JAVA校园社团管理平台 目运行 环境项配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; JAVA my…

“3%”与“低个位数”,暴雪为什么要跟网易玩数字游戏?

北京时间11月17日上午&#xff0c;暴雪娱乐发布声明称&#xff0c;由于同网易的现有授权协议将在2023年1月23日到期&#xff0c;将暂停在中国大陆的大部分暴雪游戏服务&#xff0c;包括《魔兽世界》《炉石传说》《守望先锋》《星际争霸》《魔兽争霸Ⅲ&#xff1a;重置版》《暗黑…

[iOS]砸壳

进行砸壳&#xff0c;需要有台越狱手机。如何越狱&#xff0c;参考前一篇“[iOS]手机越狱”。 没有越狱设备的话&#xff0c;可以去某宝寻求帮助&#xff0c;有帮忙砸壳。 1.添加源 打开Cydia软件&#xff0c;软件源中选择编辑&#xff0c;添加源https://cydia.iphonecake.co…

文件预览服务器kkfileview安装部署(linux 版)

1、安装 LiberOffice 安装包 命令下载 wget https://kkfileview.keking.cn/LibreOffice_7.1.4_Linux_x86-64_rpm.tar.gz tar -zxvf LibreOffice_7.1.4_Linux_x86-64_rpm.tar.gz cd LibreOffice_7.1.4.2_Linux_x86-64_rpm/RPMS yum install -y *.rpm 2、验证office是否安装成功…

【MySQL】MVCC详解与MVCC实现原理(MySQL专栏启动)

&#x1f4eb;作者简介&#xff1a;小明java问道之路&#xff0c;专注于研究 Java/ Liunx内核/ C及汇编/计算机底层原理/源码&#xff0c;就职于大型金融公司后端高级工程师&#xff0c;擅长交易领域的高安全/可用/并发/性能的架构设计与演进、系统优化与稳定性建设。 &#x1…

Vue2 Element | 一文带你快速搭建网页界面UI

&#x1f451; 博主简介&#xff1a;    &#x1f947; Java领域新星创作者    &#x1f947; 阿里云开发者社区专家博主、星级博主、技术博主 &#x1f91d; 交流社区&#xff1a;BoBooY&#xff08;优质编程学习笔记社区&#xff09; 前言&#xff1a;在学习本篇文章内容…

Cholesterol胆固醇丨艾美捷Cholesterol胆固醇化学性质

胆固醇是由甾体部分和一条长的侧链组成。人体中胆固醇的总量大约占体重的0.2%&#xff0c;每100克组织中&#xff0c;骨质约含10毫克&#xff0c;骨骼肌约含100毫克&#xff0c;内脏多在150~250毫克之间&#xff0c;肝脏和皮肤含量稍高&#xff0c;约为300毫克。脑和神经组织中…

【JVM学习笔记】JVM内存区域定义与内存结构

目录定义和说明JVM内存区域的定义内存区域说明堆说明非堆-方法区说明堆栈的区别HotSpot虚拟机JVM线程独占内存程序计数器&#xff1a;Program Counter RegisterJava虚拟机栈&#xff1a;Java Virtual Machine Stack本地方法栈&#xff1a;Native Method StackJVM共享内存Java堆…

Arduino与Proteus仿真实例-密码门禁控制仿真

密码门禁控制仿真 1、应用介绍 本文将演示如何实现密码门禁控制逻辑仿真。 此次仿真主要涉及如下内容: 密码输入、更新、验证门禁控制逻辑此次仿真将使用继电器和直流电机作为电子门禁元件仿真器件。 在前面的文章中,对密码输入、更新、验证、储存,做了详细的仿真,请参…

API:低代码平台的秘诀

应用编程接口 (API) 是应用程序以可编程格式访问其关键能力和功能的一种方式&#xff0c;从而其他应用程序可以利用它们。API 本质上支持应用程序之间的无缝数据流&#xff0c;使开发人员能够在应用程序中添加更多功能&#xff0c;而无需依赖大量编码。 举一个简单的例子。 您…

实战!接口优化的18种方案

前言 大家好&#xff0c;我是捡田螺的小男孩。 之前工作中&#xff0c;遇到一个504超时问题。原因是因为接口耗时过长&#xff0c;超过nginx配置的10秒。然后 真枪实弹搞了一次接口性能优化&#xff0c;最后接口从11.3s降为170ms。本文将跟小伙伴们分享接口优化的一些通用方案…