推荐系统学习笔记-推荐系统数据流

news2024/11/18 19:33:58

一般数据流

数据流的定义

数据流(data stream)是一组有序,有起点和终点的字节的数据序列。包括输入流和输出流。数据流最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。这个概念最初在1998年由Henzinger提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。

数据流的背景

数据流应用的产生的发展是以下两个因素的结果:

细节数据

已经能够持续自动产生大量的细节数据。这类数据最早出现于传统的银行和股票交易领域,后来则也出现为地质测量、气象、天文观测等方面。尤其是互联网(网络流量监控,点击流)和无线通信网(通话记录)的出现,产生了大量的数据流类型的数据。我们注意到这类数据大都与地理信息有一定关联,这主要是因为地理信息的维度较大,容易产生这类大量的细节数据。

复杂分析

需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析(如趋势分析,预测)以前往往是(在数据仓库中)脱机进行的,然而一些新的应用(尤其是在网络安全和国家安全领域)对时间都非常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控(track trend),探查性分析(exploratory analyses),和谐度分析(harmonic analysis)等,都需要进行联机的分析。
在此之后,学术界基本认可了这个定义,有的文章也在此基础上对定义稍微进行了修改。例如,S. Guha认为,数据流是“只能被读取一次或少数几次的点的有序序列”,这里放宽了前述定义中的“一遍”限制。
为什么在数据流的处理中,强调对数据读取次数的限制呢?S. Muthukrishnan[89]指出数据流是指“以非常高的速度到来的输入数据”,因此对数据流数据的传输、计算和存储都将变得很困难。在这种情况下,只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据(因为没有也无法保存这些数据)。

推荐系统数据流

经典框架

• 批处理大数据架构
• 流计算大数据架构
• Lambda架构
• Kappa架构

批处理大数据架构

'分布式存储+Map Reduce”的架构只能批量处理已经落盘的静态数据,无法在数据采集、传输的工属具流动的过程中处理数据

在这里插入图片描述

流计算大数据架构

• 分布式流计算大数据架构在数据流产生及传递过程中流式的消费并处理数据。
• 流计算架构中使用滑动窗口,在每个窗口内部,数据被短暂缓存并消费,在完成一个
窗口的数据处理后,流计算平台滑动到下一个时间窗口进行新一轮的数据处理。
• 理论上,流计算平台的延迟仅与滑动窗口的大小有关,滑动窗口的大小基本
以分钟级别居多,数据延迟小。

工具:

Strom、Spark-streaming、Flink
Flink将所有数据均看做流,把批处理当做流计算的特殊情况
Spark-streaming的流计算时小时间片内的小批量处理

Lambda架构&Kappa架构

Lambda架构:
数据通道在数据采集阶段就分为两条:实时流和离线处理
• 实时流保持了流计算框架,以增量计算为主来保障数据实时性(kafka+redis)。
• 离线部分进行批处理,对数据进行全量计算,保障其最终的一致性及最终推荐特征的丰富性(hdfs)。
• 最终数据入库时,实时流数据和离线数据进行合并,利用离线层数据对实时流数据进行校验和纠错。
Kappa架构:
• 解决Lambda架构的代码冗余问题,批处理与实时流都以流计算形式进行
如何在离线环境下利用同样的流处理框架进行数据批处理?
• 需要在原有流处理框架上加上两个新的通路“原始数据存储”和“数据重播”
• 原始数据存储将未经流处理的数据或者日志原封不动地保存到分布式文件系统中
• 将这些原始数据按时间顺序进行重播,采用相同的流处理框架处理,完成离线状态下的数据批处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/107118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《软件开发本质论》笔记——如何衡量价值

目录 一、使用数值来表示价值的做法 二、大多数与金钱有关的衡量指标的局限性 三、有没有一个简单的衡量方式 四、价值评估更好的做法 个人理解的价值 一、使用数值来表示价值的做法 这种方式可能让我们滑入深渊。 比如 如果公司开发产品的目的是赚钱,那么就可…

记一次:Keepalived安装高可用操作

前言:现在有许多现成的高可用产品,比如阿里的产品等等,直接购买就可以使用。这个只是笔者自己私下练习使用,成功了。所以记一次总结过程 安装方式一 下载安装包:https://keepalived.org/download.html网址下载2.2.7版…

【小程序】第一个小程序——创建小程序项目

目录 小程序简介 第一个小程序 安装开发者工具 创建小程序项目 小程序简介 1. 小程序与普通网页开发的区别 2. 体验小程序 可使用手机微信(6.7.2 及以上版本)扫码下方小程序码,体验小程序: 第一个小程序 1. 点击注册按钮 使用浏览器打开 https…

【大数据技术】Spark MLlib机器学习库、数据类型详解(图文解释)

机器学习的定义 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习的构建过程是利用数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就…

【图神经网络】Pytorch图神经网络库——PyG基础操作

Pytorch图神经网络库——PyG基础操作图数据处理常用的基准数据库Mini-BatchesData Transforms图学习方法参考资料PyG(PyTorch Geometric)是一个基于PyTorch构建的库,可轻松编写和训练图神经网络(GNN),用于与…

【Web安全】访问控制

目录 1、权限与授权 2、垂直权限管理 3、水平权限管理 4、OAuth 1、权限与授权 权限控制,或者说访问控制,指的是当用户需要执行某个操作时,系统对这种操作的权限限制就是权限控制。 在网络中,一般是通过路由设备或者防火墙建立…

[oeasy]python0031_挂起进程_恢复进程_进程切换

查看进程 回忆上次内容 上次修改了 $PATH 路径 把当前用户shiyanlou的宿主文件夹 ~ 添加到 $PATH 中这样 sleep.py 就可以被找到于是就可以被执行了 还可以把配置 $PATH 的脚本 放到 zsh的配置文件(~/.zshrc) 中 配置 ~/.zshrc 就可以 设置 zsh 环境下默认的 $PATH 在当前路径…

攻防世界-easytornado

题目 访问题目路径 分别点击一下看看 然后我去百度了一下md5(cookie_secretmd5(filename))发现这是一个叫模板注入的东西 什么是模板 简单来说,就是网站内容的动态部分,如果有一个网站的内容几乎相同,但只有某些部分发生改变,那么…

javaweb学习之会话技术CookieSession05

目录 1.会话技术 2.快速入门 3.实现原理 4.cookiel的细节 2.cookie能不能存中文 3.cookie共享问题 4.Cooie的特点和作用 5.综合案例 记录上一次访问时间 1.会话技术 1会话:一次会话中包含多次请求和响应。 *一次会话:浏览器第一次给服务器资源发…

新冠确诊阳性后的第二篇博客,一文带你学习文件上传漏洞

新冠确诊阳性后的第二篇博客,一文带你学习文件上传漏洞1.什么是文件上传漏洞2.不要使用黑名单规定上传文件类型3.绕过文件上传检查功能4.Apache文件解析问题5.IIS文件解析问题6.设计安全的文件上传功能1.什么是文件上传漏洞 文件上传漏洞是指用户上传了一个可执行的…

RabbitMQ管理界面

🍁博客主页:👉不会压弯的小飞侠 ✨欢迎关注:👉点赞👍收藏⭐留言✒ ✨系列专栏:👉Linux专栏 🔥欢迎大佬指正,一起学习!一起加油! 目录&…

记录我の秋招之旅【23届 CV算法岗】

文章目录碎碎念春招实习华为实习魔幻秋招尘埃落定碎碎念 今年(2022年)的秋招不能说"非常困难"吧,只能说是"地狱难度",相信参与或者从侧面了解过的同学们也能感同身受。从今年的三月份开始着手秋招,期间也一直忙着实验室…

【基于Transformer和可逆神经网络】

Effective Pan-Sharpening With Transformer and Invertible Neural Network (基于Transformer和可逆神经网络的有效泛锐化) 可逆神经网络1 可逆神经网络2 在遥感成像系统中,全色锐化是从高分辨率全色图像及其对应的低分辨率多光谱图像获得…

30岁之后想转行,可行吗?这20条建议让你少走弯路!

都说三十而立,可眼看着到了意气风发的年龄,却突然意识到自己仍一事无成,甚至连养活自己都是问题。30多岁,大多数人还要开始买房、买车、结婚生子,养家糊口,于是各种压力逼迫之下,就想到了转行&a…

移动硬盘中安装ubuntu系统——Vmware Workstation安装

一. 简介 对于一个程序开发者来说,电脑系统开发环境非常重要。要使用相同的系统环境,可以的方式有:1、携带电脑,2、携带安装了系统的移动硬盘。相比来说,第二种方式更理想,如果是第一种方式携带电脑的话&a…

基于java+springboot的民宿预订信息网站-计算机毕业设计

运行环境 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven 项目介绍 随着国民生…

大学没有学好专业,毕业如何转行?

大学颓废度过,毕业工作一无所长,颠沛流离! 本人17届某二流专科毕业,模具设计与制造专业。其实对模具毫无兴趣,只怪当初没有主见听从没有出过县城的老爸的命令选择了模具这个专业。大学期间上课睡觉玩手机,…

2023年元旦倒计时案例

文章目录基于HTML实现2023年倒计时代码实现基于HTML实现2023年倒计时 代码实现 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>2023倒计时</title> <!-- <link rel"stylesheet" href"sty…

傻白探索Chiplet,Chiplet的通信结构(八)

目录 一、SoC总线结构 二、NoC结构 2.1 NoC层次 2.2 NoC基本组成和属性 2.3 NoC常见的拓扑结构 2.3.1 2D Mesh 2.3.2 2D Torus 2.3.3 3D Mesh 2.3.4 Octagon/Spidergon结构 2.3.5 Cluster Mesh结构 2.3.6 树状结构 2.3.7 蝶状结构 2.4 各种结构之间的比较 2.5 …

网络技术期末复习~基础理论题

问题1.1试述五层协议的网络体系结构的要点&#xff0c;包括各层的主要功能。 解&#xff1a; 物理层&#xff1a;传输比特流。 数据链路层&#xff1a;传送以帧为单位的数据&#xff0c;实现网络中相邻两个节点直接的连接。 网络层&#xff1a;提供主机间的通信服务。&…