基于hdoop的短视频用户画像研究_kaic

news2024/12/30 3:19:51

基于hadoop的短视频用户画像研究
摘  要
在这个互联网迅速发展的时代,网络和信息技术都跟上了时代的潮流,在互联网中的用户数据也出现了爆炸性的增长。用户的各种日常行为都通过互联网被记录下来,对于所有的互联网企业来说,想要从激烈的竞争中脱颖而出,就需要企业以用户为中心,通过这些庞大的用户行为数据了解用户的真实意图。用户画像是对用户数据化、信息化和标签化的描述,企业可以通过用户画像抽象出用户的商业全貌,从而对每个用户群体进行精细化、个性化的营销。但同时,很多企业都有多个业务系统,而且各个业务系统之间由于信息不全,无法构建统一清晰的用户画像。 
基于以上背景,论文设计一个整合多种业务数据源,建立企业体系化用户标签的高灵活性、高扩展性的用户画像系统。系统覆盖了多种平台渠道和多业务系统的用户源数据采集,实现基于多源数据融合的用户画像的构建。同时,根据Lambda架构的设计思路,系统框架整合了离线计算和实时计算,兼顾了海量数据处理能力和时效性,保障了实时和离线数据的最终一致性。系统前端使用Vue.js框架和ECharts开源图表库技术进行用户画像的可视化展示,后端采用SpringBoot轻量级开源框架,并在Hadoop分布式基础框架上,搭建数据仓库,实现分布式的数据存储、计算和查询。最后,论文还提出了以用户为中心的数据模型—用户事件模型,通过事件和用户两个方面可以详细记录用户,抽象用户行为。并且系统可以使用多维度的分析方法对用户行为进行分析,满足企业各个部门的分析需求。

关键词:用户画像;分布式计算;用户行为分析
Research on Short Video User Portrait Based on Hadoop

ABSTRACT

In this era of rapid Internet development, network and information technology are advancing with the trend of the times, the user data in the Internet also has an explosive growth. All kinds of daily behaviors of users are recorded on the Internet. To stand out from the fierce competition, enterprises need to focus on users and understand users' real intention through these huge data. User portrait is the description of user's data, informationization and tagging. Enterprises can abstract the user's business panorama through user portrait, so as to carry out refined and personalized marketing for each user group. But at the same time, many enterprises have multiple business systems, and the information between the various business systems is incomplete, unable to build a unified and clear user portrait.
Based on the above background, this paper designs a user portrait system with high flexibility and expansibility by integrating multiple business data sources. The system covers user source data acquisition of multi-platform channels and multi-service systems, and realizes the construction of user image based on multi-source data fusion. At the same time, according to the design idea of Lambda architecture, the system framework integrates offline computing and real-time computing, and ensures the consistency of real-time and offline data. js framework and ECharts open source diagram library technology for visual presentation of user images, and the back end uses Spring Boot lightweight open source framework. Finally, a user-centered data model-user event model is proposed, which can record the user's behavior and abstract the user's behavior in detail. And the system can use multi-dimensional analysis of user behavior analysis, to meet the needs of various departments of the enterprise analysis.

Keywords:User Portrait; Distributed Computing; User Behavior Analysis

目  录
摘  要
ABSTRACT
1 绪论
1.1 研究背景
1.2 研究意义
1.3 研究的主要内容
1.4 国内外研究概况
2 相关技术分析
2.1 用户画像概述
2.2 分布式计算平台
2.3 K-means聚类算法
3 系统需求分析
3.1 系统功能性需求分析
3.1.1 系统功能分析
3.1.2 用户角色分析
3.2 系统非功能性需求分析
3.2.1 性能需求
3.2.2 可靠性需求
3.2.3 可扩展性需求
3.2.4 安全性需求
4 系统设计
4.1 系统总体架构设计
4.1.1 数据来源与采集层
4.1.2 数据存储层
4.1.3 数据计算层
4.1.4 标签存储层
4.1.5 应用服务层
4.1.6 前端展示层
4.2 系统功能模块设计
4.2.1 标签管理模块设计
4.2.2 用户群画像模块设计
4.2.3 数据看板模块设计
4.2.4 元数据管理模块设计
4.2.5 用户行为分析模块设计
4.2.6 个人中心模块设计
5 系统功能实现
5.1 标签管理模块实现
5.2 用户群画像模块实现
5.3 数据看板模块实现
5.4 元数据管理模块实现
5.5 用户行为分析模块实现
5.6 个人中心模块实现
6 系统测试
6.1 功能测试
6.2 性能测试
6.3 准确性测试
7 结论
致谢
参考文献

1 绪论
1.1 研究背景
当今世界各国之间的关系日益密切,因特网更是影响全球经济发展的一个关键因素。《中国互联网络发展状态统计报告》是中国互联网信息中心公布的一份关于中国因特网发展状况的数据,截止到2018年六月,中国因特网用户已突破8.5亿,因特网渗透率为61.2%。同时,中国拥有8.47百万移动手机的网民,也就是99.1%的网民数量。大数据已经成为了一个重要的因素,它已经渗透到了各个行业和领域。随着网络的飞速发展,一个公司要想在这样一个激烈的市场中获得成功,按照罗伯特·劳特朋所提出的客户、客户、客户、通信等4 C原理,公司在进行市场推广时,应当以客户为中心。在大数据时代,企业相较于以前在互联网上更容易获取用户数据,而如何从这些日益增长、复杂多样且具有时效性的用户数据中提炼出对自身有效的用户信息,从数据层面分析用户的真实想法,是如今每个企业都存在的问题和挑战。 
1.2 研究意义
为了解决上述问题,在大量的用户资讯中,透过建立用户的图谱,来进行用户的需求分析。用户画像指的是公司通过大数据技术,以用户的基本属性、行为习惯以及兴趣爱好等信息为基础,对其进行了一个标记,从而得出一个完整的用户的形象。用户画像的核心是给用户贴标签,就像三维空间中一个点需要通过三个维度的数据进行表示一样,每个标签都代表用户的一个维度,用户画像通过多个标签从多个维度来描述用户。通过对用户进行信息标签化,不仅可以使企业根据精确地了解用户,而且可以更加方便利用各种算法对用户数据进行整理和分析。 
1.3 研究的主要内容
本文实现了一个统一管理企业用户行为数据的用户画像系统。系统对这些用户行为数据进行采集计算分析生成统一的用户标签。 

 
1.4 国内外研究概况 
以话题为基础对用户进行描述。话题(Topic)模式被广泛应用于中文和英语的文本分析,这使得我们可以根据用户的使用习惯来建立话题模式。Billsus等人[1]利用朴素贝叶斯算法对用户的主体进行了分类,并将其作为用户画像。该方法充分发挥了贝叶斯(Bayesian)在小样本条件下的优势,提高了图像的图像质量。然后,唐杰和其他几个人也都是如此。
在抽取用户简介信息、消除名字歧意和发现用户兴趣等过程中,利用基于 LDA的概率主题模型[2]赋予了学术网络档案语义。
根据用户的生活方式,绘制用户的特征图。Fawcett等人[3]在对用户行为文件进行研究时,利用获得了检测用户呼叫记录的反诈骗应用中的诈骗指标,来对用户的行为进行了一个抽象的模型化的画像。而 Tuzhikin等人运用了各种数据挖掘的手段,比如关联规则,从用户的购物行为记录中,发掘出更深层的用户行为档案信息,从而对用户画像的粒度进行了改进。以兴趣爱好为基础对用户进行描述。兴趣与偏好已成为分析用户行为的关键要素,而如何根据用户的喜好与喜好对用户进行抽象化与模型化,则是用户画像化的一个发展趋势。
Pazzani等[4]提出了一种以内容为基础的推荐系统,而该系统的核心是根据用户所关注的物品及消费纪录,来获得个体化的兴趣特征。Carmagnola等人[5]采用了对用户标签进行分类的方式,运用 WordNet和词语形态学等方法,对用户兴趣文件进行了抽象的模型化。
目前,在网络行业中,除了对用户画像进行了深入的研究之外,网络行业中的许多公司也已经开始对其进行深入的分析,并构建相应的客户肖像体系。比如,百度已经建成了世界上最大的中文用户数据分析平台,而美团则针对快速发展的高频、场景驱动的餐饮O2O,针对不同的生活阶段,分别建立了基于场景的用户画像体系[6]。国外的 Twitter、 Facebook和 Youtube等社会视频网络公司,它们通过对用户的行为数据进行分析,构建出具有个性化的用户画像,进而可以提供精确化的推荐和推送服务。

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/581479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP报文中序列号的作用

TCP(传输控制协议)中的序列号用于标识TCP报文段中的数据部分。每个TCP报文段都包含一个序列号字段,该字段指示了报文段中第一个字节的序号。在后续的报文段中,序列号将递增,以指示下一个字节的序号。 TCP序列号是一个…

升级Springboot2.7.11之后内嵌tomcat启动成功, 但访问任何接口都是404

背景 最近项目在升级JDK17, 但原先低版本Springboot不能识别jdk17编译的字节码, 为了能够使用JDK17的语法, 因此对SpringBoot也做了升级, 直接升级到了SpringBoot 2.7.11版本. 对一些变更修改升级完成后, 本地启动服务运行, 一切正常!!! 于是发布到公司的容器环境运行, 发布平…

queue的常见接口说明(基于c++标准库的STL)

前言 队列是一种容器适配器,专门用于先进先出(FIFO)的操作中 ,其容器从一端插入数据,从另一端取出数据。队列作为一种容器适配器实现,容器适配器即将特定的容器封装起来,queue提供一组特定的成员…

LBM-BGK计算泊肃叶流动

LBM在计算泊肃叶流动时,需要添加外力项,这部分网上没什么资料,仅有的资料也写的模糊不清,这里点名批评这个知乎博文。 有些地方字母都对不上。。。 本站上也有一篇博文,写的也比较一般,但是代码是多松弛MR…

测试C#分词工具jieba.NET(续2:其它用法)

jieba.NET除分词和关键词提取功能之外,还有一些其它用法,本文基于参考文献学习并记录。 设置停用词 提取关键词时,部分词语可能不重要或者并非所需的词语,此时可以通过设置停用词,在提取关键词时过滤掉指定的停用词。…

【笔记整理】图神经网络学习

【笔记整理】图神经网络学习 文章目录 【笔记整理】图神经网络学习一、GNN简介1、图结构 & 图基础算法1)引言("非欧几何, 处理图数据的NN")2)图基本概念 & 分类("邻接矩阵, 图结构分类"&a…

搭建springboot工程_学习笔记

2.搭建springboot环境 2.1 使用maven项目 在pox.xml文件中加入parent <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.6.4</version></parent>在pom…

chatgpt赋能python:Python中8%3的运算:一种常见的数学问题

Python中8%3的运算&#xff1a;一种常见的数学问题 在Python中&#xff0c;8%3是一种常见的数学问题。在本文中&#xff0c;我们将介绍Python中的这种运算符以及它的用途。 什么是8%3&#xff1f; 百度百科给出的解释是&#xff1a; 求余运算符&#xff08;%&#xff09;用来…

为什么要“内卷”创始人?如何内卷?

受疫情影响&#xff0c;近几年各个行业都受到很大的冲击&#xff0c;同时有许多知识创业者反而逆势增长&#xff0c;这是为什么呢&#xff1f;因为有一个好的领导者&#xff01;一家企业的发展&#xff0c;和创始人的心力和决心紧密联系着&#xff0c;只有好的将军才能带领出好…

【社群运营】关于社群运营的一些学习和思考

社群运营 运营流程&#xff08;自己&#xff09;背景流程过去经验1.你觉得社群最重要的价值是什么&#xff1f;对个人对DW 2.学习社群组织好哪些环节你觉得非常重要&#xff1f;3.这些环节有没有比较好的运营经验/方法&#xff1f;价值共鸣情感共鸣精神共鸣 社群总结 运营流程&…

《数据库应用系统实践》------ 超市管理系统

系列文章 《数据库应用系统实践》------ 超市管理系统 文章目录 系列文章一、需求分析1、系统背景2、 系统功能结构&#xff08;需包含功能结构框图和模块说明&#xff09;3&#xff0e;系统功能简介 二、概念模型设计1&#xff0e;基本要素&#xff08;符号介绍说明&#xff…

剑指 Offer 11. 旋转数组的最小数字解题思路

文章目录 题目解题思路优化 题目 把一个数组最开始的若干个元素搬到数组的末尾&#xff0c;我们称之为数组的旋转。 给你一个可能存在 重复 元素值的数组 numbers &#xff0c;它原来是一个升序排列的数组&#xff0c;并按上述情形进行了一次旋转。请返回旋转数组的最小元素。…

直流电机 PID 开发指南学习笔记

直流电机 PID 开发指南 &#xff08;基于【平衡小车之家】直流电机 PID 学习套件 1.0&#xff09; 目录 1.位置闭环控制 1.1 理论分析 1.2 控制原理图 1.3 C 语言实现 1.4 参数整定 2.速度闭环控制 2.1 理论分析 2.2 控制原理图 2.3 C 语言实现 PID 调节器出现于上世…

keepalived脑裂后,近20min不能访问虚拟IP事故分析

问题现象和说明 真实的场景比较复杂&#xff0c;抽象起来可以用下面的图表示&#xff0c; #mermaid-svg-q8mZrLctqAENT1r0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-q8mZrLctqAENT1r0 .error-icon{fill:#5522…

【经验总结】浮点数double/float精度误差问题总结

现象 最近做的项目中经常会在C环境下和高精度的double浮点类型数据打交道 这些double类型数据精度级别可能到 pico级别(10^-12) 甚至 femto级别(10^-15),用来表示集成电路的一些微观属性 但是非常诡异的是&#xff0c;不知道为什么在对这些高精度的浮点数进行运算时&#xff…

RK3588平台开发系列讲解(工具篇)ADB的使用

平台内核版本安卓版本RK3588Linux 5.10Android 12文章目录 一、连接设备1.1、USB 的方式1.2、网络的方式二、常用命令沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍ADB的使用。 一、连接设备 1.1、USB 的方式 主机通过 USB 连接设备,具体如何连接。 US…

chatgpt赋能python:Python中5%-3的用法介绍

Python中5%-3的用法介绍 在Python编程中&#xff0c;5%-3是一个常用的运算符&#xff0c;其作用是对5除以3取余数。在本文中&#xff0c;我将介绍5%-3的用法以及如何在Python编程中使用该运算符。 什么是5%-3运算符 5%-3运算符表示对5除以3取余数&#xff0c;余数为2。 5%-…

chatgpt赋能python:Python中9/2的结果为4.5——一篇关于Python运算符的SEO文章

Python中9/2的结果为4.5——一篇关于Python运算符的SEO文章 如果你是一名Python开发工程师&#xff0c;那么你肯定熟悉运算符这个概念。作为一门计算机语言&#xff0c;Python中有各种各样的运算符&#xff0c;包括算术运算符、赋值运算符、比较运算符等等。今天&#xff0c;我…

WiFi 6 vs WiFi 5

在现代无线通信领域&#xff0c;WiFi已经成为人们日常生活中不可或缺的一部分。随着技术的不断发展&#xff0c;WiFi标准也在不断更新和演进。WiFi 6&#xff08;802.11ax&#xff09;和WiFi 5&#xff08;802.11ac&#xff09;是当前两个主要的WiFi标准。 本文将详细介绍WiFi …

大佬联合署名!反对 ACL 设置匿名期!

夕小瑶科技说 原创 作者 | 智商掉了一地、Python 近日&#xff0c;自然语言处理领域的多位知名学者联合发起了一项反对 ACL 设置匿名期的联合署名行动&#xff0c;包括著名学者 William Wang 和 Yoav Goldberg 在内&#xff0c;还有Christopher Potts、Hal Daume、Luke Zettl…