挖掘优质短视频超百万条,火山引擎DataLeap助力电商平台生态治理

news2024/9/19 10:41:17

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

在人们的日常生活中,网购已经成为人们生活中不可或缺的购物形式。

根据《中国社交电商行业发展白皮书(2022)》的数据显示,2022年社交电商市场交易规模达到28542.8亿元,预计2023年中国社交电商行业交易规模将达34165.8亿元。

这么庞大的市场规模背后,如何解决电商场景下的各项生态治理问题显得尤为重要,某电商平台的治理团队就提供了一个优秀实践范本。

在该电商平台的社交电商场景下,以短视频优质项目为例,平台治理团队会对当天发布的挂购物车类短视频进行标签识别,判断其优质程度及具体原因。经过算法模型识别后,视频将被提交至奖惩中心,根据优质程度进行流量扶持或限制。而在治理过程中,数据处理流程也存在很多的挑战和痛点。

  • 首先是数量挑战:大数据量的训练集,难以快速进行数据预处理。业务算法模型的训练集通常很大,达到百万甚至千万级。如果将这些海量数据放在本地或其他开发机上处理,速度会很慢,无法满足业务需求,即使使用多线程处理,并发度也难以达到业务需求。

  • 其次是准确度挑战:难以验证算法模型准确度。算法模型的准确性通常通过有偏和无偏两个维度进行验证。模拟算法模型上线后的召回情况和准确率,以及对业务的影响,无论是有偏还是无偏测试集,都需要确保测试集标签的准确性。如果测试集标签的准确性不高,会影响模型评估的准确性。

  • 最后是监控挑战。要想做好后续的指标监控,首先需要建立自己平台的统计指标,如召回率、漏放率、审出率、驳回率等。这些指标需要做成数据集,再建立自己的监控看板。同时,如果平台出现反面案例,需要团队进行深入的分析,并优化算法模型。如果没有高效的工具或平台进行辅助,会耗费大量的人力和资源。

为了解决这些痛难点,该电商平台治理团队接入了火山引擎DataLeap的大数据研发平台能力,三步搭建起了高效的算法模型数据处理流程。

第一步:在算法开发阶段,进行数据预处理,产出训练数据集。

在使用 DataLeap 之前,由于算法模型的测试集量级较大,数据处理效率低;而现在,该电商平台治理团队利用火山引擎 DataLeap 的 Notebook 任务进行数据预处理,处理后的数据会被存储在 Hive 表或 HDFS 上,这些数据可以在 HDFS 上长久保存,满足了实际应用场景中收集长时间数据的需求,不必受存储有效期为 7 天的限制。

团队可以离线处理这些数据,生成训练集,进行模型训练。由于火山引擎 DataLeap 的 Notebook 能力可以支持任务的自动运行,无需人工搭建 Notebook 环境进行数据训练,大大节省了人力成本,提高了数据处理和统计效率。

 

(图:DataLeap数据开发平台示例)

第二步:算法上线,验证模型效果

训练好的模型需要进行评估,以便了解其效果如何。团队可利用DataLeap将线上的 Kafka 数据写入 Hive 中,然后离线分析 Hive 表中的数据,用来了解模型的效果。不同模型平台治理团队关注的指标可能有所不同,借助DataLeap可以使用不同的指标来评估模型的效果,例如准确率、召回率、AUC 或 ACC 等。

第三步:利用火山引擎DataWind搭建监控看板

而在监控板块,DataLeap可与火山引擎智能数据洞察DataWind流畅配合,搭建监控看板,监控人员每日可以及时地获取到数据结果,同时也会对反面案例进行深入的分析,进而优化算法模型。

在火山引擎DataLeap的助力下,该平台治理团队去年全年累计挖掘识别优质短视频超147万条,助力超26万名电商作者平均流量增长56%;累计处罚违规低质短视频超3280万条、违规低质直播超1500万场。整体内容质量有明显改观,消费者好感度上升7.2%。

除数据处理能力之外,火山引擎DataLeap还可以提供数据集成、开发、运维、资产等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型,目前已经应用于泛互联网、制造、新零售、汽车等领域,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。

点击跳转大数据研发治理套件 DataLeap了解更多

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/888796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

古战策与现代项目: 孙子兵法在项目管理中的应用

项目管理在当今的商业环境中是至关重要的。从初创公司到世界500强,项目管理的策略和工具都在不断地演变。然而,我们是否可以从古老的战争策略中汲取智慧,并将它们应用于现代的项目管理实践中呢? 让我们通过孙子兵法,一个古老而又…

ui设计师工作总结及计划范文模板

ui设计师工作总结及计划范文模板【篇一】 白驹过隙,转眼间某某年已近结尾,时间伴随着我们的脚步急驰而去,到了个人工作总结的时候,蓦然回首,才发现过去的一年不还能画上圆满的句号,内心感慨万千&#xff0c…

【PySide】Pyside QtWebEngine网页浏览器打开Flash网页

说明 QWebEngineView 加载 flash插件,可成功显示Flash,如图 源代码 # -*- coding: utf-8 -*- """ @File : pyside_2.py @Time : 2023/8/17 0:11 @Author : KmBase @Version : 1.0 @Contact : @Desc : None """import…

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 摘要模型架构Embedding层Transformer Encoder层MLP Head 整体流程 摘要 虽然Transformer体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉方面的应用仍然有限。在视…

传统算法是如何在销补调计划中发挥作用的

本文分享了一个「传统机器学习算法」在实际业务中的使用场景。 前言 如果嫌麻烦,你可以直接跳到正题观看~ 最近无论是在工作中的交谈,还是在日常刷屏的新闻,铺天盖地的都是大模型。我横竖是看不明白,费了大劲终于从字缝里看到了两…

后端项目打包上传服务器记录

后端项目打包上传服务器记录 文章目录 后端项目打包上传服务器记录1、项目打包2、jar包上传服务器 本文记录打包一个后端项目,上传公司服务器的过程。 1、项目打包 通过IDEA的插件进行打包: 打成一个jar包,jar包的位置在控制台可以看到。 2、…

记录--JS 的垃圾回收机制

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 垃圾回收(Garbage Collection)是一种内存管理机制,用于检测和清理不再被程序使用的内存,这些不再被使用的内存就被称为垃圾。垃圾回收器会在 JS 引擎(浏览器或者 nodejs)内…

Baklib是比语雀、Notion、石墨文档更好用的在线知识库管理工具

在当今信息爆炸的时代,如何高效地管理和利用知识成为了每个人都面临的问题。在线知识库管理工具应运而生,帮助用户整理、存储和共享知识。在这篇文章中,我将介绍一个更好用的在线知识库管理工具——Baklib,并探讨它相对于其他知识…

Python爬虫——scrapy_多条管道下载

定义管道类(在pipelines.py里定义) import urllib.requestclass DangDangDownloadPipelines:def process_item(self, item, spider):url http: item.get(src)filename ../books_img/ item.get(name) .jpgurllib.request.urlretrieve(url, filename…

JAVA编程学习笔记

常用代码、特定函数、复杂概念、特定功能……在学习编程的过程中你会记录下哪些内容?快来分享你的笔记,一起切磋进步吧! 一、常用代码 在java编程中常用需要储备的就是工具类。包括封装的时间工具类。http工具类,加解密工具类&am…

上海亚商投顾:沪指震荡调整 房地产、券商板块逆势走强

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大股指今日继续调整,深成指尾盘跌近1%,科创50指数跌超1.7%。房地产板块逆势走强&#xf…

计算机视觉之三维重建(一)(摄像机几何)

针孔摄像机 添加屏障: 使用针孔(o光圈针孔摄像机中心),实现现实与成像一对一映射,减少模糊。其中针孔与像平面的距离为f(焦距);虚拟像平面位于针孔与真实物体之间,与像平面互为倒立关系。位置映射:利用相似…

最新SSD固态硬盘颗粒QLC、SLC、MLC、TLC详解

概要 本文从SSD结构出发,详细介绍NAND闪存芯片QLC、SLC、MLC、TLC之间的区别、各自的优缺点以及其适用的人群。目录一、剖析SSD二、什么是NAND闪存三、单层单元(Single Level Cell,简称SLC)四、多层单元(Multi Level C…

CAD图像转地形插件

插件介绍 CAD图像转地形插件可用于在AutoCAD软件内基于图片图像信息生成三维高度实体模型,适用于科研论文渲染绘图、有限元建模、地形模拟等方面的应用。 使用说明 对于一张图片来说,如灰度图,其图片信息是像素的亮度差异,这样一…

yolov5封装进ros系统

一,要具备ROS环境 ROS环境搭建可以参考我之前的文章 ROS参考文章1 ROS参考文章2   建立ROS工作空间 ROS系统由自己的编译空间规则。 cd 你自己想要的文件夹(我一般是home目录) mkdir -p (你自己的文件夹名字,比如我是yolov5…

团队中的意外:如何稳定船舶当风暴来临

项目管理不仅仅是任务分配和里程碑跟踪。在项目生命周期中,经常会遇到许多意想不到的挑战。其中之一就是团队成员的突然离职、生病或其他意外情况。作为项目经理,如何应对这些突发情况,确保项目的稳定进展,是检验项目经理能力的关…

(白帽黑客)自学笔记

一、前言: 1.这是一条坚持的道路,三分钟的热情可以放弃往下看了. 2.多练多想,不要离开了教程什么都不会了.最好看完教程自己独立完成技术方面的开发. 3.有时多 google,baidu,我们往往都遇不到好心的大神,谁会无聊天天给你做解答. 4.遇到实在搞不懂的,可以先放放,以…

Linux下的thundersvm的安装经验

之前写过一篇文章是关于windows下安装thundersvm的。当初在linux下安装thundersvm很容易,因为我的CUDA正好是9.0版本。所以一句命令 pip install thundersvm 即可安装。 但如果CUDA版本不是9.0,安装就比较麻烦。本文记录的是一种可行的方法,但…

C语言刷题训练DAY.6

1.进制AB 解题思路&#xff1a; 这里我们按照备注的提示&#xff0c;调整输入格式。 注意&#xff1a;%x是十六进制的数字 %o是八进制的数字 解题代码&#xff1a; #include<stdio.h> int main() {int a 0;int b 0;scanf("0x%x 0%o", &a, &b);pri…

微信开发者工具项目简单介绍和使用

主要目录简介&#xff1a; 页面文件的简介&#xff1a; 四个json文件的简介&#xff1a; 1.app.json 2.project.config.json 3.sitemap.json 4.页面中的json 简单操作 1.快速新建小程序页面&#xff0c;在app.json的pages下编写页面的路径&#xff0c;保存后微信开发者工具会自…