PAE:从潮流报告中提炼有效产品属性

news2024/11/22 16:40:30

本文将介绍PAE,一种用于包含 PDF格式的文本和图像的产品属性提取算法。目前大部分的方法侧重于从标题或产品描述中提取属性,或利用现有产品图像中的视觉信息。与之前的工作相比,PAE从潮流趋势报告的PDF文件中提取属性,提取的属性包含了未来的时尚趋势,然后将这些属性和零售商的产品目录对比,以便于提前做出预判和规划。

小编提示:本项目的亮点和价值在于细节,具体的作业细节!!

潮流报告

产品目录会被用于战略性地选择和组织系列产品,以满足客户需求并最大限度地提高销售额。这个过程涉及分析市场趋势、客户偏好和竞争对手的策略,以确定潜在的差距和机会——这个过程通常需要对未来流行的趋势进行预测和决策。

如上图所示,一些主流或者相关行业的调查报告会涵盖纺织品和材料创新、产品开发以及生活方式和室内设计趋势,通过对这些信息进行提取产品属性值,然后将属性值正确的映射到产品属性。在结合自身的产品库,就可以根据未来的流行趋势对自身的产品进行调整,或者为自身的产品贴上更合适的标签以便于形成网红产品。

项目的具体流程如下,从给定的PDF文件中提取所有文本(段落)和相关图像,使用LLM模型从图像和文本中提取相关属性。将属性合并到每个类别中,并为每个属性保留唯一值。利用基于Bert的模型将这些属性和目前现有库存的商品进行匹配,以便组织和规划未来的目录。

产品属性提取 (PAE) 引擎可以帮助零售行业加入新商品或从现有目录中提取属性。我们进行了这篇较长的论文中描述的大量实验,以表明与现有的最先进的属性提取框架相比,PAE 是一个有效、灵活的框架,与现有最先进的属性提取框架相当或更胜一筹(平均 92.5% F1 分数)。

PDF的文字提取

PDF文档的布局复杂性可能会使提取过程变得困难。例如,存在多个列、图像、表格和脚注会使纯文本的提取变得复杂。另一个挑战是在PDF中使用非标准或自定义字体,这可能导致提取结果不准确。此外,页眉、页脚、HTML 标签和页码等“噪音”的存在也会干扰提取过程。

有许多工具可用于文本提取,例如pdfMiner或pdfquery。上图显示从pdf 文件中提取文本的过程。首先,使用pdf2image中的“convert from path”功能将PDF文件拆分为PIL(Python 图像库)图像。

在内部,该函数使用pdfinfo命令行工具从 PDF 文件中提取元数据,例如页数。然后使用pdftocairo命令行工具将PDF的每一页转换为图像。其次,将图像转换为灰度,并通过应用形态梯度算子来增强和隔离文本区域,从而在每个页面上进行形态转换。最后使用具有光学字符识别 (OCR)功能的图像注释器进行文本提取。提取文本后使用拼写校正器(如 LanguageTool)来修复 OCR 中任何被误解的文本。

PDF的图片提取

PDF文件可以包含各种格式的图像,例如JPEG、PNG或TIFF。从不同格式提取图像可能需要多种技术。高效、及时地从大型 PDF 文件中提取图像可能是一个挑战,尤其是在处理有限的系统资源时。为了应对上述挑战,利用纯Python PDF库直接从 PDF 文件中提取图像对象并将它们提取为原始的字符串。然后使用 Pillow处理提取的图像并以 jpg 格式保存。

属性映射到现有产品目录

首先需要从之前的文本和图像中提炼有效的产品的属性值,这里直接使用Prompt工程利用现有的LLM进行信息的提炼。如下为具体的例子:

这个阶段常见的问题是存在嘈杂和缺失的标签。准确标记和注释PDF中每一页的所有相关信息是一项具有挑战性的任务。尽管采用了各种自动和手动注释流程,但几乎不可能获得完美标记的结构化数据。为了解决这个问题,研究团队采用图像预处理或数据清理技术来消除重复、嘈杂和无效的图像,然后再进行属性提取。

那么从每个页面上的文本和图像中提取属性,聚合之后就有了很多潮流趋势的属性和属性值。如何将这些信息映射到现有的产品目录,具体的过程如下:

商品属性匹配的挑战之一是,一个属性有很多不同的表示说法。例如,“vneck”需要和“V-Neck”进行合并为“V-Neck”。

这里使用了预训练BERT无大小写模型。BERT是个双向表示的模型,通过它生成源和目标的词嵌入,最后用余弦相似度来匹配现有目录中的相似的属性。

上面左图为每种潮流类型(都是衣服)提炼的页数P,文本数T,图片数I,小标签数H。右图则为F1-Score(准确性)。

到此就完成了从pdf提炼信息,然后和自身数据库整合的过程。后续就会有很多的应用,例如可以将匹配的产品增加曝光,或者增加缺乏的产品。其实某种意义上实现了最新信息跟踪的数字化过程。小编认为要是结合LangChian或者LlamaIndex作为调度框架会更加的流畅,具体就交给各位读者去实施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1878076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ISO26262标准

什么是ISO26262? ISO 26262(国际功能安全标准)是一个涵盖整个汽车产品开发过程的汽车功能安全标准。ISO 26262继承或改编自工业自动化行业的安全要求标准IEC61508,但专门为汽车行业量身定制。最新版本是ISO26262-1:2018。 它包括诸如需求分析、安全分析…

一个简单的文件上传功能

代码如下&#xff1a; PostMapping("/upload")public ResponseEntity<String> handleFileUpload(RequestParam(value "uploadDirectory") String uploadDirectory,RequestParam("fileName") MultipartFile fileName) {try {// 确保文件不…

乱扔垃圾自动识别摄像头

如今&#xff0c;随着城市化进程的加快和人们生活水平的提高&#xff0c;环境保护和城市美观成为社会关注的焦点。乱扔垃圾问题长期困扰着城市管理者和居民&#xff0c;给城市环境卫生带来严重挑战。为了有效解决这一问题&#xff0c;乱扔垃圾自动识别摄像头应运而生&#xff0…

nvm-desktop window安装,支持动态切换nodejs版本

一、安装 nvm-desktop 概述 1 、卸载干净笔记的nodejs 和nodejs的环境变量 2、安装 nvm-desktop 软件 3、配置环境变量 4、测试功能 # 此时已安装完成 其他&#xff1a;常见nodejs的问题解决参考&#xff1a;官网 mac 安装教程 https://github.com/1111mp/nvm-desktop/blob/…

大模型微调实战之基于星火大模型的群聊对话分角色要素提取挑战赛:Task01:跑通Baseline

目录 0 背景1 环境配置1.1 下载包1.2 配置密钥1.3 测试模型 2 解决问题2.1 获取数据2.2 设计Prompt2.2 设计处理函数2.3 开始提取 附全流程代码 0 背景 Datawhale AI夏令营第二期开始啦&#xff0c;去年有幸参与过第一期&#xff0c;收获很多&#xff0c;这次也立马参与了第二…

基于Python的求职招聘管理系统【附源码】

摘 要 随着互联网技术的不断发展&#xff0c;人类的生活已经逐渐离不开网络了&#xff0c;在未来的社会中&#xff0c;人类的生活与工作都离不开数字化、网络化、电子化与虚拟化的数字技术。从互联网的发展历史、当前的应用现状和发展趋势来看&#xff0c;我们完全可以肯定&…

AI视界引擎 | ​基于 YOLOv8 和计算机视觉 CV 的实时识别系统!

本文来源公众号“AI视界引擎”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;​基于 YOLOv8 和计算机视觉 CV 的实时识别系统&#xff01; 技术进步和创新正在尽可能地推进作者的日常生活&#xff0c;但仍有很大一部分社会群体因为…

OverTheWire Bandit 靶场通关解析(中)

介绍 OverTheWire Bandit 是一个针对初学者设计的网络安全挑战平台&#xff0c;旨在帮助用户掌握基本的命令行操作和网络安全技能。Bandit 游戏包含一系列的关卡&#xff0c;每个关卡都需要解决特定的任务来获取进入下一关的凭证。通过逐步挑战更复杂的问题&#xff0c;用户可…

poi-tl 生成 word 文件(插入文字、图片、表格、图表)

文章说明 本篇文章主要通过代码案例的方式&#xff0c;展示 poi-tl 生成 docx 文件的一些常用操作&#xff0c;主要涵盖以下内容 &#xff1a; 插入文本字符&#xff08;含样式、超链接&#xff09;插入图片插入表格引入标签&#xff08;通过可选文字的方式&#xff0c;这种方…

昇思MindSpore学习笔记3--张量 Tensor

一、张量Tensor概念 矢量、标量和其他张量的计算函数&#xff0c;有内积、外积、线性映射以及笛卡儿积等 张量坐标在 n 维空间内&#xff0c;有 nr 个分量 每个分量都是坐标的函数,变换时每个坐标分量都按规则作线性变换 张量是一种特殊的数据结构&#xff0c;类似于数组和…

haproxy实现代理和负载均衡

HaProxy介绍&#xff1a; haproxy是法国开发者威利塔罗在2000年使用C语言开发的一个开源软件&#xff0c;是一款具备高并发(一万以上)、高性能的TCP和HTTP负载均衡器&#xff0c;支持基于cookie的持久性&#xff0c;自动故障切换&#xff0c;支持正则表达式及web状态统计&…

狼人杀系列

目录 杀人游戏&#xff08;天黑请闭眼&#xff09; &#xff08;1&#xff09;入门版 &#xff08;2&#xff09;标准版 &#xff08;3&#xff09;延伸版——百度百科 &#xff08;3.1&#xff09;引入医生和秘密警察 &#xff08;3.2&#xff09;引入狙击手、森林老人和…

学习gateway网关路由时遇到的问题

遇到这个问题先别慌&#xff0c;我们首先要检查是哪里出问题了&#xff0c;从报错信息中我们可以看到&#xff0c;他说 Unable to find GatewayFilterFactory with name -AddRequestHeader 找不到这个路由过滤器&#xff0c;所以导致网关设置失败&#xff0c;从这条信息上我…

Mac可以读取NTFS吗 Mac NTFS软件哪个好 mac ntfs读写工具免费

在跨操作系统环境下使用外部存储设备时&#xff0c;特别是当Windows系统的U盘被连接到Mac电脑时&#xff0c;常常会遇到文件系统兼容性的问题。由于Mac OS原生并不完全支持对NTFS格式磁盘的读写操作&#xff0c;导致用户无法直接在Mac上向NTFS格式的U盘或硬盘写入数据。下面我们…

web学习笔记(六十九)vue2

目录 1. vue2创建脚手架项目 2.vue2如何关闭eslint 1. vue2创建脚手架项目 &#xff08;1&#xff09;在cmd窗口输入npm install -g vue/cli命令行&#xff0c;快速搭建脚手架。 &#xff08;2&#xff09; 创建vue2项目 &#xff08;3&#xff09; 选择配置项目&#xff0c…

ic基础|功耗篇04:门级低功耗技术

大家好&#xff0c;我是数字小熊饼干&#xff0c;一个练习时长两年半的IC打工人。我在两年前通过自学跨行社招加入了IC行业。现在我打算将这两年的工作经验和当初面试时最常问的一些问题进行总结&#xff0c;并通过汇总成文章的形式进行输出&#xff0c;相信无论你是在职的还是…

pdf合并,pdf合并成一个pdf,pdf合并在线网页版

在处理pdf文件的过程中&#xff0c;有时我们需要将多个pdf文件合并成一个pdf文件。作为一名有着丰富计算机应用经验的技术博主&#xff0c;我将为您详细介绍如何将多个pdf文件合并成一个pdf文件。 pdf合并方法&#xff1a;使用&#xff0c; “轻云处理pdf官网” 打开 “轻云处…

mysql_config 命令, 可以查看mysqlclient库的位置在/usr/lib64/mysql下

好吧&#xff0c;其实我是从这里知道了 -l 后面加的库名和so文件这种名不一样&#xff0c;因为库文件实际叫下面这个名&#xff08;前面有lib)。

昇思MindSpore学习笔记1--基本介绍

昇思MindSpore是一个全场景深度学习框架。 一、框架组成 1. 模型库ModelZoo 提供深度学习算法网络。 2. 扩展库MindSpore Extend 拓展领域场景&#xff0c;如GNN/深度概率编程/强化学习等。 3. 科学计算MindSpore Science 科学计算套件。 包含数据集、基础模型、预置高精度模…

Mybatis从源码分析——启动到解析配置文件再到执行SQL语句过程

文章目录 前言解析配置文件解析源码Mapper文件解析过程二级缓存解析过程SQL的解析 SQL执行流程openSession()流程Executor执行器二级缓存查询数据流程 插件使用原理 前言 mybatis的体系结构&#xff1a; public class App {public static void main(String[] args) {String re…