专利解析|多维建模结合AI识别商品特征的方法

news2024/9/23 7:31:45

企业采购数字化转型的背景

国家“十四五”规划纲要提出要推进产业数字化转型,在供给侧结构性改革大背景下,国家出台了《企业数字化采购实施指南》,大大促进了企业采购电商化的发展。企业电商化采购能提高企业的采购效率、加快物流速度、降低物流成本、提高采购透明度。未来企业电商化采购场景会不断扩大,将由标准化采购向非标准化采购、定制化采购方向拓展。

在企业采购数字化转型的浪潮中,越来越多的企业建立了企业内部电子采购平台,不仅对接很多大型的渠道商,也引进和入驻了很多独立供货商,企业通过电商平台在企业的经营活动中上沉淀了大量的商品数据,如何分析这些商品数据,挖掘商品数据背后的价值,洞察市场发展,是企业经营者非常关心的一个课题。

文末免费申领相关资料~

商品特征标准化需求及其价值

商品主数据通常由商品名称和商品的特征值构成,在企业的商品采购系统中,商品数据具有一套内部的标准体系,但是企业商城中入驻的供应商的商品数据和企业内部标准商品主数据往往标准不统一,因此在商品采购系统中非常重要的需求就是需要将供应商的商品数据映射到商品标准主数据,不同供应商的商品数据与标准商品主数据需要对齐,其中包括商品分类、商品标准名称、商品标准特征等信息的对齐,其需求的本质是商品的特征标准化以及商品特征的识别技术。

商品特征识别的一个有价值的应用场景是同类商品的比价,大型的电商平台上有很多供应商在售卖自家的商品,每家供应商的商品都有自己的商品分类和商品编码体系,通常商家在上架商品的时候,为了让自家的商品能被更多的搜索到,会将商品的很多特征信息一起包含在名称里,比如:

HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P1108 1020plus打印机

对于电商平台来说,如何在众多的不同供应商的商品描述中识别出不同商家上架的商品其实为同一件商品,从而实现在同种商品之间比价、智能报价等企业经营需求,实现数据的增值服务。

商品特征标准化的挑战

商品信息如商品名称和商品特征如何标准化,是实现商品特征识别的基础,商品特征识别技术就是识别出商品的标准名称及其相关特征的技术,这是目前很多企业面临的难题,商品特征识别的难度在于商品数据中存在一些识别难度较高的信息,如何从一段无固定形式的文字描述中识别出究竟是什么商品,并且这个商品具有什么特征对于电商平台来说是一件很具有挑战的事情,比如这一段商品的描述信息:

联想ThinkPad X13 2022 12代酷睿i5 英特尔Evo平台 13.3英寸轻薄笔记本电脑(i5-1240P 16G 512G WiFi6)4G版

因为商品的描述是以一种不规范的格式存在,即便是同一种商品,因为供应商的不同,其商品的描述差异很大,体现在商品描述中的关键字的位置顺序不同、关键词汇不同、描述的内容也千差万别,因为这些数据没有太强的正则特征,很难采用正则表达式进行识别,我们探索了人工智能在商品特征识别上的应用,研究结果表明,以深度学习为代表的人工智能技术,可以在很大程度上提高商品主数据标准化的效率以及商品特征识别效果。

应用AI进行商品特征识别

采购系统在对接大量供应商的时候,在供应商商品上架的时候采用AI技术对商品的描述信息进行识别,从中提取出商品的标准名称以及商品的特征,通过商品名称以及特征的比对识别出相同的商品,相比较采用其他方式识别方法而言具有更高的准确性、可行性和经济性。

典型的供应商经营的商品数据存在这几样特点:

商品分类不同、分类的粗细粒度不同,分类层级不同

商品的描述差异很大,体现在关键字的位置顺序不同、关键词汇不一

商品的属性规格非结构化,存在很大的差异性和随意性

根据以上商品数据的几样特点,我们介绍一种基于商品主数据的多维建模方法结合AI技术的商品特征识别方法,此方法首先利用主数据的多维建模能力建立商品主数据模型,在商品数据的采集过程中,利用人工智能识别出商品名称,并抽取其特征数据,分析出商品的各种特征,并将清洗后的数据沉淀在标准的商品数据库中,通过在经营活动中不断反馈和完善标准的商品数据,再进行机器学习,不断的提高商品识别效果。

在这里插入图片描述(图一:品名识别流程图)

详细的步骤如下:

1、 建立标准的品名
品名就是商品的标准名称,是经过规范化形成的名称。

比如这一段商品描述:

“HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P11081020plus打印机” ,通过专家的判断,这里可提取出来的品名是打印机,那如何定义品名,可以由两种方法结合起来定义:

由行业专家定义

基于文本识别技术的AI 技术

在这里插入图片描述(图二:品名流程图)

从商品描述中识别出标准规范的品名,需要利用AI技术对文本数据的处理能力,这在人工智能领域里属于一个非常大的领域:自然语言处理(Natural Language Processing)NLP。利用现有少量品名标注数据,进行模型的训练,形成的识别模型,可以对新的商品数据进行品名的识别。

在一个典型的电商平台中,末级分类可能非常多,品名可理解为比分类更进一步的细化,这样品名有可能会达到上万甚至几十万的量级,这对文本分类是非常有挑战的;我们考虑建模作为一个文本序列标注的问题,举例来说“得力S910/HB原木铅笔盒装学生六角形 学生铅笔12支”,模型要做的就是把其中的“原木铅笔”四个关键字标注出来,作为推荐的品名。品名识别的算法可以建模为序列标注,也可以建模为语义问答匹配。前者多采用LSTM-CRF模型,但是对于标签数过大的场景,速度和效果都会受到极大制约。因此,考虑后一种建模方式,利用目前最先进的深度自然语言模型BERT,可以将品名识别问题建模为语义匹配模型,从候选品名列表中匹配到相应品名是比较合适的方案。同时,为了解决某些开放场景,使用分词+textrank的启发式算法可以增强品名列表之外的识别能力。

2、建立特征库
特征属性是对于一个产品的技术特征和其它特征的描述,用以区别一种产品与另一种产品。产品生命周期不同阶段,对属性的需求不一样,属性的描述和定义可以不断增加,特征数据是采集的大量数据的积累,从中提取出来的规范化数据,同时也存在很多符合国家标准、行业标准规定的数据,比如:

在这里插入图片描述(图三:特征库示例)

建立特征库的目的是为了将商品数据结构化,为了辅助机器学习,数据清洗,通过不断的学习和监督反馈沉淀出能真实的反应出商品特征的数据。

3、通过多维建模建立品名的特征库
品名和描述该品名不同用途的特征,构成“品名特征表”;这里最大的问题在于不同的品名可能具有不同的特征属性的,一台电脑笔记本和一台打印机肯定具有不同的特征属性的。

在这里插入图片描述

在描述品名的所有特征中,可选择能唯一性标识该商品的一些特征,

比如在下述的商品描述中

“HP惠普P1106黑白激光打印机小型迷你学生家庭作业家用A4办公凭证纸打印P11081020plus打印机”

其表现出来的特征如下:

在这里插入图片描述(图四:品名特征表)

针对此种打印机,其中特征品牌+型号基本可唯一确定具体的商品,则品牌+型号两个特征属性可称为唯一性特征属性,而其他的属性都属于非唯一性特征属性。唯一性特征属性是判断商品唯一性的重要标志,确定唯一性特征的需要结合人工和行业专家的判断。

基于品名特征表构建和积累的品名和特征数据我们称为标准产品。

4、选择合适的AI算法
我们提出了一种基于深度学习+迭代模型的多渠道商品清洗和智能检索的方法,本方法从多维度构建商品特征库,根据用户输入的文字,智能识别出商品以及商品的分类,集数据清洗和特征匹配于一体,在少量专家标注数据的情况下,利用监督学习和迭代学习技术,使得商品主数据的特征识别可以达到比较好的效果和效率。

为了准确识别上述关键信息,我们使用不同的深度模型进行训练

1) 品名模型:给定商品描述信息,从上万的品名库中匹配最佳品名,逐个匹配的时间成本很高,需要使用召回+精排的两阶段模型策略,提高匹配效果和效率。使用召回+排序的两阶段模型。召回阶段使用Tfidf/句向量召回候选品名。使用BERT模型对候选品名的语义相似度进行打分,返回得分排名前k的品名,作为最终结果返回。

2) 特征模型:特征属性提取的场景非常复杂,涉及到相对开放的语义场景,对算法设计的要求非常高。特征模型用于提取商品名称中的特征属性,比如“HP惠普P1108黑白激光打印机 小型迷你 学生家庭作业家用A4办公凭证纸打印P1108 1020plus打印机”中的”型号”是“P1108”,“支持幅面”是”A4”,”颜色”是“黑白”。传统方式使用命名实体识别算法(NER),将句子中的相应位置标记为“型号”和“支持幅面”,但是对于实体数量巨大而且实体类型比较开放的情况,NER的训练很慢且泛化能力较弱。我们设计了结合规则、词典树,以及李飞飞博士提出的注意力机制和序列标注的开放命名实体识别算法OpenTag,可以极大减少人工标注量,并提高识别的精度。

3) 系统迭代:监督训练迭代过程中,系统会利用算法判断数据价值,选择推送高价值数据供业务人员标注,标注完成再推送进入商品标准库,由触发条件推送到算法调度器,再进行监督训练,通过商品特征模型的迭代训练,可以逐步提高整个主数据系统匹配的精度。

总 结

元年多维建模具有很灵活的建模能力,其结合AI技术可将非结构化的商品描述数据转换为结构化、特征化、标准化的商品数据,通过此方法来识别商品的唯一性,能大大的提供商品识别的效率和准确率,同时对识别的商品信息进行统一的编码,具有相同品名以及唯一性特征的数据将被统一编码,这些标准而规范的商品数据不断的被沉淀下来为企业决策和经营活动提供数据支持。

【参考文献】

  1. Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

  2. Zheng, Guineng, et al. “Opentag: Open attribute value extraction from product profiles.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

m基于QPSK调制解调的无线图像传输matlab仿真,包括扩频解扩均衡等模块

目录 1.算法描述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法描述 软件无线电在无线通信领域被称为是自模拟通信过渡到数字通信之后的又一次革命,在军用和民用方面都有着广阔的应用。它是一种新的无线通信技术,基于通用的可编程的…

【JAVA高级】——封装JDBC中的DaoUtils工具类(Object类型方法)

✅作者简介:热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏:JAVA开发者…

【文献整理】基于深度强化学习的知识图谱推理研究

目录DeepPath背景Core贡献几个要点:Training pipeline结论DIVINE背景Core贡献预备知识DIVINE推理过程模型文献整理基于综述论文:基于深度强化学习的知识推理研究进展综述_宋浩楠,赵刚,孙若莹 文中对知识图谱推理进行如下分类&…

SpringSecurity(十七)---OAuth2的运行机制(下)-实现一个简单的单点登录应用程序

一、前言 本章实现第一个使用带有Spring Boot和Spring Security 的OAuth2框架的应用程序。这个示例将展示如何将OAuth2应用到Spring Security中,并阐释你需要了解的一些接口的内容。顾名思义,单点登录(SSO)应用程序是通过授权服务…

如何使用一台电脑远程控制多台电脑

如今,远程控制软件已经广泛应用于我们的日常生活中。我们使用远程桌面软件远程控制另一台电脑来完成我们的工作和学习。在某些情况下,我们可能还需要同时远程控制多台电脑。例如: 您是一名培训师,正在寻找远程访问软件来同时远程…

[激光原理与应用-15]:《激光原理与技术》-1- 什么是激光,激光概述

目录 第1章 什么是激光 1.1 什么是激光 1.2激光在生活中应用 第2章 激光的特点 2.1 方向性好(平行性、直线性) 2.2 单色性好(颜色纯度高) 2.3 相干性比太阳光好 2.4 亮度高 2.5 能量极大 第3章 光产生的方式与核心概念 …

又爆冷了啦,日本半场逆转德国,怎么利用共享经济搅乱世界杯格局

近日世界杯热点逐渐升高,在23号晚上亚洲劲旅日本以2-1逆转多次捧得大力神杯的德国队,此前德国还从未输过日本队,因此德国再次吃到闭门羹,爆出了本届世界杯开赛以来既阿根廷惨败的又一大冷门。赛后,日本全国人民共同庆祝…

Web(二)html5基础-超链接的应用(知识训练和编程训练)

web知识训练_html5_超链接的应用 web编程训练_html5_超链接的应用 第1关_创建热字超链接 编程要求 在右侧编辑器中的Begin - End区域内补充代码,创建热字超链接,具体要求是: 1.链源文字为“听音乐找酷我”。 2.链宿地址为“https://www.ku…

FPGA——多路选择器实现按键控制LED灯的亮灭

文章目录前言一、多路选择器二、绘制模块框图及波形图三、Verilog HDL代码及测试代码四、创建工程五、仿真六、上板验证1、分配引脚2、烧录七、效果演示八、总结前言 软件:Quartus Prime Standard 18.0仿真软件:modelsim 10.5代码编写软件:V…

【虹科新品】 HK-MR430330绝对式光纤编码器介绍合集(下)

HK-MR430系列ZapFREE光纤位置传感器是一款外形小巧、具有13位单圈分辨率的旋转位置传感器。MR430设计新颖,开发了新的应用和OEM产品功能,这在以前的电子传感器是无法实现的。该传感器100%无源,不受EMI、RFI、微波和磁场的影响。创新型全绝缘设…

我参加NVIDIA Sky Hackathon 后端修改

文件架构 前面两个分别是执行语音识别和图片识别的代码templates 存放的是网页的模板, 前端将文件写在这里即可uploads 存放的是上传至后台的文件server.ipynb 用于启动 flash 服务器app.py 内是用 flash 写的 Python 后端install_tools.sh 是用于安装相关工具的 sh…

(十四)Spring之回顾代理模式

文章目录回顾代理模式动态代理常用技术CGLIB动态代理技术上一篇:(十三)Spring之JdbcTemplate 回顾代理模式 参考:代理模式Proxy Pattern 不用JDK的动态代理,手写JDK动态代理 动态代理常用技术 在程序运行阶段&…

CentOS 7 手动安装OpenStack

官网文档 因为之前已经在 Ubuntu 20.04 下完成了 Ubuntu 20.04 手动安装OpenStack ,最后,想要学习 OVN 的时候,发现 ubuntu 上的 OVN 安装很复杂,没有 TripleO/RDO based deployments ,所以,又在 CentOS 7…

项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人

本文已在【飞桨PaddlePaddle】公众号平台发布,详情请戳链接:项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人 皮影戏是一种以兽皮或纸板做成的人物剪影以表演故事的民间戏剧,皮影一般由头、躯干&#x…

2003-2019年各省市场分割指数全步骤数据+最终结果

2003-2019年市场分割指数 1、时间:2003-2019年 2、数据包含:31各省份市场分割指数全步骤数据和最终结果 3、具体内容:市场分割指数差分形式相对价格、市场分割指数去均值、市场分割指数方差、市场分割指数最终结果。 4、指标说明&#xf…

vue3 框架学习概念笔记

文章目录前情提要框架设计概览命令式声明式小结虚拟dom性能运行时和编译时框架设计核心要素声明式描述UI渲染器组件的本质vue.js模板响应式系统概念完善的响应式系统响应式系统的调度计算属性Computedwatch 原理竞态问题非原始值的响应式方案javaScript 对象原始值的响应式方案…

毕业后河北种水稻 国稻种芯·中国水稻节:安徽姑娘承德务农

毕业后河北种水稻 国稻种芯中国水稻节:安徽姑娘承德务农 (新华每日电讯记者刘金海、方欣、牟宇) 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会报道:整…

【Linux】内存查看vmstat命令(虚拟内存统计)

vmstat命令:虚拟内存统计 CPU使用率内存试用虚拟内存交换情况IO读写情况 process r:运行和等待CPU时间片的进程数 超过cpu个数, 出现CPU瓶颈 长时间大于1,CPU不足,需要增加CPU b:正在等待资源的进程数&…

玩转MySQL:定位排查解决突发Bug

引言 前面MySQL优化、调化两文中,聊到了关于数据库性能优化的话题,而本文则再来聊一聊关于MySQL线上排查方面的话题。线上排查、性能优化等内容是面试过程中的“常客”,而对于线上遇到的“疑难杂症”,需要通过理性的思维去分析问…

Java岗位必备技能SpringBoot的面试题集锦

当下SpringBoot框架真的很火,大多数企业把它作为基础技能,考察求职者的能力。如下截图,是我从Boss直聘中找到的,要求SpringBoot是必备技能。 所以非常有必要为了面试,好好归纳下SpringBoot常被提起来的问题。 题目大纲…