Xintell——全生命周期的模型建设+智能数据中台

news2024/11/17 19:29:38

在业务反欺诈、运营及数据分析上,经常会涉及到模型。模型就是基于目标群体的大规模采样数据,挖掘出某个实际问题或客观事物的现象本质及运行规律,利用抽象的概念分析存在问题或风险,计算推演出减轻、防范问题或风险的对策过程,并形成一套体系化的策略或规则集。

模型建设是一个复杂的过程,一般需要几个或十几个专业开发人员,耗费几个月乃至大半年才能够完成一个模型建设。如果有新的数据、样本更新,就需要重新计算分析才能完成。此外很多公司和机构并不具备独立建设模型的能力,因此会委托第三方机构帮助其建立模型或者直接使用一些通用标准模型。然而不同企业机构的业务场景不同,流程标准和需求目标有差异,直接使用通用标准模型往往不尽如人意。

越来越多的企业希望从积累的海量数据中挖掘出业务价值,因此开始组建自己的算法团队。一方面,避免模型建设外包时,带来的隐私数据泄露的风险;另一方面,能够构建专属业务的模型,并且可以根据业务、需求以及数据的更新及时进行更迭。

为了助力企业解决建模难、升级更新慢、模型管理复杂的问题,包含顶象等多家公司推出了专业模型解决方案。

以顶象Xintell智能模型平台为例。基于关联网络和深度学习技术,结合Hadoop生态和自研组件,将复杂的数据处理、挖掘、机器学习过程标准化,提供从数据处理、特征衍生、模型构建到最终模型上线的一站式建模服务,结合拖拉拽式操作大幅降低建模门槛,提升建模工程师、数据科学家的工作效率,让运营人员和业务人员也能直接上手操作实践,帮助企业通过对大数据的模型训练在反欺诈、风控、营销、客户分群等场景提供模型支持,并能够根据时间变化进行动态升级与优化,极大降低建模门槛。

建模灵活。支持HiveSQL脚本、Python脚本(Jupyter Notebook)和可视化建模三种开发方式,均可以发布为调度任务并可任意进行组合,实现强大的自动化流程。

可视化。可视化的建模方式,让不懂技术的业务人员,以拖拉拽的方式在画布上连接成流程图,不需要写代码或仅仅写少量的代码,能够以设定组件参数的方式训练出一个完整的模型。

部署快。Xintell基于企业本身的大数据平台,支持导入PMML格式和Python源码的任何第三方模型,能够能灵活地与企业已有的系统对接;一键式部署方便快捷,比同类建模产品的部署速度减少80%。

可解释性强。Xintell内置自研的一整套评分卡建模组件,适用于各种对可解释性要求高的建模场景。



全生命周期的模型开发与管理平台

在软件工程领域,软件开发生命周期(Software Development Life Cycle,SDLC)包含了软件从开始到发布的不同阶段:需求收集、设计、软件开发、测试和质量保证、部署、维护。机器学习建模,作为软件开发的一个分支,同样遵循着这样的流程,而模型的开发仅仅是其中的一个环节。

建模人员有喜欢编程写代码的,也有喜欢可视化建模的。就提供模型开发功能而言,不同的建模平台之间大同小异,甚至作为一个以私有化部署方式为主的轻量级建模平台,Xintell在某些方面的功能和其他开放的数据科学平台相比是不足的,比如不提供常见的公共数据集和预训练模型、没有可以提供学习资源和交流的开发者社区。但Xintell的优势在于其覆盖了模型全生命周期的管理功能,在对模型工程化的支持方面,目前是领先于其他竞品的。

Python 建模

“低代码”建模

所谓工程化,至少包含以下环节:部署开发好的模型,实时或定期采集数据,调用模型,然后将模型的输出结果进行展示或对接下游业务系统,并监控模型的性能、定期评估模型的效果,必要时对模型进行迭代更新。

使用Xintell平台开发模型,可以保证整个工程化的过程是便捷、高效的。例如:支持一键将模型部署为在线模型(可指定部署的实例个数),以API的形式对外提供模型调用服务;自带对在线模型服务的监控功能;可将整套操作流程配置为定期自动运行的调度任务。因此,Xintell不仅仅是一个模型开发平台,更是一个模型管理平台,其功能覆盖了建模的全生命周期。

狭义的模型管理

狭义而言,模型管理分为两个方面:管理同一个模型的多个版本;管理多个不同的模型。

前者,部署在Xintell上的在线模型,可以一键切换版本。

后者,Xintell支持导入任意Python源代码或PMML格式的外部模型,然后进行批量预测,或部署为在线模型供实时调用。具体的功能介绍可参阅相关文档,在此不详细展开介绍。

“融合式”模型开发

广义的模型管理

广义而言,除了管理不同模型和模型的不同版本外,模型管理还包括:

数据管理。Xintell采用Hive表管理所有的数据,支持与常见的数据库进行对接,包括但不限于Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可发布成数据同步任务,集成到调度任务中实现定时自动运行。Xintell也支持往Hive表中直接导入csv、txt、log等常见类型的数据文件。

各个表从不同的数据源汇总到Hive表中后,或进一步经过关联、清洗、加工,形成数据集市,供后续的建模等任务使用。

特征管理。不同的建模场景可能用到相同的业务数据,如果不进行集中管理,可能造成特征的重复加工。为了增加特征的可复用性,特别是存在数据加工人员和建模人员两个角色时,有必要对特征进行管理,辅以相关的特征说明。在特征管理方面的功能Xintell正在不断完善。目前已有二代征信特征库,未来计划开发更多场景的特征库,并提供通用的特征管理功能。

代码管理。不同项目空间的代码相互隔离,从而可以支持多个项目同时开发。支持将HiveSQL脚本和Python脚本发布版本,支持版本回溯,从而实现代码的版本管理。在调度任务中可以调度指定版本的脚本文件。

文档和资源管理。模型的代码目录下可以创建Markdown文档,记录模型的需求设计、代码说明等相关信息。除此之外,Xintell平台提供了文件资源管理功能,可以视作是一个简易的FTP,建模团队成员可以上传模型相关的文件资料(如测试报告、bad case、第三方库、数据字典等),与其他成员共享。

模型运维。Xintell提供了在线模型服务的仪表盘,可以便捷地查看历史上模型的调用量和平均耗时,及时发现模型的异常。通过将模型输出的结果和真实的标签按一定规范写入指定的表中,还可以监控模型的KS、PSI等指标,用于评估模型性能是否发生衰退。

权限管理。这是比较容易被忽视的一点,但对于团队协作是必不可少的。通常同一个项目空间下,有项目管理员和模型开发人员两种角色,可以配置不同角色的操作权限。特别地,团队成员之间可以互相查看代码,进行code review或相互学习;而通过加锁的功能,可以防止自己的代码或已发布的调度任务被他人误修改。

团队协作平台

软件工程中有一个名词叫“协同开发”,相关领域的专家们设计了各种协同开发工具,来帮助软件开发团队更好、更快地进行协作和开发,最为典型的代表之一就是Git,一个代码协作和管理工具。正因为其健全的模型管理功能,Xintell也可视为一个建模团队的协同开发平台。

一个典型的使用场景就是高校实验室。一位导师可能需要指导多个学生撰写数人工智能领域的论文,或是带领多个学生参与一个模型项目的开发。如果能有一套像Xintell这样的平台,给学生提供基本的模型开发和代码管理工具,给团队提供代码、资源共享的渠道,能大大提高协同开发的效率,减轻导师指导和管理的难度。



Xintell也是一个智能数据中台

从数据中挖掘价值,只有通过训练机器学习模型这一种方式吗?显然不是。模型只是数据应用的一种方式而已,其他常见的需求还有制作统计报表、构建关联网络并展示、输出数据处理与分析结果等。那么,Xintell平台的使用也不仅仅局限于需要建模的场景。

数据报表

业务人员往往需要将过往一段时间的业务数据从各个维度进行统计分析,然后做成报表,以便发现业务或客群的变化趋势,从而为更好地开展未来的业务提供决策依据,这就是BI。Xintell也提供了简易的报表制作的功能,相比常见的BI工具,Xintell的优势在于能够整合来着不同数据源的数据;可以实现复杂的数据分析与处理;以及可以通过调度任务实现定期自动生成报表。

当然,如果觉得Xintell中生成的报表不够美观、灵活,还可以通过数据同步的方式,将处理好的数据同步到其他专业的BI工具进行可视化。

知识图谱

事物之间普遍存在着纷繁复杂的联系的,模型利用的往往是个体的特征,无法刻画出个体之间的关联。而通过构建关联网络或图谱,进而划分团伙计算团伙指标或应用各类图算法,能够弥补这一短板。

Xintell平台集成了图数据库ArangoDB,并封装了常见的图算法。关联网络技术常用于检测团伙欺诈风险,如代理人欺诈、信用卡套现检测、信贷申请反欺诈、营销反欺诈等场景。利用集成的图数据库,Xintell可以实现具有关联关系的数据(如团伙)的展示与查询。事实上,很多时候也有必要在图谱中展示模型预测的结果,如可以在代理人团队中展示对代理人欺诈风险的预测,以便进一步识别一些团队中的异常。

类似地,如果已经有或需要用其他图谱工具展示关联网络的话,可以在Xintell上完成节点表和关系表的加工,然后再同步到其他数据库中。

数据服务

Xintell支持配置数据服务,通过"导入字段",可以快速将Hive表的字段结构复制到数据服务中。业务方通过发起Http请求,提供查询参数访问数据服务。

常见的应用场景包括对外部系统提供用户画像、模型预测结果等的查询。

数据枢纽

调度任务这一功能是Xintell的一大灵魂。在私有化部署的Xintell平台上,当建模团队完成模型交付之后,客户未必会使用Xintell开发新的模型,但通常会创建新的调度任务,实现与模型并不直接相关的其他任务,比如数据集市的构建、指标的计算、报表的制作等。毫不夸张地说,调度任务可能比模型开发和管理更常用。

调度任务之所以强大,是因为其灵活。在Xintell平台上,可以将数据同步、HiveSQL脚本、Python脚本和可视化建模这四类发布成任务,然后通过连线的方式,在调用任务的画布中构建为任务流,并可以进一步指定任务流的运行时间和周期,实现任务流的定期定时自动运行。

当然,想要定期定时自动执行一段脚本,并非只能依赖于Xintell平台,但利用Xintell平台,可以对调度任务进行便捷地管理,如开启/关闭任务、任务错峰排期、配置任务预警等。事实上,在私有化部署的Xintell平台上,同时配置了几十个调度任务是非常常见的。

在某种意义上,可以将Xintell视为一个数据枢纽,而不是仅仅是模型平台。通过调度任务,可以实现从数据同步、数据处理、数据应用(数据统计分析,调用模型,构建关联网络,运用图算法)、数据可视化(图谱展示、报表生成)、数据价值输出(图谱查询,在线模型服务,数据服务,同步到其他业务系统)等一整套流程,其核心便是对数据的调度,故称之为枢纽,数据枢纽。而Xintell的价值也不仅仅在提供模型开发和管理的工具,更在于赋能客户,帮助客户更便捷地从自身的业务数据中挖掘出价值,并加以充分利用,反哺于其业务。



哪些企业适合选用Xintell?

毫无疑问,需要进行建模的团队肯定是Xintell的企业和组织,因为他们需要一个模型的协同开发、管理和运维平台。这个团队可以隶属于高校的实验室,可以隶属于某个企业甚至某个业务部门。但在笔者看来,任何一个拥有数据、希望从数据中挖掘价值从而为业务助力的企业,都是Xintell的潜在客户。特别是正在经历、或有计划进行数字化转型的传统行业的企业。他们在组建自己算法团队的同时,也亟需一套Xintell平台帮助他们管理包括模型在内的数据应用,特别是在对工程化的支持方面,Xintell是不二的选择。无论是组建自己的建模团队,还是希望将已有的模型进行集中管理,亦或进行其他数据应用的开发(如构建关联网络,提供图谱展示与查询),Xintell都有用武之地。

当前,采购Xintell平台的更多的是银行等金融行业的机构,显然,Xintell的市场潜力很大,机会远远没有被发掘。因为Xintell不仅仅是一个模型开发平台,更是一个模型管理平台、团队协作平台;不仅仅是一个数据服务平台,更是一个智能数据中台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/11725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么用手机压缩图片?教给大家三种手机压缩图片方法

如何使用手机把图片的内存进行压缩呢?大家在使用照片的时候,如果照片的内存太大,不仅会占用手机的内存,也会影响一些网站上传图片的操作,因为图片内存太大很多都是上传不了的,为了解决这一问题我们可以将图…

【设计模式】适配器模式:攻敌三分,自留七分,以超兽武装的例子来谈谈适配器模式

文章目录1 适配器模式1.1 定义1.2 结构1.3 类图1.3.1 类适配器模式1.3.2 对象适配器模式2 例子2.1 类适配器模式2.1.1 代码2.1.2 效果图2.2 对象适配器模式2.2.1 代码2.2.2 效果通3 优缺点及适用环境3.1 优点3.2 缺点3.3 适用环境1 适配器模式 1.1 定义 将一个类的接口转换成客…

【深入理解C++】RTTI、dynamic_cast、typeid()

文章目录1.RTTI2.dynamic_cast运算符3.typeid运算符4.RTTI与虚函数表1.RTTI RTTI(Run Time Type Identification),即运行时类型识别,通过 RTTI,程序能够使用基类的指针或引用来检查这些指针或引用所指的对象的实际派生类型。 RTTI 提供了两…

数据库命名规范

1、mysql 规范 1.1 表名规范 模块_功能点 示例:alllive_log alllive_category。采用26个英文字母(区分大小写)和0-9的自然数(经常不需要)加上下划线_组成,命名简洁明确,多个单词用下划线_分隔,一个项目一个数据库。全部小写命名&#xff0c…

嵌入式分享合集103

一、EEPROM和Flash 存储器分为两大类:RAM和ROM,本文主要讨论ROM。ROM最初不能编程,出厂什么内容就永远什么内容,不灵活。 后来出现了PROM,可以自己写入一次,要是写错了,只能换一片,自…

React中的生命周期函数

生命周期的三个阶段: 1.创建时(挂载阶段) ①执行时机:组件创建时(页面加载时) ②执行顺序:constructor()->render()->componentDidMount() import React, { Com…

nodejs+vue+elementui共享充电宝管理系统express

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 2 前端技术:nodejsvueelementui 前端:HTML5,CSS3、JavaScript、VUE 功能介绍 管理员:…

H5基本开发2——(HTML文档基本结构)

现实生活中,任何一个文档都是具有一定的格式,不同的文档,基本格式不同,例如:请假条、调休单、剧本、年中总结、十九大报告、等等,而我们所编写等html文档也是具有一定的编写基本格式的 事实上W3C组织一直致…

[附源码]java毕业设计教学辅助系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

TwoModalBERT进行角色分类

你是否遇到过数据集中有多个文本特性的情况?例如,根据消息的上下文正确地对消息进行分类,即理解前面的消息。比如说我们有下面的数据集,需要对其进行分类。 当只考虑message时,你可以看到它的情绪是积极的,因为“incr…

关于电影的HTML网页设计—— 电影小黄人6页 HTML+CSS+JavaScript

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 精彩专栏推荐&#x1f4…

【Pytorch with fastai】第 10 章 :NLP 深入探讨 RNN

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

【JavaScript高级程序设计】重点-第五章笔记:Date、RegExp、原始值包装类、单例内置对象

文章目录基本引用类型1.Date1.1 继承的方法1.2 日期格式化方法1.3 日期/时间组件方法2.RegExp正则表达式2.1 RegExp 实例属性2.2 RegExp 实例方法2.3 RegExp 构造函数属性3.原始值包装类型3.1 Boolean3.2 Number3.3 String3.3.1 JavaScript 字符3.3.2 normalize()方法3.3.3 字符…

AI 实战篇 |十分钟学会【动物识别】,快去寻找身边的小动物试试看吧【送书】

🎬 博客主页:https://xiaoy.blog.csdn.net 🎥 本文由 呆呆敲代码的小Y 原创,首发于 CSDN🙉 🎄 学习专栏推荐:Unity系统学习专栏 🌲 游戏制作专栏推荐:游戏制作 &…

计算机毕业设计node.js+vue在线日程管理系统

项目介绍 我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,在线日程管理系统被用户普遍使用,为方便用户能够可以随时进行在线管理自己的日程的数据信息,特开发了基于在线日程管理…

【Pytorch with fastai】第 11 章 :使用 fastai 的中级 API 进行数据处理

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

第2关:子节点创建、列出、删除

子节点创建、列出 首先,需要启动服务器,并使用zkCli.sh连接服务器,进入客户端命令行界面(如第一关所述)。 创建子节点类似于创建新的节点,子节点也具有四种类型的节点。唯一的区别是:子节点的…

redis学习4-list

基本的数据类型,列表,redis命令是不区分大小写的 在redis中,我们可以把list玩成,线,队列,阻塞队列! 所有的list命令都是用l开头的 [rootcentos7964 bin]# redis-cli -p 6379 127.0.0.1:6379> LPUSH li…

Oracle Primavera Unifier计划管理器(Planning Manager)

目录 一、前言 二、介绍 一、前言 在计划管理器中,Oracle Primavera Unifier 用户可以计划新项目/外壳和提案,并为已在 Unifier 中运行的项目/外壳创建预测。他们不能像在 Unifier 中管理真实项目/外壳那样管理计划的项目/外壳;但是,他们可…

Observer

一些比较方便的 DOM 监测的 API。 一个 Observer 实例具备的实例方法: observe。向监听的目标集合添加一个元素。unobserve。停止对一个元素的观察。disconnect。终止对所有目标元素的观察。… 一、IntersectionObserver 提供了一种异步检测目标元素与祖先元素或…