数据之道读书笔记-07打造“数字孪生”的数据全量感知能力
在信息化时代构建的IT系统,基本上是功能化、烟囱化、封闭式的,只能给企业内部经过培训的专业人员使用,所有的决策数据和我们信任的IT系统基本都是靠人来录入数据。但是,人如果犯错呢?
数字化转型是在解决工业革命时代没有解决的效率和成本问题,所以如果转型依赖的数据,还是需要组织大量专业人员去录入、去校验,那么就并没有从源头上解决数字化转型要解决的效率和成本问题。数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、安全的数据获取。
文章目录
- 数据之道读书笔记-07打造“数字孪生”的数据全量感知能力
- 7.1 “全量、无接触”的数据感知能力框架
- 7.1.1 数据感知能力的需求起源:数字孪生
- 7.1.2 数据感知能力架构
- 7.2 基于物理世界的“硬感知”能力
- 7.2.1 “硬感知”能力的分类
- 7.2.2 “硬感知”能力在华为的实践
- 7.3 基于数字世界的“软感知”能力
- 7.3.1 “软感知”能力的分类
- 7.3.2 “软感知”能力在华为的实践
- 7.4 通过感知能力推进企业业务数字化
- 7.4.1 感知数据在华为信息架构中的位置
- 7.4.2 非数字原生企业数据感知能力的建设
- 7.5 本章小结
7.1 “全量、无接触”的数据感知能力框架
7.1.1 数据感知能力的需求起源:数字孪生
2003年,Michael Grieves教授首次提出了“与物理产品等价的虚拟数字化表达”的概念,并给出定义:一个或一组特定装置的数字复制品,能够抽象表达真实装置并可以此为基础进行真实条件或模拟条件下的测试。该概念源于对装置的信息和数据进行更清晰的表达的期望,希望能够将所有信息放在一起进行更高层次的分析。数字孪生(Digital Twin,DT)即由此概念衍生而出并沿用至今。
在复杂的企业数字化变革过程中,非数字原生企业往往需要协调众多业务流,极具挑战性,但同时也是成功完成转型的关键。所以基于DT衍生出来的DTO(Digital Twin of an Organization,企业数字孪生)是一种动态的软件模型。模型需要输入组织的运营及其他类型的相关数据,以实现组织运营模型在虚拟世界中的映射,并能更新实时状态、应对外界变化、部署相应资源和产生预期客户价值。DTO虽然概念脱胎于DT,但是两者之间在适用对象、模型数据等方面,有着显著的差异,我们参考Gartner的文章归纳出了表7-1。
Gartner预测2020年将有超过200亿个联网的传感器和端点,将会有数十亿个物件存在数字孪生。企业领导者开始有意识构建并不断改进企业的数据感知能力,希望提高物理对象的操作意识,并力求优化与这些对象的变化状态相关的决策,提升产品全生命周期数据收集和可视化能力,运用合适的分析工具和规则,高效地达成业务目标。通过操作数据或其他数据可以了解组织如何实施业务模型,连接其当前状态,部署资源,应对变化,以提供预期的客户价值,提升项目投资回报率,提升物理对象的性能并降低运营风险,从而创建更灵活、更动态、更迅捷的流程,自动应对数字化时代不断变化的形势。业务数字化整体方案如图7-1所示。
很多非数字原生企业的数据管理能力不足、信息化程度较低,DTO还遥不可及,但这又是数字化转型的趋势,所以可以先着手构建数据采集能力,完成数据感知、接入和存储,先让企业具备DTO应用的基础。
7.1.2 数据感知能力架构
随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。数据感知能力架构如图7-2所示。
数据感知可分为“硬感知”和“软感知”,面向不同场景。“硬感知”主要利用设备或装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而“软感知”使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖物理设备进行收集。如图7-3所示。
感知产生的数据还是孤立的物理对象的镜像,需要在企业这一复杂对象内部与其他数据资产一起,与流程、运营和指标之间建立关系,纳入企业的信息架构进行管理,才能真正打通从数据感知、生成到消费的链路。
当然,这一切的最终目的是生成企业级的感知数据,形成数字孪生的基础,满足企业利用人工智能、机器学习对数字孪生对象进行仿真分析、控制并优化制定战略目标的需求,帮助企业动态把握组织所处的环境,帮助管理者实时了解企业运营情况,为企业数字化变革提供建议,通过这些数字化的手段持续变革创新、获取业务价值。
7.2 基于物理世界的“硬感知”能力
7.2.1 “硬感知”能力的分类
数据采集方式主要经历了人工采集和自动采集两个阶段。自动采集技术仍在发展中,不同的应用领域所使用的具体技术手段也不同。基于物理世界的“硬感知”依靠的就是数据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现人工智能的基础。
基于当前的技术水平和应用场景,我们将“硬感知”分为9类,每一类感知方式都有自身的特点和应用场景,如图7-4所示。
1. 条形码与二维码
条形码或者条码是将宽度不等的多个黑条和空白,按一定的编码规则排列,用以表达一组信息的图形标识符,通常一维条形码所能表示的字符集不过10个数字、26个英文字母及一些特殊字符,条码字符集所能表示的字符个数最多为128个ASCII字符,信息量非常有限。
二维码是用某种特定的几何图形按一定规律在平面上分布的黑白相间的图形,用来记录数据符号信息。二维码拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修正及防伪功能,增加了数据的安全性。
2. 磁卡
磁卡是一种卡片状的磁性记录介质,利用磁性载体记录字符与数字信息,用来保存身份信息。视使用基材的不同,可分为PET卡、PVC卡和纸卡三种;视磁层构造的不同,又可分为磁条卡和全涂磁卡两种。
磁卡的优点是成本低,这是它容易推广的原因,但缺点也比较明显,例如卡的保密性和安全性较差,使用磁卡的应用系统需要有可靠的计算机系统和中央数据库的支持。
3. RFID
RFID(Radio Frequency Identification,无线射频识别)是一种非接触式的自动识别技术,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。基于特别业务场景的需求,在RFID的基础上发展出了NFC(NearField Communication,近场通信)。NFC本质上与RFID没有太大区别,在应用上的区别如下。
NFC的距离小于10cm,所以具有很高的安全性,而RFID距离从几米到几十米都有。
NFC仅限于13.56MHz的频段,与现有非接触智能卡技术兼容,所以很多的厂商和相关团体都支持NFC。而RFID标准较多,难以统一,只能在特殊行业有特殊需求的情况下,采用相应的技术标准。
RFID更多地被应用在生产、物流、跟踪、资产管理上,而NFC则在门禁、公交、手机支付等领域发挥着巨大的作用。
4. OCR和ICR
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或者数码相机)检查纸上打印的字符,通过边检测暗、亮的模式确定其形状,将其形状翻译成计算机文字的过程。如何除错或利用辅助信息提高识别正确率,是OCR的重要课题。
ICR(Intelligent Character Recognition,智能字符识别)是一种更先进的OCR。它植入了计算机深度学习的人工智能技术,采用语义推理和语义分析,根据字符上下文语句信息并结合语义知识库,对未识别部分的字符进行信息补全,解决了OCR的技术缺陷。
一个OCR识别系统,从影像到结果输出,须经过影像输入、影像预处理、文字特征抽取、比对识别,最后经人工校正将认错的文字更正,将结果输出。
目前OCR和ICR技术在业界有较为成熟的解决方案供应商,非数字原生企业不需要自行研发就可以完成相关技术的部署和数据的采集。
5. 图像数据采集
图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和对象的技术,是深度学习算法的一种实践应用。
图像数据采集的步骤如图7-5所示。
6. 音频数据采集
语音识别技术也被称为自动语音识别(Automatic SpeechRecognition,ASR),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件。
目前音频数据采集技术在业界也有较为成熟的解决方案供应商,可以很便捷地通过解决方案供应商的技术,完成技术的部署和数据的采集。
采集来的声音作为音频文件存储。音频文件是指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,是互联网多媒体中重要的一种文件。音频获取途径包括下载音频、麦克风录制、MP3录音、录制计算机的声音、从CD中获取音频等。
7. 视频数据采集
视频是动态的数据,内容随时间而变化,声音与运动图像同步。通常视频信息体积较大,集成了影像、声音、文本等多种信息。视频的获取方式包括网络下载、从VCD或DVD中捕获、从录像带中采集、利用摄像机拍摄等,以及购买视频素材、屏幕录制等。
8. 传感器数据采集
传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记录等要求。信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。
传感器数据的主要特点是多源、实时、时序化、海量、高噪声、异构、价值密度低等,数据通信和处理难度都较大。
9. 工业设备数据采集
工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或上报数据。工业设备和系统能够采集、存储、加工、传输数据。工业设备目前应用在很多行业,有联网设备,也有未联网设备。
工业设备数据采集应用广泛,例如可编程逻辑控制器(PLC)现场监控、数控设备故障诊断与检测、专用设备等大型工控设备的远程监控等。
7.2.2 “硬感知”能力在华为的实践
“硬感知”在非数字原生企业有广阔的前景,因为在数字化时代,非数字原生企业大量存在的产线、流程工艺、实体货物、物流设备等,都需要通过“硬感知”来实现数据的感知和采集。华为作为典型的非数字原生企业,9类数据“硬感知”能力在各领域中都得到了一定的应用,并已发挥了实际的业务价值。
1. 门店数字化
如图7-6所示,采用7种数据采集方式,支撑持续提升运营效率与消费者体验。通过光线传感器和温度传感器,自动调节窗帘、灯光,温度随环境改变,并与店门、窗帘、灯光、空调、屏幕、防盗系统联动,打造智能绿色门店环境。通过实物管理感知,样机自动申报位置与状态,异常告警,自动上报消费者在门店体验过程中的行为,结合消费者体验情况优化陈列、营销设计、产品设计。通过视频感知客流与热区,管理门店各片区人流密度与停留时间,优化陈列与营销,实时调整服务人力与资源配置。
2. 站点数字化
如图7-7所示,站点主要在高层或者在野外环境中,勘测和日常维护难度都比较大,通过360度全景拍照和OCR,构建站点物理对象完整的围栏尺寸、塔高、机房尺寸、设备尺寸、天线挂高、走线距离、天线的方位角、下倾角、扇区等数字镜像,实现在数字化站点勘测规划,现实站点直接施工,避免在现场反复勘测、设计调整。
7.3 基于数字世界的“软感知”能力
7.3.1 “软感知”能力的分类
物理世界的“硬感知”是将物理对象构建到数字世界中的主要通道,是构建数据孪生的关键,而已经存在于数字世界中的那些分散、异构信息,可通过“软感知”能力来利用。目前“软感知”比较成熟,并随着数字原生企业的崛起而得到了广泛的应用。我们将“软感知”分为3类,如图7-8所示。
1. 埋点
埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获。
埋点的主要作用是能够帮助业务和数据分析人员打通固有信息墙,为了解用户交互行为、扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活跃用户数等。这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营状况,通过分析埋点获取的数据,制定产品改进策略。
埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求,匹配使用。
代码埋点是目前比较主流的埋点方式,业务人员根据自己的统计需求选择需要埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在想要获取数据的统计点上。
可视化埋点通过可视化页面设定埋点区域和事件ID,从而在用户操作时记录操作行为。
全埋点是在SDK部署时做统一的埋点,将App或应用程序的操作尽量多地采集下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生的信息全采集下来。
2. 日志数据采集
日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目的是识别运行错误、配置错误、入侵尝试、策略违反或安全问题。
在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。
操作日志,指系统用户使用系统过程中的一系列的操作记录。此日志有利于备查及提供相关安全审计的资料。
运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。
安全日志,用于记录在设备侧发生的安全事件,如登录、权限等。
3. 网络爬虫
网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规则自动抓取网页信息的程序或者脚本。
搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的发展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最佳实践。Python、Java、PHP、C#、Go等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及,也促成了政府、企业界、个人对信息安全和隐私的关注。
7.3.2 “软感知”能力在华为的实践
“软感知”主要面向产品持续运营提供服务,基于对产品日志、用户行为的感知,改善产品功能。以华为内部数据管理平台为例(如图7-9所示),数据管理平台的数字化运营,需要识别用户行为,进而提升运营效率与用户数据消费的体验。通过对平台埋点,捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信息,并关联用户的部门、职位、所在地等信息,自动生成用户画像和数据画像,确定细分用户范围,界定相同认知背景和业务场景的用户,提供可识别的分类资产用于搜索,界定数据资产分类,面向不同用户界定不同的资产范围,减少匹配差异和搜索引擎复杂度,训练搜索引擎和推荐算法,提供最优数据推荐结果和排序位置。
12类感知能力在企业中的应用,突破了原有人工维护数据的局限。但是不管是“软感知”还是“硬感知”,产生的数据在没有纳入企业整体的数据管理体系情况下,如果只以独立数据的形式存在,是无法应对复杂的企业数字化变革的。
7.4 通过感知能力推进企业业务数字化
7.4.1 感知数据在华为信息架构中的位置
感知可以应用于广泛的物理世界和数字世界,感知范围可以从人、物、作业、地点扩展到复杂环境。成熟的用例倾向于以物和人为中心。而在企业中,只有将感知数据纳入整体的数据体系中,才能发挥感知数据的价值。
华为数据治理下的感知能力对接了数据供应链(Data SupplyChain),数据从感知采集到最终的分析消费,都纳入公司级的信息架构,作为数据资产来进行管理,如图7-10所示。
感知数据生成后,需要通过连接进入下一步环境,通过不同的数据类型,选择不同的数据接入方式。在确定数据接入方式之前,需要重点考虑以下几个问题。
数据源的可用性分析。
接入的数据量大小。
数据接入过程是连续的还是按一定的时间间隔进行。
数据接入是拉(Pull)的方式还是推(Push)的方式。
在数据接入的过程中,是否需要做数据校验或数据标准化。
在接入的过程中,是否需要对数据做进一步的处理,如数据聚合、数据分类等。
感知数据的接入方式与工具如图7-11所示。
根据不同的数据采集方式、采集内容和接入方式,选择合适的存储介质。在选择存储介质的时候需要考虑如表7-2所示的因素。
作为数据资产管理的核心,感知元数据管理应该包含两个方面的内容,如图7-12所示。
感知方式元数据:对数据感知的方法进行登记注册的过程,在后续的数据消费的过程中可以知道数据来源。
感知内容元数据:感知内容包括结构化数据和非结构化数据,所以元数据管理也分为结构化数据元数据和非结构化数据元数据。
感知得到的数据是企业信息架构的一部分,在数据分类中需要基于感知采集方式的差异,制定不同的管理办法。
观测工具和观测对象都要纳入信息架构中,定义业务对象对其进行管理。观测数据在资产管理中识别业务对象时,可以采用以下两个建议:
观测对象是一个时,观测数据挂靠在该业务对象下。
观测对象是多个时,观测数据按大股东原则判定数据Owner和挂靠业务对象。
7.4.2 非数字原生企业数据感知能力的建设
因为非数字原生企业的业务特征、数字化基础和数据管理阶段都不一样,数据感知和采集工具的成熟度也不一致,考虑技术发展和成本的制约因素,企业一般会逐步构建感知能力,完善企业数字孪生。我们参考埃森哲关于数字孪生的调查总结出了图7-13所示的数字孪生成熟阶段。
如果非数字原生企业需要构建感知能力,可以考虑从以下几个方向来选择,关键是能力的构建始终要贴合业务,尽快促成业务价值的呈现。
开发一个独特的物理对象感知能力可以获得收益的方向,包括改善运营、降低运营风险、降低成本、更好地为客户服务的机会,或者通过拥有质量更高、更全面的数据来进行更好的业务决策。在更复杂、更昂贵的环境(例如工业机器和企业资产)中,更有可能抵消感知能力构建的实现成本。组织是否拥有相关感知能力的前身,比如可以利用现有的、详细的元数据和模型(例如BOM、CAD和仿真模型)。需要一个模型来支持极端的操作环境,比如远程或环境恶劣的地方。
探索技术或商业模式的创新,比如增强现实的应用,或者实现资产货币化的新方法,或者提供前所未有的、差异化的服务水平等领域。
7.5 本章小结
随着非数字原生企业数字化转型项目的推进,感知能力构建的最终对象逐渐从单一节点发展到获得完整物理对象的数字孪生。考虑到物理对象的维度和可能的数据量,构建一个全量感知的企业数字孪生的成本可能会相当惊人。所以一个成功的数字化转型项目要构建的感知规模一定要面向应用,由业务价值驱动。非数字原生企业不可能构建物理对象100%的镜像数字孪生,也完全没必要这么做。每个数字孪生实际上只是对象的最有业务价值的一个或几个方面的数字模型,我们只需利用适当的技术满足特定的业务目标,优化回报,分阶段利用感知获取的数据创造价值,同时最大限度地降低成本,逐步完成全量的数据感知能力,打造“孪生”的数字世界。