电商数据采集要注意哪些点?
首先是采集平台,是否可以覆盖主流的电商平台,如淘宝、天猫、京东、拼多多等,其次是覆盖程度,是否可对平台中的多个字段进行采集,如价格、销量、促销信息,最后是采集数据的时间点,因为有些品牌的采集需求是不固定的,所以要求应24小时可对电商平台中的数据进行公开采集。同时,我们还需要关注最重要的一点,我们采集的数据是否是主流电商平台实时接口采集数据。
技术难点
主要包括以下几方面:
数据量巨大
任何系统,在不同的数据量面前,需要的技术难度都是完全不同的。
如果单纯是将数据采到,可能还比较好完成,但采集之后还需要处理,因为必须考虑数据的规范与清洗,因为大量的工业数据是“脏”数据,直接存储无法用于分析,在存储之前,必须进行处理,对海量的数据进行处理,从技术上又提高了难度。
工业数据的协议不标准
互联网数据采集一般都是我们常见的HTTP等协议,但在工业领域,会出现ModBus、OPC、CAN、ControlNet、DeviceNet、Profibus、Zigbee等等各类型的工业协议,而且各个自动化设备生产及集成商还会自己开发各种私有的工业协议,导致在工业协议的互联互通上,出现了极大地难度。
很多开发人员在工业现场实施综合自动化等项目时,遇到的最大问题及时面对众多的工业协议,无法有效的进行解析和采集。
视频传输所需带宽巨大
传统工业信息化由于都是在现场进行数据采集,视频数据传输主要在局域网中进行,因此,带宽不是主要的问题。
但随着云计算技术的普及及公有云的兴起,大数据需要大量的计算资源和存储资源,因此工业数据逐步迁移到公有云已经是大势所趋了。但是,一个工业企业可能会有几十路视频,成规模的企业会有上百路视频,这么大量的视频文件如何通过互联网顺畅传输到云端,是开发人员需要面临的巨大挑战。
对原有系统的采集难度大
在工业企业实施大数据项目时,数据采集往往不是针对传感器或者PLC,而是采集已经完成布署的自动化系统上位机数据。
这些自动化系统在部署时厂商水平参差不齐,大部分系统是没有数据接口的,文档也大量缺失,大量的现场系统没有点表等基础设置数据,使得对于这部分数据采集的难度极大。
安全性考虑不足
原先的工业系统都是运行在局域网中,安全问题不是突出考虑的重点。一旦需要通过云端调度工业之中最为核心的生产能力,又没有对安全的充分考虑,造成损失,是难以弥补的。