利用大数据分析工具,实现多场景可视化数据管理

news2024/10/1 12:13:17

官方使用文档

https://yanhuang.yuque.com/staff-sbytbc/rb5rur?

准备服务器环境

购买服务器

购买腾讯云服务器,1300 元新人价,一年时间

●4核16G内存

●CentOS 6.7

(补充说明:最新的 2.7.1 GA 版本,8G 内存也是可以跑的,可以先使用8G,不够再做升级)。

安装docker环境

安装docker,速度还挺快的,大概3~5分钟内

图片

下载鸿鹄体验版本安装包

1、注册鸿鹄账号,获取下载地址

●https://www.yanhuangdata.com/auth/register?redirect_url=%2Fapi%2Fproducts%2Fhonghu%2F2.7.0%2Fdownload%3Fos%3Dlinux

图片

注册完成点击首页的【免费社区版】

图片

图片

点击下载安装包即可。

安装鸿鹄

上传压缩包

现将安装包上传到服务器,scp或者ftp都可以,这里用scp(好像不需要端口)

图片

Tips:如果遇到Permission denied的情形,登录服务器,开启root权限,编辑文件 /etc/ssh/sshd_config

去掉#

图片

安装

官方教程比较详细,参考操作即可:https://yanhuang.yuque.com/staff-sbytbc/rb5rur/auwfm3?#EveRG

将鸿鹄安装包解压缩到 /opt 目录。解压完成之后,所有的鸿鹄相关文件位于 /opt/honghu目录下。

后续文档中,以HONGHU_HOME指代鸿鹄的安装目录。在上面的例子中,HONGHU_HOME 就是 /opt/honghu目录。

启动

问题:如果遇到 “Resource exhausted on 1 nodes”错误,可以考虑重启docker daemon解决

图片

图片

重启 docker daemon,重新启动鸿鹄,解决了问题。

图片

成功

图片

这个密码可以在登录后的账号管理中去修改,如下图

图片

登录

输入控制台安装完成后的提示的用户名、密码就可以登录了。

图片

图片

示例体验

版本2.7.1之后,鸿鹄新增了【主应用】->【Yanhuang Product Showroom】

图片

场景一:shopify后台登录日志记录,进行可视化查询管理和报警

需求痛点

目前的 shopify 用户操作日志记录很不直观,只有一行行记录,很难查,需要主屏不断拉取加载才行。而且信息不结构化,看不出有效信息。当遇到某个出错问题时,想去查询相关的操作记录,很难定位。

目标

●结构化信息,方便搜索查询

●定义某类异常操作,进行报警

●统计各用户使用频率,输出数据报表

导入数据

第一步:上传文件

当前用的是 csv 格式文件的数据,直接导入

图片

第二步:预览数据,有1000条数据

图片

【小提示】

点击另存为,可以为 shopifiy 数据新建一个数据源类型。

点击【另存为】

图片

第三步:导入数据

图片

导入完成

图片

查询数据

导入后,查看数据,默认显示如下视图

图片

sql的查询语句如下:

收藏查询语句

图片

图片

下次进入的时候可以直接在右边点击【展开】,再点击【已收藏查询】,查看收藏过的查询语句列表,并加载。这样复杂的查询语句,就不用每次去手写了,一键即可加载。

图片

图片

重新筛选需要的字段

点击【显示字段栏】

图片

默认会罗列出原始数据,并帮助组织字段

图片

以上内容是原始数据,但对我来说还是混乱的。我比较关心三个内容:谁、在哪天、干了什么。

在查询结果左边栏的【已选字段】和【剩余字段】,是鸿鹄自动处理,帮助筛选的,我们可以点击对应字段的名字,会有鸿鹄抽取出来的该字段对应的具体数据条目内容,来帮助我们确认应该保留哪些字段。

图片

根据自己的需求,确认了如下字段

●操作者:author

●操作内容:description

●时间:created_at

点击【查看详情】

图片

选择刚才确认的字段,并保存。

图片

新建展示图表

以成员的操作频率对比图为示例

点击字段,选中author,我们想用弹窗中的数值来构建图表

图片

图片

在顶部的查询框中录入如下查询:

图片

得到结果如下

图片

点击【新建图表】,选中【柱状图】,在右边的属性配置栏稍微调整下显示,顺利拿到图表。发现对系统更改最多的是【Upsell】这个角色,很直观!

图片

导出查询结果

对于查询的表格结果,也可以过滤不想要的字段后,导出为新表格,这个功能可以用于额外的数据处理

图片

<a href="" https

<a href="" https导出后的结果为 csv,如下

图片

自定义内容抽取功能体验

针对一段系统没有解析好的日志文本,我们可以用鸿鹄自己去定义解析字段。点击字段最下方的【抽取新字段】可以进行操作

图片

进入抽取新字段页面后,例如下面这个_message字段,我想把里面的内容拆的更结构化。

图片

选取的是【正则抽取】,方法是对于原始文本,鼠标选中认为是一个字段的字符串,选中后,会有一个弹窗,对这个字段进行命名。

图片

拆完以后,得到的数据如下图,下面的【字段抽取预览】可以比较方便的实时看到拆完后的结果。

图片

继续下一步

图片

完成!

图片

点击【查询刚才创建的字段】,回到查询数据界面,我们在左侧可以看到刚刚自定义的一系列字段,这些新字段,可以按照上面的步骤,继续去创建图标,或者导出为表格内容。不得不说,鸿鹄在抽象杂乱文本的,结构化建模相当高效!

图片

新建查询图表

这次的日志场景,我比较关心的核心内容为:谁、在哪天、干了什么。

怎么才能快速的基于鸿鹄建立可查询的内容?例如下面的形式:

图片

这次的 shopify 后台登录日志里的场景就是:

1、大量日志数据经过鸿鹄读时建模处理成可抽取字段的结构化数据。

2、筛选需要的字段,author、description、created_at,生成表格。

3、基于表格,我们可以快速筛选具体某一天的操作日志,用于排查当天发生的操作行为,辅助营销动作定位问题。

【建议点】

目前鸿鹄图表,暂时还不支持这种表格查询的生成,由于我们的日志量比较大,可能一段时间能累积 > 5000条,逐行去翻阅会比较困难,基于鸿鹄的读时建模,快速筛选有效字段,并组织成可查询的表格,对于混乱数据的有序定位,是比较好的一个功能。

不过如果数据量不大,SQL查询,过滤数据之后,再把结果集保存成一个Table,加入到仪表板是可以满足这个需求的。

场景二:生成 API 功能

场景描述:由于个人经常在做一些查询类的小工具,例如【深圳二手房指导价】,甚至是之前炎凰有演示过的全国疫情数据地图,这些数据通常有如下这些文件形式:

图片

我之前的操作步骤是

图片

这其中,【人工清理处理数据】、【定义字段录入数据库】、【开发api接口】可以说是最核心也是费时间的大头。

了解鸿鹄以后,我发现基于鸿鹄可以很大的简化这个过程,操作流程变为如下:

图片

由于鸿鹄具备数据读取,实时建模,字段任意定义等核心功能,那么是否可以顺势支持api接口的对外提供?简化 API 生成环节,同时具备数据管理功能。例如生成一条如下 API。

图片

当然,是基于鸿鹄目前核心能力的一种扩展建议。

其他工具使用体验对比反馈

由于工作内容性质,目前接触了一些市面上的数据工具,例如 Tableau 和神策。

Tableau

其中 Tableau 偏向于数据报表的呈现,他的优势点是,基于数据呈现的自定义灵活性较高。Tableau 更像应用层。

而鸿鹄的核心是数据读时处理,但由于鸿鹄处理的是数据最复杂的环节,很有潜力向上延展,补齐【数据展示层】,形成一体化数据应用。

与鸿鹄的官方人员沟通,当前鸿鹄或者商业版本的炎凰,都支持 Restful 标准 API,也能让数据开发者通过鸿鹄提供的 API 接口与 Tableau 做数据对接,预留了扩展接口。

神策

神策主要基于数据的埋点、上报,进而构建一套完整的数据分析路径:【数据池-数据分析-数据展示】。

体验下来的优点是相对闭环,数据实时性较高;但对外暴露的扩展性,相对没有鸿鹄高。当然两者目前的定位也不算一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/836508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP的三次握手四次挥手

TCP的三次握手和四次挥手实质就是TCP通信的连接和断开。 三次握手&#xff1a;为了对每次发送的数据量进行跟踪与协商&#xff0c;确保数据段的发送和接收同步&#xff0c;根据所接收到的数据量而确认数据发送、接收完毕后何时撤消联系&#xff0c;并建立虚连接。 四次挥手&a…

flyway快速入门

flyway快速入门 一、flyway是什么&#xff1f;二、flyway使用目的1. 使用原因&#xff1a;2. 举个例子&#xff1a; 三、flyway工作原理四、flyway使用约定和命名规则1. 数据库版本文件整体约定2. 数据库版本文件夹管理约定3. 数据库版本文件命名约定4. 禁止项 五、flyway配置和…

微信多开(双开三开均可,且不局限于微信,其他设备亦可)

1.鼠标右键“微信”&#xff0c;属性 如上图&#xff0c;自动选取的&#xff0c;别动&#xff0c;然后CtrlC,,,,结果如下 "C:\Program Files (x86)\Tencent\WeChat\WeChat.exe" 2.创建文本&#xff0c;电脑桌面空白处单击&#xff0c;新建&#xff0c;文本档案&#…

Java版工程行业管理系统源码-专业的工程管理软件-em提供一站式服务 em

​ Java版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下&#xff1a; 首页 工作台&#xff1a;待办工作、消息通知、预警信息&#xff0c;点击可进入相应的列表 项目进度图表&#xff1a;选择&#xff08;总体或单个&#xff09;项目…

安卓:BottomNavigationBar——底部导航栏控件

目录 一、BottomNavigationBar介绍 二、BottomNavigationBar的常用方法及其常用类 &#xff08;一&#xff09;、常用方法 1. 添加菜单项 2. 移除菜单项 3. 设置选中监听器 4. 设置当前选中项 5. 设置徽章 6. 样式和颜色定制 7. 动画效果 8. 隐藏底部导航栏。 9、设…

局域网新大陆?

操作后&#xff0c;即可实现局域网互通。

【java】民营医院、门诊部、连锁集团、公立医疗云HIS系统源码

基于云计算技术的B/S架构的医院管理系统(简称云HIS)&#xff0c;为医疗机构提供标准化的、信息化的、高效可靠的医疗信息管理系统&#xff0c;实现医患事务管理和临床诊疗管理等标准医疗管理信息系统的功能。利用云计算平台的技术优势&#xff0c;建立统一的云HIS、云病历、云P…

性能监控工具-Grafana安装和使用方法

Grafana是一款开源的数据可视化和监控平台。它提供了丰富的可视化方式&#xff0c;如图表、仪表盘、警报等&#xff0c;支持多种数据源&#xff0c;包括Prometheus、InfluxDB、Graphite等&#xff0c;适用于各种规模的系统监控和数据分析。Grafana还有一个强大的插件生态系统&a…

视频监控汇聚平台EasyCVR视频分享页面WebRTC流地址播放不了是什么原因?

开源EasyDarwin视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中&#xff0c;将分散的各类视频资源进行统一汇聚、整合、集中管理&#xff0c;在视频监控播放上&#xff0c;TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放&#xff0c;可同时播放多…

淘宝店铺数据API接口 店铺详情数据API 店铺所有商品API接口

引言 在电商平台上&#xff0c;店铺所有商品API接口是一项非常重要且有着广泛应用的技术。它使得开发者能够方便地获取和管理店铺中的所有商品信息&#xff0c;进而实现自动化的商品管理和数据分析。本文将详细介绍店铺所有商品API接口的定义、功能以及调用流程&#xff0c;并附…

王道《操作系统》学习(二)——进程管理(三)

2.3.1 进程同步、进程互斥 &#xff08;1&#xff09;进程同步 &#xff08;2&#xff09;进程互斥 “同时”指的是宏观上的同时&#xff0c;微观上可能这些进程是交替地在访问这些共享资源的 当“上锁”后&#xff0c;其他的进程想要访问临界资源时&#xff0c;在进入区进行检…

js修改png图片颜色

思路是利用canvas 改变图片颜色 /*** 将png图片转成目标颜色* param imgUrl 可传入图片URL 或者 Base64* param RGBArr 要换成的目标颜色RGB 数组格式[R,G,B]* param Functon callback回调*/ function changeImageColor(imgUrl, RGBArr, callback) {let image new Image();im…

人工智能大模型中token的理解

“token”是当前语言类模型的数据单位。当前的自回归语言模型是根据 token 来作为单位进行数据处理和计算&#xff0c;分词&#xff08;tokenization&#xff09;就是将句子、段落、文章这类型的长文本分解为以 token 为单位的数据结构&#xff0c;把文本分词后每个词表示成向量…

小白入门Java第一天

当你对 Java语言有了一些了解后&#xff0c;你就可以开始着手学习Java了。 作为你的Java 学习第一天&#xff0c;所需掌握内容如下述目录&#xff1a; 文章目录 1. 注释1. 三种注释1.1 单行注释1.2 多行注释1.3 文档注释 2. 标识符和关键字2.1 标识符的组成&#xff1a;2.2 那…

C++11新特性lambda 表达式

lambda 表达式 lambda 表达式 lambda 表达式 Lambda 表达式的基本语法是&#xff1a;[] (参数列表) -> 返回值类型 {函数体}。 方括号([])表示捕获列表&#xff0c;用来指定在 lambda 表达式中可以访问的外部变量。 参数列表和返回值类型与普通函数的参数列表和返回值类型相…

写字楼门禁如何管理?最最新方法来了!

在现代社会&#xff0c;随着城市化和商务发展的蓬勃推进&#xff0c;大厦写字楼作为繁忙的商业中心和办公场所&#xff0c;其安全管理和员工考勤变得尤为重要。为了应对这一挑战&#xff0c;人脸门禁考勤机应运而生&#xff0c;成为大厦写字楼的安全保障和工时管理的关键工具。…

翻译公司提供哪些口译服务,北京翻译哪里比较专业?

我们知道&#xff0c;口译服务是一种即席的现场翻译活动&#xff0c;在涉外沟通交流中起着至关重要的作用。那么&#xff0c;如何做好口译工作&#xff0c;翻译公司提供哪些口译服务&#xff0c;北京翻译哪里比较专业&#xff1f; 据了解&#xff0c;相对于笔译&#xff0c;口译…

《吐血整理》高级系列教程-吃透Fiddler抓包教程(27)-Fiddler如何抓取Android7.0以上的Https包-中篇

1.简介 上一篇中&#xff0c;讲解和分享了一些如何快速解决的临时应急的的方法&#xff0c;但是小伙伴或者童鞋们是不是觉得是一些头痛医头脚痛医脚的方法&#xff0c;治标不治本&#xff0c;或者是一些对于测试人员实现起来比较有一定难度。所以今天宏哥再介绍和分享一下治本…

长相思·罚站墙Vue

优化前 看效果图 Vue长相思 刚学Vue&#xff0c;正好在追剧&#xff0c;看到这个小案例觉得挺好玩的&#xff0c;第一天学&#xff0c;代码太简陋了 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta…

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码

海外版金融理财系统源码 国际投资理财系统源码 项目投资理财源码