业务应用和大数据平台的数据流向

news2025/2/25 6:40:42

概述

业务应用与大数据平台之间的交互是实现数据驱动决策和实时业务处理的关键环节。其交互方式多样,协议选择取决于数据流向、实时性要求及技术架构。一句话总结,数据流向可以是从业务应用写入大数据平台,也可以是大数据平台回写至业务应用的数据库。


一、交互场景与协议分类

1. 数据采集(业务应用 → 大数据平台)

目标:将业务数据(日志、交易记录等)实时或批量传输到大数据平台存储或处理。

常用协议与工具
  1. HTTP/HTTPS

    • 场景:业务应用通过 REST API 发送数据。
    • 工具
      • Apache Flume:通过 HTTP Source 接收数据,写入 HDFS/Kafka。
      • 自定义 API 服务:业务应用直接调用大数据平台的 API 网关。
    • 示例
      # 业务应用通过 POST 请求发送 JSON 数据
      import requests
      data = {"user_id": 123, "action": "purchase"}
      response = requests.post("https://bigdata-api.example.com/events", json=data)
      
  2. 消息队列协议(TCP/AMQP/MQTT)

    • 场景:高吞吐、低延迟的实时数据传输。
    • 工具
      • Apache Kafka:业务应用通过 Kafka Producer 发送数据到 Topic。
      • RabbitMQ:使用 AMQP 协议传输数据。
    • 示例(Kafka):
      // 业务应用发送数据到 Kafka
      Properties props = new Properties();
      props.put("bootstrap.servers", "kafka-broker:9092");
      Producer<String, String> producer = new KafkaProducer<>(props);
      producer.send(new ProducerRecord<>("user_events", "key", "{\"event\": \"login\"}"));
      
  3. 文件传输协议(SFTP/SCP/HDFS API)

    • 场景:批量上传日志文件或数据库导出文件。
    • 工具
      • Apache NiFi:通过 SFTP 拉取文件后写入 HDFS。
      • Hadoop HDFS Client:直接调用 HDFS API 上传文件。
    • 示例(HDFS CLI):
      # 业务服务器上传日志到 HDFS
      hdfs dfs -put /var/log/app.log /data/raw/logs/
      

2. 数据处理与查询(双向交互)

目标:大数据平台处理数据后,业务应用查询结果或订阅实时分析结果。

常用协议与工具
  1. SQL 协议(JDBC/ODBC)

    • 场景:业务应用通过 SQL 查询数据仓库。
    • 工具
      • Apache Hive/Trino:提供 JDBC 驱动,支持标准 SQL 查询。
      • ClickHouse:高性能 OLAP 数据库,支持 HTTP 和 JDBC。
    • 示例(JDBC 查询 Hive):
      // 业务应用通过 JDBC 连接 Hive
      Class.forName("org.apache.hive.jdbc.HiveDriver");
      Connection conn = DriverManager.getConnection("jdbc:hive2://hive-server:10000/default");
      Statement stmt = conn.createStatement();
      ResultSet rs = stmt.executeQuery("SELECT user_id, COUNT(*) FROM logs GROUP BY user_id");
      
  2. REST API

    • 场景:查询预计算的结果(如报表、用户画像)。
    • 工具
      • Elasticsearch:通过 REST API 提供全文检索和聚合结果。
      • Superset/Tableau:可视化工具通过 API 拉取数据。
    • 示例(查询 Elasticsearch):
      # 业务应用查询用户行为统计
      curl -XGET "http://es-server:9200/user_actions/_search?q=action:login"
      
  3. 流式结果订阅(WebSocket/SSE)

    • 场景:实时监控或告警(如风控系统接收实时异常事件)。
    • 工具
      • Apache Flink:通过 WebSocket 或 Kafka 推送实时处理结果。
      • Redis Pub/Sub:业务应用订阅频道获取实时数据。
    • 示例(Flink + WebSocket):
      // Flink 将处理结果写入 WebSocket Sink
      DataStream<String> alerts = ...; // 实时风控结果
      alerts.addSink(new WebSocketSink("ws://business-app:8080/alerts"));
      

3. 反向数据同步(大数据平台 → 业务应用)

目标:将分析结果(推荐模型、用户标签)回写至业务数据库或缓存。

常用协议与工具
  1. 数据库协议(JDBC/ODBC)

    • 场景:将聚合结果写入 MySQL、PostgreSQL 等业务数据库。
    • 工具
      • Apache Spark:使用 JDBC 写入业务库。
      • Airflow:通过 Python 脚本同步数据。
    • 示例(Spark 写 MySQL):
      # Spark 将结果写入业务库
      df.write.format("jdbc") \
        .option("url", "jdbc:mysql://mysql-host:3306/app_db") \
        .option("dbtable", "user_stats") \
        .save()
      
  2. 缓存协议(Redis/Memcached)

    • 场景:实时更新缓存中的用户画像或推荐结果。
    • 工具
      • Apache Flink:直接调用 Redis Sink 更新缓存。
    • 示例(Flink + Redis):
      // Flink 实时更新 Redis 中的用户积分
      DataStream<Tuple2<String, Integer>> userScores = ...;
      userScores.addSink(new RedisSink<>(config, new RedisMapper(...)));
      
  3. 文件导出(SFTP/HTTP)

    • 场景:生成 CSV/Excel 报表供业务下载。
    • 工具
      • Apache Airflow:定时导出数据到 SFTP 服务器。
      • MinIO:通过预签名 URL 提供临时下载链接。
    • 示例(Airflow SFTP 导出):
      # Airflow 任务将 Hive 查询结果导出到 SFTP
      sftp_operator = SFTPOperator(
          task_id="export_report",
          ssh_conn_id="sftp_conn",
          local_filepath="/tmp/report.csv",
          remote_filepath="/reports/report_{{ ds }}.csv"
      )
      

二、协议选型关键因素

  1. 实时性要求

    • 实时:Kafka、WebSocket、Redis Pub/Sub。
    • 准实时/批量:JDBC、SFTP、HDFS。
  2. 数据规模

    • 大文件/高吞吐:HDFS、Kafka。
    • 小数据/低延迟:HTTP、gRPC。
  3. 安全性

    • 敏感数据:HTTPS、SFTP、Kerberos 认证的 HDFS。
    • 公开数据:HTTP、普通 JDBC。
  4. 技术栈兼容性

    • Java 生态:优先选 Kafka、HDFS、Hive JDBC。
    • Python 生态:多用 REST API、PySpark、Airflow。

三、典型架构示例

电商实时推荐系统
  1. 数据采集
    • 用户点击流数据通过 Kafka 实时发送至 Flink。
  2. 数据处理
    • Flink 实时计算用户兴趣标签,写入 Redis
  3. 结果反馈
    • 业务应用(推荐服务)通过 Redis 读取标签,生成推荐列表。
  4. 离线分析
    • 每日通过 Spark 批量计算历史订单数据,结果写入 MySQL 供运营查看。
日志分析平台
  1. 日志收集
    • 业务服务器通过 Filebeat 将日志发送至 Kafka
  2. 存储与处理
    • Kafka 数据落地到 HDFS,由 Spark 进行 ETL。
  3. 查询展示
    • 处理后的数据导入 Elasticsearch,前端通过 REST API 查询可视化仪表盘。

四、安全与治理

  1. 认证与授权
    • Kafka:SASL/SCRAM 或 SSL 客户端认证。
    • HDFS:Kerberos 集成 LDAP/AD。
  2. 数据加密
    • 传输层:TLS(如 HTTPS、Kafka SSL)。
    • 存储层:HDFS Transparent Encryption。
  3. 审计与监控
    • 记录 API 调用日志(如 Elasticsearch Audit Log)。
    • 使用 Prometheus + Grafana 监控接口性能。

总结

业务应用与大数据平台的交互是一个多层次、多协议协作的过程,需根据具体场景选择合适的技术栈。核心要点包括:

  • 实时场景:优先使用消息队列(Kafka)和流处理引擎(Flink)。
  • 批量处理:依赖 HDFS、Spark 和调度工具(Airflow)。
  • 查询与反馈:通过 SQL(JDBC)、REST API 或缓存(Redis)实现。
  • 安全:始终贯穿传输加密、身份认证与权限控制。

通过合理设计交互协议与工具链,可构建高效、稳定且安全的数据流水线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2304755.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言中的文件和文件操作

文件操作 一、文件的打开和关闭二、文件的顺序读写fgetc和fputcfgets和fputsfscanf和fprintfsscanf和sprintffread和fwrite 三、文件的随机读写1.fseek2.ftell3.rewind 四、补充1.文件读取结束的判定2.文件缓冲区 一、文件的打开和关闭 流和标准流 流&#xff1a;想象为流淌着…

2.24力扣每日一题--设计有序流

1656. 设计有序流 - 力扣&#xff08;LeetCode&#xff09; &#xff08;设计一个可以存储n个字符串的数据结构&#xff0c;其中满足存在一个”指针“&#xff0c;用以展示当下是否还存在空间存储&#xff0c;每个字符串有自己ID需要存储&#xff09; 数据结构&#xff1a; 字…

架构——Nginx功能、职责、原理、配置示例、应用场景

以下是关于 Nginx 的功能、职责、原理、配置示例、应用场景及其高性能原因的详细说明&#xff1a; 一、Nginx 的核心功能 1. 静态资源服务 功能&#xff1a;直接返回静态文件&#xff08;如 HTML、CSS、JS、图片、视频等&#xff09;。配置示例&#xff1a;server {listen 80…

涉密载体管控系统革新:RFID技术引领,信息安全新境界

行业背景 文件载体管控系统DW-S402是用于对各种SM载体进行有效管理的智能柜&#xff08;智能管理系统&#xff09;&#xff0c;实现对载体的智能化、规范化、标准化管理&#xff0c;广泛应用于保密、机要单位以及企事业单位等有载体保管需求的行业。 随着信息化技术发展&…

基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现

大家好&#xff0c;今天要和大家聊的是一款基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现。项目源码以及部署相关事宜请联系我&#xff0c;文末附上联系方式。 项目简介 基于 SpringBoot 的 “电影交流平台小程序” 系统设计与实现的主要使用者分为 管理员 和…

【Rust中级教程】2.9. API设计原则之显然性(obvious) :文档与类型系统、语义化类型、使用“零大小”类型

喜欢的话别忘了点赞、收藏加关注哦&#xff08;加关注即可阅读全文&#xff09;&#xff0c;对接下来的教程有兴趣的可以关注专栏。谢谢喵&#xff01;(&#xff65;ω&#xff65;) 2.9.1. 文档与类型系统 用户可能不会完全理解API的所有规则和限制。所以你写的API应该让你…

【网络编程】广播和组播

数据包发送方式只有一个接受方&#xff0c;称为单播。如果同时发给局域网中的所有主机&#xff0c;称为广播。只有用户数据报(使用UDP协议)套接字才能广播&#xff1a; 广播地址以192.168.1.0 (255.255.255.0) 网段为例&#xff0c;最大的主机地址192.168.1.255代表该网段的广…

Lecture 1 - AI Systems (Overview)

一、Machine Learning Approach标准机器学习流程 • Train ML algorithm&#xff08;训练机器学习算法&#xff09;&#xff1a;基于收集的数据训练机器学习模型。 二、Machine Learning for Adaptation&#xff08;适应性机器学习&#xff09; 加入了数据更新和自动化的部分…

Ansible 学习笔记

这里写自定义目录标题 基本架构文件结构安装查看版本 Ansible 配置相关文件主机清单写法 基本架构 Ansible 是基于Python实现的&#xff0c;默认使用22端口&#xff0c; 文件结构 安装 查看用什么语言写的用一下命令 查看版本 Ansible 配置相关文件 主机清单写法

springboot005学生心理咨询评估系统(源码+数据库+文档)

源码地址&#xff1a;学生心理咨询评估系统 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表&#xff08;含论文&#xff09;后台运行截图 1.项目简介 ​ 使用旧方法对学生心理咨询评估信息进行系统化管理已经不再让人们信赖了&#xff0c;把现…

Apache Doris:一款高性能的实时数据仓库

Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称&#xff0c;能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景&#xff0c;也能支持高吞吐的复杂分析场景。 Apache Doris 最初是百度广告报表业务…

轻量级日志管理平台Grafana Loki

文章目录 轻量级日志管理平台Grafana Loki背景什么是Loki为什么使用 Grafana Loki&#xff1f;架构Log Storage Grafana部署使用基于 Docker Compose 安装 LokiMinIO K8s集群部署Loki采集Helm 部署方式和案例 参考 轻量级日志管理平台Grafana Loki 背景 在微服务以及云原生时…

《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战

前一篇文章&#xff0c;使用 AlexNet 实现图片分类 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于学习 9年后重读深度学习奠基作之一&#xff1a;AlexNet【下】【论文精读】】的心得。 《跟李沐…

【电机控制器】FU6832S——持续更新

【电机控制器】FU6832S——持续更新 文章目录 [TOC](文章目录) 前言一、ADC二、UART三、PWM四、参考资料总结 前言 使用工具&#xff1a; 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、ADC 二、UART 三、PWM 四、参考资料 总结 本文仅仅简…

计算机视觉算法实战——产品分拣(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ 1. 领域简介✨✨ 产品分拣是工业自动化和物流领域的核心技术&#xff0c;旨在通过机器视觉系统对传送带上的物品进行快速识别、定位和分类&a…

基于模块联邦的微前端架构:重构大型前端应用的模块化边界

引言&#xff1a;企业级前端的模块化困境 字节跳动广告系统采用Webpack 5模块联邦后&#xff0c;主应用构建时间从14分钟降至38秒&#xff0c;微应用独立发布频率提升至每天50次。在动态加载机制下&#xff0c;首屏资源加载体积减少79%&#xff0c;跨团队组件复用率达到92%。其…

Android之图片保存相册及分享图片

文章目录 前言一、效果图二、实现步骤1.引入依赖库2.二维码生成3.布局转图片保存或者分享 总结 前言 其实现在很多分享都是我们自定义的&#xff0c;更多的是在界面加了很多东西&#xff0c;然后把整个界面转成图片保存相册和分享&#xff0c;而且现在分享都不需要第三方&…

Linux放行端口

8080这个端口测试看telnet是不通的&#xff0c;您服务器内是否有对应的业务监听了这个端口呢&#xff1f;您到服务器内执行下&#xff1a; netstat -nltp |grep 8080 同时服务器内执行下&#xff1a; systemctl status firewalld iptables -nL 截图反馈下&#xff0c;我看下防火…

Spring Boot延迟执行实现

说明&#xff1a;本文介绍如何在Spring Boot项目中&#xff0c;延迟执行某方法&#xff0c;及讨论延迟执行方法的是事务问题。 搭建Demo 首先&#xff0c;创建一个Spring Boot项目&#xff0c;pom.xml如下&#xff1a; <?xml version"1.0" encoding"UTF-…

npm i 失败权限问题

安装完node之后, 测试全局安装一个最常用的 express 模块进行测试 失败&#xff0c;但是用管理员权限打开cmd 安装就成功。 报错如下&#xff1a; npm ERR! If you believe this might be a permissions issue, please double-check the npm ERR! permissions of the file and …