不同系统间数据交换要通过 api 不能直接数据库访问

news2025/1/12 9:38:00

image.png

很多大数据开发提供数据给外部系统直接给表结构,这是不好的方式。在不同系统间进行数据交换时,通过API(应用程序编程接口)而非直接访问数据库是现代系统集成的一种最佳实践。

目录

      • 为什么要通过API进行数据交换
      • 如何通过API进行数据交换
      • 实现步骤
      • 使用Flask构建RESTful API
        • 安装Flask
        • API代码示例
        • 启动API服务器
      • 使用Spring Boot构建RESTful API
        • 创建Spring Boot项目并添加依赖
        • 创建API控制器
        • 创建数据实体和仓库
        • 启动Spring Boot应用
      • 将大数据平台的数据提供给外部系统
        • 使用PySpark读取数据
        • 将PySpark数据集成到Flask API
      • 总结

为什么要通过API进行数据交换

image.png

  1. 安全性

    • 控制访问:API可以通过认证和授权机制来控制谁可以访问数据。
    • 隔离系统:通过API访问数据可以隔离不同系统,减少一个系统的漏洞或故障对其他系统的影响。
  2. 数据一致性

    • 统一接口:API提供了统一的数据访问接口,可以确保数据的一致性和完整性。
    • 减少重复:通过API避免了在多个地方实现相同的数据逻辑,从而减少了重复代码和潜在的错误。

image.png

  1. 维护性和扩展性

    • 模块化设计:API使得系统更加模块化,便于维护和扩展。
    • 易于升级:通过API可以更容易地进行系统的升级和更新,而不影响其他系统。
      image.png
  2. 日志和监控

    • 跟踪访问记录:API可以记录所有的请求和响应,便于监控和审计。
    • 性能监控:通过API可以更容易地监控系统性能,发现和解决瓶颈问题。
      image.png

如何通过API进行数据交换

image.png

  1. RESTful API

    • 定义资源:每个API端点代表一个资源,如用户、订单等。
    • 使用HTTP方法:GET、POST、PUT、DELETE等方法对应于读取、创建、更新、删除操作。
  2. SOAP API

    • 使用XML:SOAP(简单对象访问协议)使用XML格式来定义消息结构。
    • 更严格的标准:SOAP提供了更严格的协议和标准,适用于需要高安全性和事务处理的场景。
  3. GraphQL

    • 灵活查询:允许客户端指定需要的数据结构,减少数据传输量。
    • 单个端点:通过单个端点提供数据查询和操作,简化接口管理。
  4. 消息队列

    • 异步通信:使用消息队列(如RabbitMQ、Kafka)可以实现系统间的异步数据传输。
    • 解耦系统:通过消息队列可以解耦生产者和消费者,提升系统的扩展性和可靠性。

实现步骤

image.png

  1. 需求分析

    • 确定需要交换的数据和操作,设计API接口和数据模型。
  2. API设计

    • 选择合适的API风格(RESTful、SOAP、GraphQL等)。
    • 定义API端点、请求方法、参数和响应格式。
  3. 安全机制

    • 实现认证(如OAuth、JWT)和授权机制。
    • 确保数据传输的安全性(如HTTPS)。
  4. 开发和测试

    • 开发API,并进行单元测试和集成测试。
    • 使用工具(如Postman、Swagger)进行测试和文档编写。
  5. 部署和监控

    • 部署API服务,并设置日志和监控系统。
    • 定期检查和优化API性能和安全性。

通过API进行数据交换不仅提高了系统的安全性和维护性,还增强了系统的扩展能力和灵活性,是现代系统架构设计中的重要实践。

image.png

其实开发接口 也不难,以下是一些代码示例和步骤,展示如何使用不同技术栈实现API,并将大数据平台的数据提供给外部系统。

使用Flask构建RESTful API

安装Flask
pip install Flask
API代码示例
from flask import Flask, request, jsonify
import pandas as pd
import json

app = Flask(__name__)

# 示例数据,实际情况中应从大数据平台读取数据
data = {
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie'],
    'score': [85, 90, 78]
}

df = pd.DataFrame(data)

@app.route('/api/data', methods=['GET'])
def get_data():
    result = df.to_dict(orient='records')
    return jsonify(result)

@app.route('/api/data/<int:id>', methods=['GET'])
def get_data_by_id(id):
    result = df[df['id'] == id].to_dict(orient='records')
    if not result:
        return jsonify({'error': 'Data not found'}), 404
    return jsonify(result[0])

@app.route('/api/data', methods=['POST'])
def add_data():
    new_data = request.json
    df.append(new_data, ignore_index=True)
    return jsonify({'message': 'Data added successfully'}), 201

if __name__ == '__main__':
    app.run(debug=True)
启动API服务器
python app.py

使用Spring Boot构建RESTful API

创建Spring Boot项目并添加依赖

pom.xml文件中添加以下依赖:

<dependencies>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-jpa</artifactId>
    </dependency>
    <dependency>
        <groupId>com.h2database</groupId>
        <artifactId>h2</artifactId>
        <scope>runtime</scope>
    </dependency>
</dependencies>
创建API控制器
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

import java.util.List;
import java.util.Optional;

@RestController
@RequestMapping("/api/data")
public class DataController {

    @Autowired
    private DataRepository dataRepository;

    @GetMapping
    public List<Data> getAllData() {
        return dataRepository.findAll();
    }

    @GetMapping("/{id}")
    public Data getDataById(@PathVariable Long id) {
        Optional<Data> data = dataRepository.findById(id);
        if (data.isPresent()) {
            return data.get();
        } else {
            throw new ResourceNotFoundException("Data not found with id " + id);
        }
    }

    @PostMapping
    public Data addData(@RequestBody Data data) {
        return dataRepository.save(data);
    }
}
创建数据实体和仓库
import javax.persistence.Entity;
import javax.persistence.GeneratedValue;
import javax.persistence.GenerationType;
import javax.persistence.Id;

@Entity
public class Data {

    @Id
    @GeneratedValue(strategy = GenerationType.AUTO)
    private Long id;
    private String name;
    private int score;

    // getters and setters
}
import org.springframework.data.jpa.repository.JpaRepository;

public interface DataRepository extends JpaRepository<Data, Long> {
}
启动Spring Boot应用
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class Application {

    public static void main(String[] args) {
        SpringApplication.run(Application.class, args);
    }
}

将大数据平台的数据提供给外部系统

假设数据存储在Hadoop HDFS中,我们可以使用PySpark读取数据并通过API提供给外部系统。

使用PySpark读取数据
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Data API") \
    .getOrCreate()

# 读取HDFS中的数据
df = spark.read.csv("hdfs://path/to/data.csv", header=True, inferSchema=True)

# 将数据转换为Pandas DataFrame以便使用Flask
pandas_df = df.toPandas()
将PySpark数据集成到Flask API
from flask import Flask, request, jsonify
import pandas as pd
import json
from pyspark.sql import SparkSession

app = Flask(__name__)

# 创建Spark会话
spark = SparkSession.builder \
    .appName("Data API") \
    .getOrCreate()

# 读取HDFS中的数据
df = spark.read.csv("hdfs://path/to/data.csv", header=True, inferSchema=True)
pandas_df = df.toPandas()

@app.route('/api/data', methods=['GET'])
def get_data():
    result = pandas_df.to_dict(orient='records')
    return jsonify(result)

@app.route('/api/data/<int:id>', methods=['GET'])
def get_data_by_id(id):
    result = pandas_df[pandas_df['id'] == id].to_dict(orient='records')
    if not result:
        return jsonify({'error': 'Data not found'}), 404
    return jsonify(result[0])

if __name__ == '__main__':
    app.run(debug=True)

总结

image.png

通过构建API,可以安全、有效地将大数据平台的数据提供给外部系统。无论是使用Flask还是Spring Boot,都可以实现RESTful API的构建。同时,结合大数据平台的读取能力(如Hadoop HDFS和PySpark),可以轻松实现数据的获取和提供。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1888899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RFID技术在印度铁路上的革新应用

Kavach系统是一种利用RFID技术的先进列车事故防撞系统&#xff0c;特别设计用于印度铁路网络&#xff0c;旨在减少在同一轨道上运行的列车事故。最近在西孟加拉邦大吉岭地区发生的可怕火车事故再次突显了这一系统的重要性和必要性。 Kavach系统由研究设计与标准组织&#xff08…

Android 抓取 CPU 资源信息

在 Android 开发中&#xff0c;使用 ADB&#xff08;Android Debug Bridge&#xff09;命令获取 CPU 资源信息有很多重要的作用。这些命令可以帮助开发者在多种情况下分析和优化应用性能、解决问题以及进行系统性调试。 以下列举一些 ABD 获取 CPU 资源信息的命令 获取 CPU 核…

MYSQL substring_index

1.substring_index( 参数1,参数2 ,参数3 ) 2.group by 也可以用我们起的别名来划分&#xff0c;以及起别名可以不用as SELECT IF(profile LIKE %female,female,male) gender,COUNT(*) number FROM user_submitGROUP BY gender; 3.切割、截取、删除、替换 select -- 替换法 r…

ffmpeg在powershell和ubuntu终端下的不同格式

在win10下的powershell中&#xff0c;如果想运行一个exe文件&#xff0c;就不能再像cmd命令行一样用名字来直接运行了&#xff0c;否则会提示格式不对。 正确的做法是&#xff1a; . \ffmpeg.exe -re -i video-test.mpr -rtsp_transport tcp -vcodec h264 -f rtsp rtsp://您的…

数据库管理系统中的磁盘、文件、页和记录管理

1. 引言 数据库管理系统&#xff08;DBMS&#xff09;是一个复杂的软件系统&#xff0c;用于管理和操作数据库中的数据。DBMS需要有效地在磁盘和内存之间组织和管理数据&#xff0c;以确保高效的数据存储和检索。本文将详细介绍DBMS中关于磁盘、文件、页和记录的管理&#xff…

模电-运放的供电

模电-运放的供电 Fang XS.1452512966qq.com如果有错误&#xff0c;希望被指出&#xff0c;学习技术的路难免会磕磕绊绊量的积累引起质的变化注&#xff1a;本文章为唐老师讲电赛视频的个人笔记 运放的供电 所有的运放都可以单电源和双电源供电&#xff1b;采用双电源供电的运…

【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧

【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 免费获取相关内容文档关注&a…

Spring Boot集成geode快速入门Demo

1.什么是geode&#xff1f; Apache Geode 是一个数据管理平台&#xff0c;可在广泛分布的云架构中提供对数据密集型应用程序的实时、一致的访问。Geode 跨多个进程汇集内存、CPU、网络资源和可选的本地磁盘&#xff0c;以管理应用程序对象和行为。它使用动态复制和数据分区技术…

基于MIMO系统的预编码matlab性能仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 最小均方误差&#xff08;MMSE&#xff09;准则 4.2 量化准则 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 MATLAB2022a 3.部分核心程序 …

for循环中list触发fast-fail或不触发的原理和方法

Iterable和Iterator Iterator接口位于的位置是java.util.Iterator&#xff0c;它主要有两个抽象方法供子类实现。hasNext()用来判断还有没有数据可供访问&#xff0c;next()用来访问下一个数据。 集合Collection不是直接去实现Iterator接口&#xff0c;而是去实现Iterable接口…

Stable Diffusion web UI 插件

2024.7.3更新&#xff0c;持续更新中 如果需要在linux上自己安装sd&#xff0c;参考&#xff1a;stable diffusion linux安装 插件复制到 /stable-diffusion-webui/extensions 目录下&#xff0c;然后重新启动sd即可 一、插件安装方法 每种插件的安装方法可能略有不同&#xf…

java内存管理机制(二)-内存分配

在上一篇文章中&#xff0c;我们花了较大的篇幅去介绍了JVM的运行时数据区&#xff0c;并且重点介绍了栈区的结构及作用&#xff0c;在本文中&#xff0c;我们将主要介绍对象的创建过程及在堆中的分配方式。 对象的创建 在上文我们提过一些问题&#xff0c;你的对象是怎么new…

bWAPP靶场安装

bWAPP安装 下载 git地址&#xff1a;https://github.com/raesene/bWAPP 百度网盘地址&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1Y-LvHxyW7SozGFtHoc9PKA 提取码&#xff1a;4tt8 –来自百度网盘超级会员V5的分享 phpstudy中打开根目录&#xff0c;并将下载的文…

【python】PyQt5事件机制、定时器原理分析和实战演练

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

基于LLM(Large Language Model,大语言模型)的智能问答系统

基于LLM&#xff08;Large Language Model&#xff0c;大语言模型&#xff09;的智能问答系统是一种利用先进的人工智能技术&#xff0c;尤其是自然语言处理&#xff08;NLP&#xff09;技术&#xff0c;来构建能够理解和回答用户问题的系统。这种系统通过训练大量文本数据&…

德国Testing Expo丨落幕不散场!知迪展台风采回顾

德国斯图加特国际展览中心&#xff0c;随着全球汽车产业的目光聚焦&#xff0c;Automotive Testing Expo Europe 2024圆满落幕。在这场汇聚了全球顶尖汽车测试技术的盛会中&#xff0c;知迪科技凭借卓越的技术实力和前瞻性的解决方案&#xff0c;成为了现场诸多专业观众的瞩目焦…

pydub、ffmpeg 音频文件声道选择转换、采样率更改

快速查看音频通道数和每个通道能力判断具体哪个通道说话&#xff1b;一般能量大的那个算是说话 import wave from pydub import AudioSegment import numpy as npdef read_wav_file(file_path):with wave.open(file_path, rb) as wav_file:params wav_file.getparams()num_cha…

红酒与舞蹈:舞动的味觉艺术

在艺术的海洋中&#xff0c;红酒与舞蹈总是能激起人们心中较温柔的涟漪。红酒以其深邃的色泽、馥郁的香气&#xff0c;诠释着味觉的艺术&#xff1b;而舞蹈&#xff0c;则以优雅的姿态、灵动的步伐&#xff0c;演绎着视觉的盛宴。当红酒遇上舞蹈&#xff0c;一场别开生面的艺术…

Ubuntu防火墙相关内容

Ubuntu防火墙相关的命令&#xff0c;主要用于日常使用过程中&#xff0c;忘记命令时查找方便&#xff0c;不用再去各种地方搜索了。以下命令均已root用户执行&#xff0c;如果是非root用户&#xff0c;需要添加sudo 查看防火墙的启用状态 ufw status 说明是启用状态。 启用防…

边缘和条件高斯相乘后的高斯分布形式【模式识别书】

边缘和条件高斯相乘后的高斯分布形式【模式识别书】 结论来自&#xff1a;《Pattern Recognition and Machine Learning》公式(2.115)