学习大数据DAY57 新的接口配置

news2025/1/12 15:52:38

作业

完成 API 接口和文件的接入, 并部署到生产调度平台, 每个任务最后至少
要有两条 不报错 的日志, 报错就驳回作业
作业不需要复制日志
API = Appliation Program Interface 应用程序接口 => JSON 的地址
客户需求: 把
https://zhiyun.pub:9099/site/c-class?page=1 所有数据定 时同步到 Hive 数仓
分析 分页数据
https://zhiyun.pub:9099/site/c-class?page=1
https://zhiyun.pub:9099/site/c-class?page=2
...
https://zhiyun.pub:9099/site/c-class?page=20
技术: Python + requests 请求库
需要的依赖包
pip install requests hdfs
c_org_busi.py:
#!/bin/python3
import requests
from hdfs import *
import os
# *客户需求: 把 https://zhiyun.pub:9099/site/c-class?page=1 所有
数据定时同步到 Hive 数仓
lines = []
page = 1
pages = 1
def get_data(page=1):
global pages
print(f"正在抽取第{page}页的数据")
url = f"https://zhiyun.pub:9099/site/c-class?page={page}"
r = requests.get(url)
data = r.json()
if data["status"] == 1:
page_data = data["data"]
# 更新页数
pages = data["pages"]
# print(f"pages: {pages}")
# print(page_data)
for item in page_data:
# {'id': '1', 'levels': '1', 'classcode': '01',
'classname': '中西成药', 'saletax': '0.00', 'createtime':
'1900-01-20 11:16:47', 'createuser': '1002', 'notes': 'null',
'stamp': '562664386'}
# 字典 => Hive 数据格式# A B C D ...
values = item.values()
# print(values)
# dict_values(['1', '1', '01', '中西成药', '0.00',
'1900-01-20 11:16:47', '1002', 'null', '562664386'])
# 把所有元素转换成字符串
str_list = []
for value in values:
str_list.append(f"{value}")
# print(str_list)
# ['1', '1', '01', '中西成药', '0.00', '1900-01-20
11:16:47', '1002', 'null', '562664386']
# 字符串的 join 方法, 把列表的所有元素拼接起来
line = "\t".join(str_list)
# print(line)
# 1
1
01
中西成
药
0.00
1900-01-20
11:16:47
1002
null
562664386
lines.append(line)
# print(lines)
def do_get_data():
global page, pages
while page <= pages:
# print(f"pages: {pages}")
get_data(page)
# print(f"pages: {pages}")
page = page + 1
# 写入到数据文件
with
open("/zhiyun/shihaihong/data/c_class.data","w",encoding="utf-
8") as f:
content = "\n".join(lines)
f.write(content)
print("文件写入成功")
# 上传到 HDFSdef upload_data_hdfs():
# 创建 HDFS 目录
client = Client("http://192.168.200.100:9870")
client.makedirs("/zhiyun/shihaihong/ods/c_class")
# 上传
# 注意再次上传会报已存在错误
client.upload("/zhiyun/shihaihong/ods/c_class",
"/zhiyun/shihaihong/data/c_class.data");
print("上传成功")
# Hive 建表
def craete_hive_table():
os.system('''
hive -e '
create database if not exists ods_shihaihong location
"/zhiyun/shihaihong/ods";
create external table if not exists ods_shihaihong.c_class(
id int,
levels int,
classcode string,
classname string,
saletax decimal(10,2),
createtime timestamp,
createuser string,
notes string,
stamp int
) row format delimited fields terminated by "\t"
lines terminated by "\n"
stored as textfile
location "/zhiyun/shihaihong/ods/c_class";
'
''')
# 验证数据
def check_data():
os.system('''
hive -e '
select count(1) from ods_shihaihong.c_class;
select * from ods_shihaihong.c_class limit 5;
'
''')# 爬取数据
do_get_data()
upload_data_hdfs()
craete_hive_table()
check_data()
运行后验证:
部署到调度平台:
执行前,要现在 hdfs 建立文件:
hadoop fs -mkdir -p /zhiyun/lijinquan/ods/c_class
把之前上传的数据清空,然后用任务调度再执行一遍。
执行一次,查看执行日志:
文件接入:
需求: 定时下载
https://zhiyun.pub:9099/设备清单.xlsx
, 然后上传到
HDFS 建表,更新
c_tools.py:
#!/bin/python3
import requests
from hdfs import *
import os
import pandas
# *客户需求: 定时下载 https://zhiyun.pub:9099/设备清单.xlsx , 然后
上传到 HDFS 建表,更新
def get_data():
print(f"正在抽取数据")
url = f"https://zhiyun.pub:9099/设备清单.xlsx"
r = requests.get(url)
if r.status_code == 200:
with open("/zhiyun/shihaihong/data/download_设备清
单.xlsx","wb") as f:
f.write(r.content)
df=pandas.read_excel("/zhiyun/shihaihong/data/downl
oad_设备清单.xlsx")df.to_csv("/zhiyun/shihaihong/data/download_设备清
单.csv",index=False,header=False)
print("文件下载成功")
f.close()
else:
print("文件下载失败")
# 上传到 HDFS
def upload_data_hdfs():
# 创建 HDFS 目录
client = Client("http://192.168.200.100:9870")
client.makedirs("/zhiyun/shihaihong/ods/c_tools")
# 上传
# 注意再次上传会报已存在错误
client.upload("/zhiyun/shihaihong/ods/c_tools",
"/zhiyun/shihaihong/data/download_设备清单.csv");
print("上传成功")
# Hive 建表
def create_hive_table():
os.system('''
hive -e '
create database if not exists ods_shihaihong location
"/zhiyun/shihaihong/ods";
create external table if not exists ods_shihaihong.c_tools(
id int,
hospital string,
tool_name string,
manufacturer string,
produce_date string,
administrative_officer string,
picture string
) row format delimited fields terminated by ","
lines terminated by "\n"
stored as textfile
location "/zhiyun/shihaihong/ods/c_tools";
'
''')
# 验证数据
# def check_data():#
os.system('''
#
hive -e '
#
select count(1) from ods_shihaihong.c_class;
#
select * from ods_shihaihong.c_class limit 5;
# '
#
''')
# 爬取数据
get_data()
upload_data_hdfs()
create_hive_table()
# check_data()
运行结束后验证:
检查 HDFS 是否有上传文件:
检查 Hive 数据库中是否有此库:
任务定时调度:
登录老师的任务调度中心:
编辑 GLUE IDE
跟前面差不多,就是生产调度的 HDFS 路径需要注意修改
client = Client("http://cdh02:9870")
执行日志:
把上一个脚本的代码也写入生产调度中心:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从“看”到“管”:EasyCVR安防监控平台如何推动城市管理模式的转型升级

在21世纪的今天&#xff0c;随着城市化进程的加速推进&#xff0c;城市规模不断扩大&#xff0c;人口密集度显著增加&#xff0c;城市管理面临着前所未有的挑战。从公共安全、交通管理到环境保护、应急响应&#xff0c;每一个领域都对城市的治理能力和效率提出了更高要求。在这…

PowerShell install 一键部署Oracle23ai

Oracle23ai前言 Oracle Database 23ai Free 让您可以充分体验 Oracle Database 的能力,世界各地的企业都依赖它来处理关键任务工作负载。 Oracle Database Free 的资源限制为 2 个 CPU(前台进程)、2 GB 的 RAM 和 12 GB 的磁盘用户数据。该软件包不仅易于使用,还可轻松下载…

【LLM多模态】CogVideoX文生视频模型结构和训练过程

note 通过两阶段训练3D VAE&#xff0c;对视频进行压缩编码 第一阶段&#xff1a;在较低分辨率和较少帧数的视频上进行训练&#xff0c;学习压缩和重建视频的基本能力第二阶段&#xff1a;在更长的视频上训练&#xff0c;提高模型处理长视频的能力&#xff0c;同时保持帧与帧之…

JavaEE:文件内容操作练习(三)

文章目录 文件内容操作练习练习1练习2练习3 文件内容操作练习 练习1 扫描指定目录,并找到名称中包含指定字符的所有普通文件(不包含目录),并且后续询问用户是否要删除该文件. package javaEE.fileIO;import java.io.File; import java.util.Scanner;public class O {private…

数据结构基础讲解(八)——树和二叉树专项练习(上)

本文数据结构讲解参考书目&#xff1a; 通过网盘分享的文件&#xff1a;数据结构 C语言版.pdf 链接: https://pan.baidu.com/s/159y_QTbXqpMhNCNP_Fls9g?pwdze8e 提取码: ze8e 数据结构基础讲解&#xff08;七&#xff09;——数组和广义表专项练习-CSDN博客 个人主页&#x…

【初阶数据结构】详解树和二叉树(一) - 预备知识(我真的很想进步)

文章目录 前言1. 树1.1 树的概念1.2 树的相关概念1.3 树的表示1.4 树在实际中的运用 2. 二叉树2.1 二叉树的概念2.2 现实中的二叉树2.3 特殊的二叉树2.4 二叉树的性质2.5 二叉树概念和性质的一些习题 前言 初阶数据结构篇马上要迎来了一个新的成员&#xff0c;那就是"二叉…

这才是导师认可的论文 / 开题技术路线图

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 1. 技术路线图的常见框架结构 技术路线图根据研究内容和实验设计的不同&#xff0c;可以采用多种结构。以下是三种常见的技术路线图框架&#xff1a; 1.1 顺序式框架 适用领…

第十一周:机器学习笔记

第十一周周报 摘要Abstract机器学习1. 注意力机制&#xff08;下&#xff09;1.1 multi-head self-attention&#xff08;多头注意力机制&#xff09;1.2 Positional Encoding&#xff08;位置编码&#xff09;1.3 truncated self attention&#xff08;截断式注意力机制&#…

微软发布Windows Agent Arena 为生成式AI代理提供基准测试

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过&#xff0c;人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布&#xff0c;它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。 微软在 GitHub 页面…

CHARLS数据库系列教程(2)---数据清洗、拼接和整理(1)

写在前面的话&#xff0c;本节内容实在太多了&#xff0c;只能做了一个小合集&#xff0c;分成2章来介绍。 CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查&#xff0c;旨在建设一个高质量的公共微观数据库&#xff0c;采集的信息涵盖社会经济状况和健康状况等多维…

Leetcode Hot 100刷题记录 -Day16(旋转图像)

旋转图像 问题描述&#xff1a; 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在原地旋转图像&#xff0c;这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 示例 1 输入&#xff1a;matrix [[1,2,3],[4,5,6]…

JavaScript - 异步编程

1. 前言 在 JavaScript 中&#xff0c;异步编程是一种处理需要等待操作&#xff08;如网络请求、文件读取或计时器&#xff09;的编程方式。由于 JavaScript 是单线程的&#xff0c;意味着它一次只能执行一个任务。异步编程允许你在等待某些操作完成时&#xff0c;继续执行其他…

河海大学《2020年+2021年827自动控制原理真题》 (完整版)

本文内容&#xff0c;全部选自自动化考研联盟的&#xff1a;《25届河海大学827自控考研资料》的真题篇。后续会持续更新更多学校&#xff0c;更多年份的真题&#xff0c;记得关注哦~ 目录 2020年复试真题 2021年初试真题 Part1&#xff1a;完整版真题 2020年复试真题 2021年…

Cortex-A7:__disable_irq和GIC_DisableIRQ、__enable_irq和GIC_EnableIRQ的区别(1)API介绍

0 相关资料 ARM Generic Interrupt Controller Architecture version 2.0.pdf 1 API介绍 1.1 __disable_irq __disable_irq函数的作用是失能IRQ&#xff0c;也就是不响应中断。实现代码如下&#xff1a; /**\brief Disable IRQ Interrupts\details Disables IRQ interrupt…

Pikachu靶场之XSS

先来点鸡汤&#xff0c;少就是多&#xff0c;慢就是快。 环境搭建 攻击机kali 192.168.146.140 靶机win7 192.168.146.161 下载zip&#xff0c;pikachu - GitCode 把下载好的pikachu-master&#xff0c;拖进win7&#xff0c;用phpstudy打开网站根目录&#xff0c;.....再用…

Python基础知识学习(2)

一&#xff0c;分支条件判断语句 在python中&#xff0c;分支条件语句如下&#xff1a; 1&#xff0c;判断条件&#xff1a;if exception: 2&#xff0c;接着判断的语句为&#xff1a;elif exception: 3&#xff0c;最后的条件为&#xff1a;else: 4&#xff0c;通过缩进来表示…

建一栋房子会用到哪些资质?

在建筑工程领域&#xff0c;资质是衡量建筑企业实力和能力的重要标准。修建一栋房子&#xff0c;从设计到施工&#xff0c;再到最终的验收和维护&#xff0c;涉及到众多环节和专业领域。每个环节都需要相应的资质作为保障&#xff0c;以确保工程的质量和安全。那么&#xff0c;…

Jsp学习笔记(详解)

千锋教育Java视频 从入门到精通 JSP 4h 一&#xff0c;引言 1.1 现有问题 在之前学习Servlet时&#xff0c;服务端通过Servlet响应客户端页面&#xff0c;有什么不足之处&#xff1f; 开发方式麻烦&#xff1a;继承父类、覆盖方法、配置Web.xml或注解代码修改麻烦&#xff1a;…

移除元素(反向双指针)

题目&#xff1a; 算法分析&#xff1a; 优化关键&#xff1a;题目不需要关注除前k元素以外的部分左指针等于对应值&#xff0c;复制右指针替代&#xff0c;右指针增加&#xff08;左指针不变可以继续判断复制的右指针元素是否符合条件&#xff09;否则左指针增加 算法图解&a…

华为项目管理培训产品总监兼首席架构师刘钊受邀为第四届中国项目经理大会演讲嘉宾

全国项目经理专业人士年度盛会 华为项目管理培训产品总监兼首席架构师刘钊先生受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾&#xff0c;演讲议题为“打造项目管理人才队伍——华为项目经理任职资格和专业认证体系”。大会将于10月…