zepplin记录1

news2024/11/17 22:24:48

zepplin记录1

文章目录

  • zepplin记录1
  • 前言
  • 一、配置python环境
  • 二、测试可用性
    • 1.配置interpreter
    • 2.测试代码
  • 总结


前言

Apache Zeppelin是一个开源的数据分析和可视化的交互式笔记本,类似于Jupyter Notebook。它支持多种编程语言(如Scala、Python、R、SQL等)和数据处理工具(如Apache Spark、Hadoop等)。Zeppelin提供了一个集成的开发环境,使用户能够以交互的方式进行数据分析、可视化和共享。

Zeppelin的主要特点包括:

  1. 多语言支持:Zeppelin支持多种编程语言,例如Scala、Python、R、SQL等。用户可以根据自己的需求选择合适的语言进行分析。

  2. 可视化功能:Zeppelin提供了丰富的可视化工具和图表库,用户可以通过图表直观地展示和分析数据。

  3. 数据共享和协作:Zeppelin允许用户共享笔记本和运行结果,以便团队成员之间进行协作和交流。

  4. 扩展性:Zeppelin支持插件机制,用户可以根据自己的需求添加额外的功能和组件。

  5. 集成大数据工具:Zeppelin可以集成各种大数据处理工具,如Apache Spark、Hadoop等,使用户能够在分布式环境中处理和分析大规模数据。

总之,Zeppelin是一个功能强大、灵活和易于使用的开源框架,适用于数据科学家、分析师和开发人员进行数据分析和可视化的工作。。


一、配置python环境

在CentOS7.9环境上先安装Python3.9。
注:最新版本zeppelin对python3.10的支持不好,会报错:

 importError: cannot import name 'MutableMapping' from 'collections' (/usr/local/python3.10/lib/python3.10/collections/__init__.py)

使用GitHub上下载的最新pyenv,将其解压到~/.pyenv下。然后执行:

[root@slas ~]# echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
[root@slas ~]# echo 'command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
[root@slas ~]# echo 'eval "$(pyenv init -)"' >> ~/.bashrc

重登录后可以使用如下命令从国内源安装python3.9.10

[root@slas ~]# export v=3.9.10; wget https://npm.taobao.org/mirrors/python/$v/Python-$v.tar.xz -P ~/.pyenv/cache/; pyenv install $v
--2024-01-14 10:30:17--  https://npm.taobao.org/mirrors/python/3.9.10/Python-3.9.10.tar.xz
Resolving npm.taobao.org (npm.taobao.org)... 114.55.80.225
Connecting to npm.taobao.org (npm.taobao.org)|114.55.80.225|:443... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://cdn.npmmirror.com/binaries/python/3.9.10/Python-3.9.10.tar.xz [following]
--2024-01-14 10:30:17--  https://cdn.npmmirror.com/binaries/python/3.9.10/Python-3.9.10.tar.xz
Resolving cdn.npmmirror.com (cdn.npmmirror.com)... 223.109.76.217, 223.109.76.219, 36.156.208.243, ...
Connecting to cdn.npmmirror.com (cdn.npmmirror.com)|223.109.76.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19154136 (18M) [application/x-xz]
Saving to: ‘/root/.pyenv/cache/Python-3.9.10.tar.xz’

100%[=======================================================================================================================================================================================================================================================================================================>] 19,154,136  1.14MB/s   in 15s    

2024-01-14 10:30:33 (1.18 MB/s) - ‘/root/.pyenv/cache/Python-3.9.10.tar.xz’ saved [19154136/19154136]

Installing Python-3.9.10...
Installed Python-3.9.10 to /root/.pyenv/versions/3.9.10
[root@slas ~]# pyenv global 3.9.10
[root@slas ~]# python3
Python 3.9.10 (main, Jan 14 2024, 10:31:44) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> quit()
[root@slas ~]# which python3
/root/.pyenv/shims/python3

安装pandas,使用国内源。

[root@slas pandas]# pip3 install pandas -i https://mirrors.aliyun.com/pypi/simple/

二、测试可用性

1.配置interpreter

如图,修改python的path为which python3的结果。
在这里插入图片描述

2.测试代码

代码如下,对input目录下的所有csv文件进行合并操作:

import pandas as pd
import os

# 文件夹路径
folder_path = "input"

# 读取文件夹中的所有 CSV 文件
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# 创建一个空的 DataFrame 用于存储合并后的数据
combined_df = pd.DataFrame()

# 循环读取每个 CSV 文件并将其合并到 combined_df
for csv_file in csv_files:
    file_path = os.path.join(folder_path, csv_file)
    df = pd.read_csv(file_path)
    combined_df = pd.concat([combined_df, df], ignore_index=True)

# 将合并后的数据写入新的 CSV 文件
combined_csv_path = "input/combined_file.csv"
combined_df.to_csv(combined_csv_path, index=False)

print(f"合并完成,合并后的文件保存在:{combined_csv_path}")

执行后得到如图:
在这里插入图片描述


总结

以上就是今天要讲的内容,本文介绍了如何配置zeppelin和python3.9,为接下来的工作做好了准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1385151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多线程——阻塞队列

什么是阻塞队列 相比于一般的队列,有两个特点 1.线程安全 2.带有阻塞功能 1)队伍为空时,出队列就会出现阻塞,阻塞到其他线程入队列为止 2)队伍为满时,入队列就会出现阻塞,阻塞到其他线程出队列…

pandas查看数据常用方法(以excel为例)

目录 1.查看指定行数的数据head() 2. 查看数据表头columns 3.查看索引index 4.指定索引列index_col 5.按照索引排序 6.按照数据列排序sort_values() 7.查看每列数据类型dtypes 8.查看指定行列数据loc 9.查看数据是否为空isnull() 1.查看指定行数的数据head() &#xff…

【教3妹学编程-算法题】最大频率元素计数

2哥 : 3妹,最近有个电视剧《繁花》非常火🔥,你听说了吗? 3妹:没有,最近一直在忙着找工作,哪有时间看电视啊 2哥 : 啊?大周末还不休息一下啊,这么辛苦。 3妹:当…

CAN/CANFD数据记录仪汽车电子售后神器

CAN数据记录仪是一种用于采集和存储CAN总线数据的工具,广泛应用于汽车、轨道车辆、工业控制等大数据量且不易排查故障的系统中。它可以实时存储总线上的数据,方便后续的研究和分析。解决工程师售后难点。 在选择CAN数据记录仪时,需要根据实…

Jenkins-自动化

定时构建 使用Cron表达式指定执行时间。 # 格式 # ┌──分(0 - 59) # │ ┌──时(0 - 23) # │ │ ┌──日(1 - 31) # │ │ │ ┌─月(1 - 12) # │ │ │ │ ┌─星期&#…

CSC8021_computer network_The Application Layer

The Role of the Application layer The Application layer is the interface between the network and its users › It contains network services (e.g. DNS) › It contains user applications (e.g. email, web browsing) Domain Name System (DNS) › The …

python 字符串的详细处理方法

当前版本: Python 3.8.4 简介 字符串是由字符组成的序列,可以用单引号、双引号或三引号(单引号或双引号的连续使用)括起来。一般用来表示和处理文本信息,可以是字母、数字、标点符号以及其他特殊字符,用于…

将PDF发票转换为excel、xml结构化数据的完美解决方案

随着电子发票的普及,越来越多的企业和个人开始使用PDF格式的电子发票。然而,有时我们需要将电子发票转换为XML格式以便于处理和分析。本文将介绍如何将收到的PDF发票下载为excel、xml文件。首先,我们需要明确一点,PDF是一种基于图…

微服务概述之微服务特性

前言 既然系统采用了微服务架构,就需要了解一些微服务的特性,这样在进行微服务开发时,脑海中才会有一些指导方向。微服务具有以下特性。 1. 服务组件化 组件是独立、可替换、可升级的软件的单元。将整体应用拆分成独立的服务组件后&#xff…

【算法分析与设计】和为k的子数组

目录 问题 示例 方案一: 思路: 算法设计 代码实现 运行结果: 方案二(调优) 思路(前缀和) 算法设计 示意图 代码实现 运行结果 问题 给你一个整数数组 nums 和一个整数 k ,请你统计并返回 该数…

Python提取PDF中部分页面的实战代码

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【小沐学GIS】基于OpenSceneGraph(OSG)绘制三维数字地球Earth

🍺三维数字地球系列相关文章如下🍺:1【小沐学GIS】基于C绘制三维数字地球Earth(OpenGL、glfw、glut)第一期2【小沐学GIS】基于C绘制三维数字地球Earth(OpenGL、glfw、glut)第二期3【小沐学GIS】…

CSS 一行三列布局,可换行(含grid网格布局、flex弹性布局/inline-block布局 + 伪类选择器)

效果 一、HTML <div class"num-wrap"><div class"num-item" v-for"num in 8" :key"num">{{ num }}</div></div> 二、CSS 1、grid网格布局&#xff08;推荐&#xff09; .num-wrap {// grid网格布局display…

Python轻松实现炫酷的手势检测

大家好&#xff0c;今天分享一个非常有意思且十分简单的python库——mediapipe库。该库集成了大量的深度学习模型&#xff0c;短短几行代码&#xff0c;就可以快速实现一个炫酷的实例&#xff0c;本文就以手势检测为例&#xff0c;展示一下这个强大的开源库。 mediapipe由Goog…

书生·浦语大模型实战营作业(四)

基础作业&#xff1a; 构建数据集&#xff0c;使用 XTuner 微调 InternLM-Chat-7B 模型, 让模型学习到它是你的智能小助手&#xff0c;效果如下图所示&#xff0c;本作业训练出来的模型的输出需要将不要葱姜蒜大佬替换成自己名字或昵称&#xff01; 数据集 回答结果 进阶作…

抽象类--java学习笔记

什麽是抽象类&#xff1f; 在java中有一个关键字叫&#xff1a;abstract&#xff0c;它就是抽象的意思&#xff0c;可以用它修饰类、成员方法abstract修饰类&#xff0c;这个类就是抽象类&#xff1b;修饰方法&#xff0c;这个方法就是抽象方法 认识抽象类 抽象类的注意事项…

2024.1.15每日一题

LeetCode 82.删除排序链表中的重复元素 II 82. 删除排序链表中的重复元素 II - 力扣&#xff08;LeetCode&#xff09; 题目描述 给定一个已排序的链表的头 head &#xff0c; 删除原始链表中所有重复数字的节点&#xff0c;只留下不同的数字 。返回 已排序的链表 。 示例…

Mac M1 Parallels CentOS7.9 Rancher + K8S + Gitlab + Jenkins +Harbor CICD

一、资源清单 机器名称IP地址角色k8srancher高可用部署: https://blog.csdn.net/qq_41594280/article/details/135312148rancher10.211.55.200管理K8S集群k8svip10.211.55.199K8S VIPmaster0110.211.55.201K8S集群主节点master0210.211.55.202K8S集群主节点master0310.211.55.…

AC修炼计划(AtCoder Beginner Contest 335)E-F

传送门&#xff1a; AtCoder Beginner Contest 335 (Sponsored by Mynavi) - AtCoder A&#xff0c;B&#xff0c;C&#xff0c;D还算比较基础&#xff0c;没有什么思路&#xff0c;纯暴力就可以过。 这里来总结一下E和F E - Non-Decreasing Colorful Path 最开始以为是树形…

JVM:从零到入门

JVM&#xff0c;就是Java虚拟机。 JVM是一个巨大的话题&#xff0c;我们本文主要简单介绍一些围绕JVM相关的基础知识。 目录 JVM内存区域划分 本地方法栈 虚拟机栈 堆 程序计数器 方法区/ 元数据区 类加载 1.加载 2.验证 3.准备 4.解析 5.初始化 双亲委派模型 …