【Iceberg分析】Iceberg 1.6.1 源码使用IDEA本地编译

news2024/12/25 1:39:48

Iceberg 1.6.1 源码使用IDEA本地编译

文章目录

  • Iceberg 1.6.1 源码使用IDEA本地编译
    • 下载
    • 文件配置调整
      • gradle相关
      • 修改bulid.gradle
      • gradle.properties
      • 在IDEA上构建
      • 编译打包
    • 可能出现的问题
    • 彩蛋
      • 与Spark部署
      • Spark与Iceberg集成部署

下载

网络条件允许的情况下,使用git直接克隆,命令git clone https://github.com/apache/iceberg.git

如果网络情况不好,可以使用腾讯的软件源,下载地址:apache-iceberg-1.6.1.tar.gz

下载 gradle-8.9-bin.zip

文件配置调整

解压压缩过后,不要直接使用IDEA打开,需要天调整一些文件

gradle相关

gradle-wrapper.properties

distributionUrl=file:///D:/backup/gradle/InstallationPackage/gradle-8.9-bin.zip

修改bulid.gradle

使用aliyun的gardle仓库

buildscript内中的部分

  repositories {
    mavenLocal()
    maven {
      url 'https://maven.aliyun.com/repository/gradle-plugin'
    }
    gradlePluginPortal()
  }

allprojects内中的部分

allprojects {
  group = "org.apache.iceberg"
  version = projectVersion
  repositories {
  maven {
      url 'https://maven.aliyun.com/repository/public/'
    }
    maven {
      url 'https://maven.aliyun.com/repository/central'
    }
    def REPOSITORY_URL = 'https://maven.aliyun.com/repository/public'
    all {
      ArtifactRepository repo ->
        if (repo instanceof MavenArtifactRepository) {
          def url = repo.url.toString()
          if (url.startsWith('https://artifacts.elastic.co/maven')
                  || url.startsWith('https://repo1.maven.org/maven2')
                  || url.startsWith('https://repo.maven.org/maven2')
                  || url.startsWith('https://jcenter.bintray.com/')
                  || url.startsWith('https://repo.maven.apache.org/maven2')
          ) {
            project.logger.lifecycle "Repository ${repo.url} replaced by $REPOSITORY_URL."
            remove repo
          }
        }
    }
    mavenLocal()
    mavenCentral()
  }
}

gradle.properties

目前里面支持的集成组件的版本。将sparkversion的版本改为3.4

systemProp.defaultSparkVersions=3.4

在IDEA上构建

使用IntelliJ IDEA 2024.1.2 打开项目apache-iceberg-1.6.1,进行Gradle项目加载。或者使用快捷键进行构建。 构建Ctrl + F9

在这里插入图片描述

编译打包

在linux环境中进行编译打包

./gradlew build -x test -x integrationTest

可能出现的问题

  1. 错误信息git clone时显示 RPC failed; curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL (err 8)
19057578@CNHQ-19057578N MINGW64 /d/code
$ git clone https://github.com/apache/iceberg.git
Cloning into 'iceberg'...
remote: Enumerating objects: 151733, done.
remote: Counting objects: 100% (2690/2690), done.
remote: Compressing objects: 100% (604/604), done.
error: RPC failed; curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL (err 8)
error: 6642 bytes of body are still expected
fetch-pack: unexpected disconnect while reading sideband packet
fatal: early EOF
fatal: fetch-pack: invalid index-pack output

很可能是由于HTTP/2通信协议导致的问题

Git和底层的curl库可能在处理HTTP/2协议时遇到问题,尤其是在某些网络配置或特定的服务器实现上。尝试强制Git使用HTTP/1.1来绕开这个问题

git config --global http.version HTTP/1.1
  1. gradle wapper下载失败
curl: (28) Failed to connect to raw.githubusercontent.com port 443 after 63120 ms: Couldn't connect to server
▒▒▒▒: ▒Ҳ▒▒▒▒▒▒޷▒▒▒▒▒▒▒▒▒ org.gradle.wrapper.GradleWrapperMain

网络问题,不行就用手机热点

彩蛋

与Spark部署

采用Spark On Yarn运行架构,使用Yarn-Cluster模式。

  1. 将spark打包后的tgz包解压

  2. 将解压后的文件夹spark-3.4.2-bin-2.9.1.1中的子文件jars文件夹中内容重新打包成zip,然后上传至HDFS。得到对应的HDFS路径。

    cd /home/spark/spark-3.4.2-bin-2.9.1.1/jars;
    zip -r jars.zip ./*
    hadoop fs -put -f /home/spark/spark-3.4.2-bin-2.9.1.1/jars hdfs:///user/spark/spark-3.4.2/ 
    
  3. 将spark的默认配置文件spark-3.4.2-bin-2.9.1.1/conf/spark-defaults.conf进行修改,增加配置项spark.yarn.archive,其值改为上面的zip包的HDFS路径。

    # config for spark.yarn
    spark.yarn.archive hdfs:///user/bigdata/spark-3.4.2.1-bin-2.9.1.1/jars.zip
    

Spark与Iceberg集成部署

采用Spark On Yarn运行架构,使用Yarn-Cluster模式。

  1. 将spark打包后的spark-2.3.4-bin-2.9.2.tgz包解压

  2. iceberg-spark-runtime-3.4_2.12.jar复制进,解压后的文件夹spark-3.4.2-bin-2.9.1.1中的子文件jars文件夹

  3. 将解压后的文件夹spark-3.4.2-bin-2.9.1.1中的子文件jars文件夹中内容重新打包成zip,然后上传至HDFS。得到对应的HDFS路径。

    cd /home/spark/spark-3.4.2-bin-2.9.1.1/jars;
    zip -r jars.zip ./*
    hadoop fs -put -f /home/spark/spark-3.4.2-bin-2.9.1.1/jars hdfs:///user/spark/spark-3.4.2/ 
    
  4. 将spark的默认配置文件spark-3.4.2-bin-2.9.1.1/conf/spark-defaults.conf进行修改,增加配置项spark.yarn.archive,其值改为上面的zip包的HDFS路径。

    # config for spark.yarn
    spark.yarn.archive hdfs:///user/bigdata/spark-3.4.2.1-bin-2.9.1.1/jars.zip
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

引领智慧文旅新纪元,开启未来旅游新境界

融合创新科技,重塑旅游体验,智慧文旅项目定义旅游新未来 在全球化的浪潮中,旅游已成为连接世界的重要纽带。天津信之鸥科技有限公司(以下简称“信鸥科技”)今日宣布,公司倾力打造的智慧文旅项目正式投入运营…

10.继承与Data Member

目录 1、只要继承不要多态 2、加上多态 3、多重继承 4、虚拟继承 在C继承模型中,一个derived class object所表现出来的东西,是其自己的members加上其base class(es) members的总和。至于derived class members和base class(es) members的排列顺序&a…

基坑气膜:为清洁施工提供强力保障—轻空间

随着城市建设的不断推进,环保要求也日益提高。基坑气膜作为一种新型的施工技术,不仅在防尘降噪方面表现出色,还能支持复杂的施工设备运行,真正实现了从源头解决扬尘和噪音问题。 高效防尘,优化施工环境 传统施工中&…

Hyper-V管理器连接到服务器出错。请检查虚拟机管理服务是否正在运行以及是否授权你连接到此服务器。

尝试连接到服务器”XXXXXX"时出错。请检查虚拟机管理服务是否正在运行以及是否授权你连接到此服务器。 计算机"XXXXXX"上的操作失败: WinRM客户端无法处理该请求。如果身份验证方案与Kerberos不同,或者客户端计算机未加入到域中,则必须使…

工业物联网一直是风口,可视化大屏就是门面

工业物联网作为当下的热门领域,一直处于风口浪尖。而在这个领域中,可视化大屏确实充当着重要的门面角色。 可视化大屏以其震撼的视觉效果和直观的数据展示,为工业物联网赋予了强大的表现力。当人们走进工业物联网的应用场景,首先映…

Jina ColBERT v2: 一个多语言的晚期交互信息检索模型

Jina AI发布 Jina ColBERT v2版本, Jina ColBERT v2是一个多语言的晚期交互(Late Interaction)信息检索模型,基于BERT架构开发,旨在优化查询和文档之间的匹配和排序。用于在搜索引擎、推荐系统、问答系统等应用中实现高…

20 个精选 Midjourney SREFs 及额外代码,等你来用!

今天我整理了 Midjourney 的参考 ID 801 到 850,并选择了 20 种色彩和艺术风格多样的样式。灵感来源于 _旧金山的彩绘女士_,这是加利福尼亚州著名的排屋系列。 我使用文本提示“城市中的一组排屋”生成了图像,并应用了 20 个选定的 SREF。每张…

【Java】I/O 操作详解

📃个人主页:island1314 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 目录 1. 引言 🚀 2. File 类 📕 2.1 创建 File 对象 …

讲个故事(升级版)1.0

一、总述 离线强化学习(Offline RL)是交互推荐中的一种常用技术,它离线地学习离线数据以学习策略而不必与用户进行在线交互。Offline RL存在高估用户对离线数据中很少出现的物品的偏好的问题,当前采用了保守主义去解决这一问题&a…

基于SpringBoot的流浪动物救助系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

新160个crackme -081-fireworx.9

运行分析 输入key,点击OK无反应 PE分析 Delphi程序,32位,无壳 静态分析&动态调试 ida搜索关键字符串,双击进入函数 通过静态分析,发现程序逻辑:1、获得固定值"678234",转换为int2…

网络学习第二篇

认识网关和路由器 这里大家先了解一下什么三层设备。 三层设备 三层设备是指在网络架构中能够工作在第三层(网络层)的设备,通常包括三层交换机和路由器。这些设备可以根据IP地址进行数据包的转发和路由选择,从而在不同的网络之间…

【Solr】Solr搜索引擎下载、安装、使用及跟Elasticsearch的对比(保姆篇)

文章目录 Solr简单介绍Solr 版本与 JDK版本 兼容情况安装与配置(Windows)安装与配置(Linux)应用案例(电商产品搜索系统)为什么要用Solr,不用数据库的模糊查询Solr对比Elasticsearch 更多相关内容可查看 Solr官方文档&a…

JAVA智能代驾跑腿系统一站式服务系统源码小程序

​探索“智能代驾跑腿系统”的便捷魅力 🚗 一、智能代驾:安全出行的首选 在这个快节奏的城市生活中,偶尔的聚会小酌或深夜加班后,如何安全回家成了不少人心中的小困扰。幸运的是,“智能代驾跑腿系统”应运而生&#x…

RJ45网线T568B接法

目录 1.说明 2.应用 3.方法 4.网络制作注意 1.说明 常规的网线T568B和T568A,为了保持最佳的兼容性,普遍采用T568B标准来制作。 2.应用 T568B:主要应用于平行线(即直连线)和交叉线(用于两台设备之间的直接连接,如两台计算机互连或计算机…

应用商店上新:MainConcept Transcoder和Live Streaming Software App

在Akamai云计算平台上运行工作负载的你也许还不知道,为了帮助用户更容易地找到并快速部署各类解决方案,Akamai提供了一个丰富的应用商店(Marketplace),其中包含各类经过验证,可以在Akamai云计算平台上轻松部…

自由学习记录(7)

文件的判断是否存在,带上文件自己的名字 XmlSerializer (Person)serializer.Deserialize(reader); 如果出错之后,没有try来接,就会直接程序报错暂停, 有了的话无论如何都会继续正常进final using则是正常 为什么要用 using&a…

DICOM是什么?如何成为医学成像和通讯的国际标准的?

DICOM DICOM是医学数字成像和通信标准(Digital Imaging and Communications in Medicine),它是一种用于描述医学图像及其元数据如何存储和在设备间传输的标准。 DICOM标准支持多种医学成像模态的数据存储,包括CT、PET、MRI、X射线…

Golang | Leetcode Golang题解之第478题在圆内随机生成点

题目: 题解: type Solution struct {radius, xCenter, yCenter float64 }func Constructor(radius, xCenter, yCenter float64) Solution {return Solution{radius, xCenter, yCenter} }func (s *Solution) RandPoint() []float64 {r : math.Sqrt(rand.…

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型SAM——Zero-Shot Transfer ExperimentsDiscussion

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi 【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&…