Bossies 2016:最佳开源大数据工具

news2025/1/16 0:58:01
导读在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引、搜索、图形处理、流处理、结构化查询、分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级。

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切——即便是Spark。

Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具,Spark、Beam都名列榜单之上。

Spark

Spark是写在Scala中的内存分布式处理框架,在Apache的大数据项目中非常火爆。随着Spark 2.0版本的发布,它的优势似乎在延续。除了SQL语句实现等基础功能,新版本的Spark在性能上也大幅提升。Spark 2.0在DataFrames的基础上进一步完善,比如新的Structured Streaming API 等。这一切改变使Spark程序员的操作更清楚简单,但Structured Streaming 可能会有较大改变。

从RDD的批处理进程转变为无边界的DataFrame概念,Structured Streaming将使某些特定场景的流处理(比如捕获数据变更和位置更新)更容易实现,允许DataFrame本身的窗口时间序列,而不是进入流管道的新事件,这是Spark流式处理长期以来的痛点,尤其是与Apache Flink和Apache Beam相比,Saprk 2.0终于弥补了这块空白。如果你至今没有学会Spark,你就OUT了。

Beam

Google Beam是Apache的孵化器项目,提供了一种不需要每次改变引擎都重写代码的方式。目前看来,Spark可能是未来的编程模型,但如果不是呢?此外,如果你对一些扩展功能和Google DataFlow性能感兴趣,你可以自己在Beam平台编写代码并在DataFlow,Spark甚至是Flink上运行。我们很喜欢即写即运行的想法,但Beam不支持类似REPL的开发者功能,但未来它将是一款不错的分析工具。

TensorFlow

TensorFlow是Google针对机器学习提出的开源软件,无论是字符识别,图像识别,自然语言处理还是其他复杂的机器学习应用,TensorFlow可能都是你的首选。

TensorFlow是用C++写的,但支持Python。此外,它最终会呈现出一个十分方便的方式运行分布式代码,优化GPS和CPU的并行代码。这将是下一个大数据工具,未来将会持续进行讨论。

Solr

作为Hadoop重量级厂商Hortonworks,Cloudera以及MapR等的选择,Apache Solr为企业带来可信任的、成熟的搜索引擎技术。Solr基于Apache Lucene引擎,这两个项目共享于许多社区。你可以在类似Instagram,Zappos,Comcast和DuckDuckGO等企业场景背后发现 Solr的身影。

Solr中的SolrCloud,是利用Apache ZooKeeper创建可伸缩、分布式的搜索和索引解决方案,并且高度抵御分布式系统类似脑裂等常见问题。伴随着可靠性,SolrCloud的规模可按需变化,并且它足够成熟可以处理数十亿文档之间的大量查询请求。

Elasticsearch

Elasticsearch同样基于Apache Lucene引擎,是针对现在的REST API 和JSON文档概念的开源分布式搜索引擎。Elasticsearch集群数据从GB向PB级扩展十分容易,只需要很低的处理开销。

作为ELK堆栈的一部分(Elasticsearch,Logastash和Kibana都是由Elasticsearch创造者Elastic创造的),Elasticsearch已经发现了它作为开源Splunk替代日志分析的杀手级应用。类似于 Nteflix,Facebook,Microsoft以及Linkedln公司在日志基础架构上会选择运行大型Elasticsearch集群。此外,ELK堆栈正在寻找其他方向,比如欺诈检测和特定领域的业务分析,这将使Elasticsearch在更多企业得到使用。

SlamData

未来对SlamData来说是一场长途旅行。为什么会选择使用MongoDB作为分析解决方案呢?可能因为这是一个可操作数据库。然而,正如 SlamData的Jeff Carr所言,它并不疯狂。有很多MongoDB方向新的公司和年轻的开发者产生,如果你使用MongoDB数据存储,并且需要运行基础的分析,你要创建整个Hadoop集群或者其他设施报告吗?SlamData允许用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。

该技术的主要特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。SlamData有基于SQL的引擎,本质上说和MongoDB类似,但不像MongoDB 有自己的解决方案,SlamData并没有吸纳PostgreSQL的所有数据,并称之为BI连接。既然核心技术是开源的,我认为可以期待未来有更多公司采用其技术不断完善该领域产品。

Impala

Apache Impala是针对Hadoop上SQL处理的Cloudera引擎。如果你正在使用Hive,Impala是一种不需要你重复考虑任何事情就可以达到查询性能的简单方法。基于行的分布式大规模并行处理系统,Impala相比于在Spark上组合Hive更加成熟和彻底。即便没有太多的调优,Impala 还是可以提高性能,并且一定比你付出同样努力使用Tez的效果要好。如果你在HDFS的文件之上需要使用SQL,Impala可能是最好的选择。

Kylin

如果你正在做N维立方体分析和现代大数据框架,Kylin很对你的口。如果你从没听说过OLAP多维数据集,没关系。如果你正在考虑RDBMS中存在一对多关系表,但有一部分需要计算字段,你可以选择在SQL里进行查询和计算,但是这太缓慢了。当我们的关系和计算量更多更复杂时,又该怎么办呢?不是平面的表,把它们想象成立方体组成的若干块,每一块事先预计价值。你可能有N维或多维数据。Kylin当然不是第一个实现分布式OLAP的,但它是最先进的技术之一,并且目前可以下载并安装在云端。

Kafka

Kafka是非常标准的分布式发布和订阅标准,现在已经用于世界上一些比较大的系统,Kafka的消息传递更加可靠,尽管与之前的系统不同,通过分布式提交日志保持耐久性。然而,Kafka的分区流处理支持高速数据加载和大量用户。比较讽刺的是,尽管所有这些功能已经足够让人惊讶了,但Kafka十分容易安装部署,这在大数据和消息传递规则里是个例外。

StreamSets

你可能有一些数据需要处理,这些数据可能在文件夹里(比如网络日志)或者正在Kafka上传递,虽然有很多方法可以实现,但使用StreamSets可以在最短的时间内做你想做的任何事情,它比其他解决方案更加完整。也有越来越多的强壮的连接器 (HDFS,Hive,Kafka,Kinesis),REST API,和GUI来监控数据流动,这也正是他们一直在努力做的事情。

Titan

直到人们意识到使用图表进行存储非常有用,图形数据库才开始火了起来。一个携带所有附件可插拔式存储的复杂数据库,本质上是指高度可分配的数据库列族。与其他图形数据库相比,Titan可以扩展。与严格的图形分析框架相比,Titan可以提供更好的性能,相比于Giraph,不需要使用内存资源或者时间重构图形,相当于GiraphX,更不用说潜在的优秀的数据完整性特征。

Zeppelin

无论你是一个只想要美观图形的开发者,还是想成为数据科学家,Zeppelin可能都适合你,它使用似曾相识的类似于IPython的笔记本概念,允许通过写标记,嵌入式代码,执行代码,它存在于Spark或其他引擎中,通过生成文本,表格或者图表形式输出。Zeppelin仍然缺乏一些特性和多功能DataBrick,但它正在稳步前进。如果你使用Spark,Zeppelin就存在于工具包中。更多Linux资讯请查看:https://www.linuxprobe.com/  ·

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringMVC简介及入门

SpringMVC SpringMVC简介 一、三层架构和MVC 1、三层架构概述 (1)开发架构:一是 C/S 架构 (客户端/服务器),二是B/S架构(浏览器/服务器)。在JavaEE开发中,几乎全部是基于 B/S架构的开发。在B/S 架构中&…

最简单IDEA社区版构建SpringBoot项目

一、环境准备 IDEA Community Edition jdk8 maven 二、下载SpringBoot项目 https://start.spring.io/ 项目名称自己修改下。 点击ADD DEPENDENCIES,添加Web依赖。 下载构建好的SpringBoot项目的压缩包 三、idea中打开SpringBoot项目 使用maven加载依赖。 四、测…

【数据库原理 • 三】关系数据库标准语言SQL

前言 数据库技术是计算机科学技术中发展最快,应用最广的技术之一,它是专门研究如何科学的组织和存储数据,如何高效地获取和处理数据的技术。它已成为各行各业存储数据、管理信息、共享资源和决策支持的最先进,最常用的技术。 当前…

4.7 AOP底层源码原理

4.7.1 AOP源码 进入到这里 F8跳过assertBeanFactoryActive方法,因为spring它方法调用太乱了,如果不挑“核心”去看,很快你就会被绕晕, 那么我们怎么判断这个assertBeanFactoryActive不是核心,注意前面getbean方法返回…

《淘宝网店》:计算总收益

目录 一、题目 二、思路 1、当两个年份不一样的时候 (1)from年剩余之后的收益 (2)中间年份的全部收益 (3)to年有的收益 2、同一个年份 三、代码 详细注释版本: 简化注释版本&#xff…

RC滤波器

前阶段,因项目解干扰问题,和同事聊起来RC滤波。所以,今日借此机会,通过文章的方式再一次给大家简单的普及一下RC滤波的知识。 关于滤波,其目的还是为了尽可能多的让有用信号做到无衰减,无用信号衰减至近乎…

云南计算机专升本经验分享

一、概述 经验分享 越早准备越好,切勿过分迷信同学的学习进度。 英语(97) 在云南专升本里面,英语在90以上已经是不错了,我由于自身基础不好原因,导致我刚开始一度想放弃英语,所以对英语的学习也是极尽节俭&#xff0…

Python每日一练(20230416)

目录 1. 有效数字 🌟🌟🌟 2. 二叉树的最大深度 🌟 3. 单词搜索 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 …

【RabbitMQ】图解RabbitMQ是如何保证消息可靠性的

目录 一、概述 1、消息可靠性 2、SpringBoot整合RabbitMQ配置文件 二、生产者---RabbitMQ服务器如何保证信息不丢失 1、confirm确认模式 1.说明 2.SpringBoot代码实现 2、return退回模式 1.说明 2.SpringBoot代码实现 三、RabbitMQ服务器如何保证消息不丢失 四、Ra…

Logstash:使用自定义正则表达式模式

有时 Logstash Grok 没有我们需要的模式。 幸运的是我们有正则表达式库:Oniguruma。在很多时候,如果 Logstash 所提供的正则表达不能满足我们的需求,我们选用定制自己的表达式。 定义 Logstash 是一种服务器端数据处理管道,可同时…

zabbix客户端配置

一、zabbix客户端配置 1.实验环境:关闭防火墙和安全模块 systemctl disable --now firewalld setenforce 0 2.服务端和客户端都要时间同步 yum install -y ntpdate #注意安装需要用网络源安装,不能用本地源 ntpda…

电子器件系列34:tvs二极管(2)

一、基本原理: 二、重要产数: 不同的资料对于相同的参数可能有不同的命名,要根据实际情况来确定参数的意义 这里以上图表格里的参数名称进行解析,以其他资料作为参考。 结合图表和伏安特性曲线,再结合下面的图我是…

你认为的.NET数据库连接池,真的是全部吗?

一般我们的项目中会使用1到2个数据库连接配置,同程艺龙的数据库连接被收拢到配置中心,由DBA统一配置和维护,业务方通过某个字符串配置拿到的是开箱即用的Connection对象。 DBA能在对业务方无侵入的情况下,让大规模微服务实例切换…

第二周P9-P22

文章目录第三章 系统总线3.1、总线的基本概念一、为什么要用总线二、什么是总线三、总线上信息的传送四、总线结构的计算机举例1、单总线结构框图2、面向CPU的双总线结构框图3、以存储器为中心的双总线结构图3.2、总线的分类1、片内总线2、系统总线3、通信走线3.3、总线特性及性…

基于多目标粒子群优化算法的计及光伏波动性的主动配电网有功无功协调优化(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Vivado中ILA(集成逻辑分析仪)的使用

Vivado中ILA(集成逻辑分析仪)的使用一、写在前面二、ILA(Integrated Logic Analyzer)的使用2.1 ILA查找2.2 ILA配置2.2.1 General Options2.2.2 Probe Ports三、ILA调用四、ILA联调4.1 信号窗口4.2 波形窗口4.3 状态窗口4.4 设置窗口4.5 触发条件设置窗口…

Segment Anything论文详解(SAM)

论文名称:Segment Anything 论文地址:https://arxiv.org/abs/2304.02643 开源地址:https://github.com/facebookresearch/segment-anything demo地址:Segment Anything | Meta AI 主要贡献:开发一个可提示的图像分…

6.Java数组

数组 一、数组概述 1、什么是数组? 数组是相同类型数据的有序集合。数组描述的是相同类型的若干个数据,按照一定的先后次序排列组合而成。其中,每一个数据称作一个元素,每个元素可以通过一个索引(下标)来访问它们。 2、数组的…

哈夫曼树和最小生成树

哈夫曼树 首先给我们一串权值,然后我们需要让这串权值组成一个树,然后当他的wpl最小 我们可以发现当他的小权值离根节点越远,大权值离根节点越近的时候,我们这个时候构建出来的树就是wpl最小的树,也就是我们说的哈夫曼…

c++之 类和对象

目录 1.类和对象的基本概念 1.c语言与c中的结构体 2.类的封装性 3.定义类 4.构造与析构 构造与析构的概念: 构造函数 析构函数 拷贝构造函数 c默认增加的函数 1.类和对象的基本概念 1.c语言与c中的结构体 我们知道在c语言里,我们是无法在结构体…