大数据应用开发--概述

news2024/11/29 6:28:24

大数据应用开发–概述

1. 大数据应用开发简介

1.1 数据分析的概念

数据分析就是利用数学、统计学理论相结合科学统计分析方法对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。
数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后,将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。

1.2 数据可视化的概念

数据可视化旨在借助图形化的手段,将一组数据以图形的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

2. 常用模块

2.1 Numpy

Numpy模块是一个用于实现科学计算的库,尤其是在实现数据分析时,该模块是一个必不可少的基础库。
Numpy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。

2.2 Pandas

Pandas是一个开源库,主要为Python提供高性能、易于使用的数据结构和数据分析工具。
Pandas的数据结构中有两个核心,分别是Series与DataFrame。

2.3 matplotlib

Matplotlib是一个Python绘图库,它不仅可以绘制2D图表,还可以绘制3D图表。
中间的“plot”表示绘图,而结尾的“lib”表示它是一个集合。

2.4 scikit-learn

scikit-learn模块是一个简单有效的数据挖掘和数据分析工具
scikit-learn模块是基于numpy、scipy基础上的模块。

3. 开发工具与环境

3.1 什么是jupyter?

Jupyter(全称Jupyter Notebook)是一个交互式编辑器,它支持运行40多种编程语言,便于创建和共享文档。Jupyter本质上是一个Web应用程序,与其他编辑器相比,它具有小巧灵活、支持实时代码、方便图表展示等优点。

3.2 安装与使用Jupyter

3.2.1 安装jupyter工具

使用pip工具可以方便地安装Jupyter。pip工具是Python的包管理工具,Python 3.4以上的解释器自带了pip管理工具。

安装命令如下:

pip install jupyter notebook

在这里插入图片描述
下面是已经安装好的
在这里插入图片描述
输出如下信息表明jupyter工具安装成功

Installing collected packages: jupyter
Successfully installed jupyter-1.0.0

3.2.2 使用jupyter

以E:\python目录为例,在该目录下打开命令行窗口,输入Jupyter的启动命令。
在这里插入图片描述
执行Jupyter的启动命令后,会在默认的浏览器中呈现Jupyter主界面。
在这里插入图片描述
单击文件列表右上方的“New”,在弹出的下拉列表中选择“Python 3”,直接创建一个Python文件。
在这里插入图片描述
创建Python文件后,Jupyter会在浏览器中打开一个新的页面。
在这里插入图片描述
在Jupyter文件页面的“In [ ]:”后的文本框中输入如下代码:

print('hello world!')

单击文本框上方的“运行(shift+enter)”按钮,程序执行结果将会在文本框下方直接输出,具体如下图所示。
在这里插入图片描述
使用快捷键Ctrl+S(或修改文件页面的文件名)可以将当前页面中编辑的代码和代码的运行结果都保存在以“.ipynb”为后缀名的文件中,保存后的文件将会出现在Jupyter主界面的文件列表中,单击列表中的文件,可在浏览器中打开并继续使用文件。

3.2.3 安装数据库处理库

利用Python内置的pip工具可以非常方便地安装Python第三方库,安装命令的格式如下:

pip install 模块/库名
pip install numpy pandas

在Jupyter中导入numpy、pandas库,若运行后没有出现任何报错信息,说明库安装成功。如下:

Installing collected packages: numpy, pandas
Successfully installed numpy-1.19.0 pandas-1.1.0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

没想到大厂Adobe还有这些“猫腻”!

北京时间周四晚间,图像及视频生产力工具大厂Adobe发布公告,宣布旗下的视频创作应用Premiere Pro将喜提一系列新的AI功能。这也是Adobe上个月发布AIGC创作功能“萤火虫”后的最新动作。综合Adobe的官方公告和演示视频,最大亮点就是基于文字的视…

生存函数(Survival function)

文章目录1. 定义2. 生存函数的例子3. 参数生存函数3.1 指数生存函数(Exponential survival function)3.2 威布尔生存函数(Weibull survival function)3.3 其他参数生存函数4. 非参数生存函数5. 性质6. Kaplan–Meier estimator6.1…

总结824

学习目标: 4月(复习完高数18讲内容,背诵21篇短文,熟词僻义300词基础词) 学习内容: 英语:早上 读了《nasty place》,单词150个 高数:看了12讲二重积分的内容&#xff0…

算法设计与智能计算 || 专题六: 不可导凸函数的最优解搜索问题

不可导凸函数的最优解搜索问题 文章目录不可导凸函数的最优解搜索问题1. 次梯度下降方法1.1 基于次梯度的 Lasso 回归求解1.2 次梯度求解 Lasso 算法1.3 编程实现2. 软阈值方法2.1 软阈值求解Lasso回归1. 次梯度下降方法 如目标函数包含不可微分的部分,形如 E(w)1N…

计组2.3——浮点数的表示和运算

计组2.3 浮点数 #mermaid-svg-hwjyO2bt7hFXy1eD {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-hwjyO2bt7hFXy1eD .error-icon{fill:#552222;}#mermaid-svg-hwjyO2bt7hFXy1eD .error-text{fill:#552222;stroke:#552…

视频美颜sdk的开发流程与注意事项

目前,视频美颜技术逐渐成为了人们关注的焦点。而视频美颜sdk作为实现视频美颜的重要工具,也因此备受关注。本文将从视频美颜sdk的开发流程和注意事项两个方面进行探讨。 一、视频美颜sdk的开发流程 1、确定需求 在进行视频美颜sdk的开发之前&#xff0…

Solon v2.2.10 发布,助力信创国产化

Solon 是一个高效的 Java 应用开发框架:更快、更小、更简单。它不是 Spring、没有使用 Servlet、JavaEE 接口,是一个有自己接口标准的开放生态。可以为应用软件国产化提供支持,助力信创建设。 150来个生态插件,覆盖各种不同的应用…

天猫数据分析:饮料市场头部份额下滑,无糖饮料占比40%

如今,全世界减糖、控糖的大趋势已经拉开帷幕。 根据沸点测评数据,今年所有在新加坡销售的饮料,必须在包装上注明A、B、C或D的营养等级标签,列明饮料含糖分和饱和脂肪的百分比,营养等级为D的饮品则会被禁止做广告营销。…

Tinymce富文本编辑器在vue项目中的使用;引入第三方插件和上传视频、图片等

先放张效果图第一步:安装依赖 npm install tinymce5.0.12第二步:在项目中的public文件夹中新建tinymce文件夹(因为我的项目是脚手架创建的,所以公共文件夹是public);在node_modules中找到skins文件夹复制到…

插件化换肤原理—— 布局加载过程、View创建流程、Resources 浅析

作者:孙先森Blog 本文主要分析了 Android 布局加载流程 分析 一般的换肤功能大概是这样的:在 App 的皮肤商城内下载“皮肤包”,下载完成后点击更换界面上的 View 相关资源(颜色、样式、图片、背景等)发生改变&#xf…

栈的实现及相关OJ题

🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点!人生格言:当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…

28岁,他是如何成为上市公司测试总监的

现在的大环境下,各行各业都开始内卷起来,测试也不例外,企业要求也越来越高,“会代码”逐渐成为测试工程师的一个标签。你要想拿到一个不错的薪资,必不可少的一个技能—自动化测试,自动化测试难吗&#xff1…

Oracle集合查询详解加练习题

#集合查询 概念:将不同的数据集合(SQL查询语句)按照集合的规则,拼接一个临时的,新的数据集合(表) 1.集合:并集、交集、差集 并集 union all 语法:select column1,COLUM…

「MongoDB」时序数据库和MongoDB第二部分-模式设计最佳实践

在上一篇博客文章时间序列数据与MongoDB:第一部分-简介中,我们介绍了时间序列数据的概念,然后介绍了一些可以用于帮助收集时间序列应用程序需求的发现问题。对这些问题的回答有助于指导支持大容量生产应用程序部署所需的模式和MongoDB数据库配…

基于深度学习PaddleOcr身份证识别

之前使用opencv机械学习处理图片,使用Testseract-OCR进行身份证和姓名识别,发现受背景图片的影响比较大,转PaddleOcr,识别成功率能达到使用要求。 PaddleOcr官网地址:飞桨PaddlePaddle-源于产业实践的开源深度学习平台…

Python爬虫-某跨境电商(AM)搜索热词

前言 本文是该专栏的第42篇,后面会持续分享python爬虫干货知识,记得关注。 关于某跨境电商(AM),本专栏前面有单独详细介绍过,获取配送地的cookie信息以及商品库存数据,感兴趣的同学可往前翻阅。 1. python爬虫|爬取某跨境电商AM的商品库存数据(Selenium实战) 2. Seleni…

偶数科技发布实时湖仓数据平台 Skylab 5.0

2023 年 4 月 11 日, 偶数发布了最新的实时湖仓数据平台 Skylab 5.0,平台各个组件进行了全面升级。新版 Skylab 的发布标志着偶数科技具有从数据存储、计算、管理到分析、应用和 AI 能力的完整的数据管理生态闭环,帮助用户实现批流一体、实时…

贴完车衣开车就走?

贴完车衣之后,你以为直接开走就好了吗? 大错特错!!! 正确流程,记得收藏起来! 1:膜开箱:这个当场开箱,防止偷梁换柱 2:装贴过程:确认施…

损失函数(Loss Function)一文详解-分类问题常见损失函数Python代码实现+计算原理解析

目录 前言 一、损失函数概述 二、损失函数分类 1.分类问题的损失函数 1.交叉熵损失函数(Cross Entropy Loss) 2.Hinge损失函数 3.余弦相似度损失函数(Cosine Similarity Loss) 4.指数损失函数(Exponential Los…

Next.js Polygon, Solidity,The Graph,IPFS,Hardhat web3博客系统

参考 源文档The Complete Guide to Full Stack Web3 Development - DEV Community 源码,源文章里的github项目无法直接运行,经过修改后可mac中可用GitHub - daocodedao/web3-blog: https://linzhji.blog.csdn.net/article/details/130125634 框架 博客…