大数据与人工智能|万物皆算法(第三节)

news2024/11/28 1:49:11

要点一:数据与智能的关系

        1. 一切的核心都是数据,数据和智能之间是密切相关的。

        数据是对客观现实的描述,而信息是数据转化而来的。
例如,24是数据,但说“今天的气温是24摄氏度”是信息,而说“班可以分成24个小组”是数据。

        2. 数据和信息是可以互相转化的,人类通过人类的语义结构(semantics)来赋予数据信息。
处理数据成为信息是由人类主观导向的,加入了对数据的理解和认知。
        3.信息可以通过观察现象总结出结论,形成理论。两个关键词:phenomenon和theory。知识体系是由现象和理论的循环构成的, 理论对现象可以进行验证、修正或解释,理论对现象的作用包括检验、预测和解释, 知识通过变成信息,再变成智能。

要点二:人工智能和数据的关系

        人工智能是基于知识库和新现象的探索,通过不断提升自身能力来实现智能;大数据和人工智能之间存在深层次联系;人工智能在画图等方面展现出了技术能力,但有时也会出现别扭的效果,引发恐怖谷现象;恐怖谷理论解释了为何人物模型越像人越受欢迎的规律;人工智能和数据在行为学和组织行为方面也有涉及。

        1.智能产生的基础本质上还是人类的知识库还是人类的知识库。
        2.恐怖谷效应。有些人物模型精细的图片会让人感到别扭,这种现象被称为恐怖谷效应。恐怖谷理论解释了为什么AI在某一阈值后会被人们反感。恐怖谷效应不仅仅存在于计算机图形领域,也存在于其他领域,如游戏、毛绒玩具等。恐怖谷效应的原因是人对于陌生、不熟悉的事物会感到不适,但随着迭代精度的提高,人们逐渐接受了这种现象。恐怖谷效应是一个跨学科的概念,涉及到技术、管理、组织等多个维度。

要点三:大数据专业学习指南※

        1. 学习数据分析需要掌握数据的存储、清洗和处理(可视化、数据挖掘、最优化)等技能。
        2. 建议学习《数据库系统概论》(王珊和萨世轩)和《数据挖掘概念与技术》(韩家伟)两本书,解决数据存储和分析问题。学习PYTHON编程语言,可以使用B站上的教程(小甲鱼)或者《零基础入门学PYTHON 》一书。
        3. 对于计算机专业的同学,建议学习《普林斯顿微积分读本》和《韩江磊的算法基础课》等课程。有人觉得数学难,但有人建议可以尝试普林斯顿微积分教材。

要点四:大数据的学习定义

        1. 麦肯锡公司将大数据定义为数据量过大且复杂到无法使用传统工具处理的数据集合。Gartner公司将大数据定义为具有高数量、高速度和高延伸性特性的数据集合。
每天人类社会产生的数据量约为2.5QB级别,其中2的10次方就是1024。主要原因是设备多、信息内存大以及延展性高。

        大数据指的是数据量大(volume)且类型多样的数据(variety)、第三个(velocity)是流动的。然后我们今天的流媒体数据是很常见的.数据的类型比较复杂、流媒体数据是常见的、数据是不确定的这些特性共同出现时,是大数据。

        2. 传统的分析问题方式是通过观察现象提出问题,然后收集数据验证观点。大数据分析方式是通过左手的数据和右手的算法,将算法应用于数据中得出结果。大数据分析可以挖掘隐藏的模式和有用的信息,提高决策和预测的准确性。

要点五:数据可视化和数据挖掘的分类聚类关联※

1. 数据分析部分的逻辑是先解决过去和现在的问题,即可视化。 接下来是预测和规范。
 

        2. 数据可视化工具可以展示过去和现在的数据情况,具备一定的解释性。

        类型一:理解和修改已有代码即可

A.Matplotlib — Visualization with Python

        左边是各种类型的图,如饼图、柱状图、条形图、散点图和气泡图。选择一种图形后,可以进入相应的界面,其中包含PYTHON代码。这些图形可以通过使用jupiter notebook来实现。

        B.seaborn

https://seaborn.pydata.org/

        类型二:导入数据(在进行改动,难度比全改简单)

        绘制网页(图形比较复杂之后可以借用这些形式):

Apache ECharts(还需要改代码)

        chartcool:(有些不免费)(https://www.ichartcool.com/zh/index.html)

左边是代码,右边是显示。代码是JavaScript和TypeScript两种不同的编码体系。这种平台适合处理复杂的图形,比如流动的图形和公交路线图。还有一个工具叫做Chat库,更适合用户使用。

要点六:数据挖掘

        1. 数据挖掘处理的问题是什么?解决what will happen和why will happen。数据挖掘解决的问题是站在数据可视化的基础上。

        A.对数据挖掘的总体印象

        数据挖掘是基于数字的,可以将文字和网页转化为数字进行处理。数据挖掘里边你看这有data mining、test mining和web mining。这东西就是数据挖掘,文本挖掘和网页挖掘,一切的核心都是数据挖掘,可以使用数学模型将文字转化为数字。
         图形可以通过RGB编码标准将其转化为数字。
        数据挖掘可以处理不同类型的数据,如文字、图像、音频和视频。

        B.数据挖掘是挖隐藏的模适合关系,数据挖掘的任务可以分为分类、聚类和关联三类。
不同的数据挖掘算法服务于不同的任务,如人工神经网络适用于分类任务,遗传算法适用于聚类任务。
        数据挖掘的目标是挖掘隐藏的模式和关系,通过对数据进行分析和整理,实现对数据的预测和决策。
        数据挖掘的应用范围广泛,包括抖音推荐、头条搜索、AI画图和特斯拉自动驾驶等。
         数据挖掘需要掌握经典算法和数据库数据挖掘等技术,以实现对大量数据的分析和挖掘。

        3.算法的基础与应用
        A.万物皆算法,包括西红柿炒鸡蛋和人的行为,感知和视觉神经传输是一种算法。算法是指完成一项任务的步骤和规范。人工智能可以通过算法实现各种事情。

        B.关联问题解释了淘宝购物车中的商品关系,类似于商业领域中的购物篮分析。 聚类问题解释了机器视觉中的目标识别和扫地机器人如何看到世界。 分类问题解释了自动驾驶中的复杂问题,如chatgpt。

        讨论了一个分数叫做支持度,它表示某个事物在某个方面的得分情况。例如,假设有八张购物小票,每张小票代表一个支持度分数,表示在购买的物品中,面包的得分情况。具体来说,支持度分数是N分之X,其中N代表购物小票的数量,X代表面包的出现次数。因此,面包的支持度分数是8分之X,表示在这八张购物小票中,面包出现了8次。

        支持度表示两个物品之间的关系,支持度越大关系越大。置信度来解决无法理解的复杂公式或定义的问题。
        4. 这个技巧可以用于其他课程中难以理解的公式或定义。

        4.如何将算法细化为PYTHON代码。
        强调了掌握算法和数学的重要性。 提到了分析现实问题的步骤,包括讲算法、细化为PYTHON代码、导入数据和跑出结果。

        5. 提到了Apriori算法,是一个代表性的三页分析的四最后一页是整合的。

        频繁出现的物品集的子集一定是频繁的;不频繁出现的物品级的超级它一定不频繁。比如:电池不频繁出现,所以它和其他物品的组合也不频繁。

        6. 聚类问题是指将散列的点分成若干堆,通过衡量点与中心点的距离来确定堆的分组。 聚类算法可以帮助找出数据中相似的群体,并观察他们的共同特性。聚类算法在日常生活中的应用包括推荐商品、了解用户购买偏好等。

        机器人的视觉聚类问题是通过将不同像素格的RGB数字进行聚类,分出不同的层次。人眼和机器人的视觉看到的世界是一样的,但在大脑中的还原过程可能存在差异,这需要通过聚类算法来解决。

        7.分类问题及神经网络的实现
         分类的过程需要借助历史数据和新数据的特征来进行训练和分类。训练分类器是分类问题的一个重要部分,通过训练分类器,可以将新数据分成不同的组。

        A. 人类大脑中有大量的神经元,每个神经元与其他神经元相连。神经元的放电时间为1秒钟,而计算机晶体管的放电时间为10的负10次方秒,是神经元的七倍快。人类的视觉识别速度为0.1秒,而计算机目前无法达到这个速度。
        神经网络在处理重复和复杂问题时比计算机快,但在没有训练过的情况下,计算机仍然比人类快。自动驾驶利用神经网络识别路况并让车辆进行相关操作,未来的5G时延可以实现在云端处理。

        神经网络和自动驾驶


        B.遗传算法是一种简单的迭代方法,可以用于人工选择。

         遗传算法的上限非常高,可以帮助解决不知道结果的问题。 遗传算法可以在不断迭代中帮助解决实验中的问题.遗传算法可以用于解决各种问题,包括组合数学和计算机科学领域的问题。

        要点七:数据挖掘和自然语言处理的影响

        用户在抖音和头条上的操作也是遗传算法的筛选过程,最终决定了推送的内容。通过不断迭代,用户的偏好会影响推送内容的策略,但回到之前的迭代路径是不可能的。

        1. 技术原理非常简单,将文字、图像、音频视频转化为数字,进行数据挖掘。自然语言处理有趣,通过将文字转化为数字,利用分类关联进行数据挖掘,发现文字之间的关联。数据挖掘的对象是文字和文字之间的关联。

        1. NLP(自然语言处理)是一种处理语言的能力,不同语言文字的处理能力不同,英文相对容易,汉语没有空格,所以处理起来更困难。
        2. 在自然语言处理的应用过程中,情感分析是一种常见的应用。情感分析是指对文本进行情感分析,理解文本中的情感倾向。情感分析可以应用于各种领域,如营销、广告、客户服务等。
        3. 情感分析需要通过学习和训练来提高处理能力,可以使用各种算法和模型来实现。

技术原理是将数字转换成算法来处理各个领域的问题。
        4. 在数据分析、自然语言处理和挖掘等领域中,需要了解相关专业知识。学好本专业基础上,了解相关技术可以为职业发展提供优势,不一定要跨学科学习IT专业,因为该专业供大于求。

要点八:提出的问题。

1. 讨论了未来数据分析专业在工商、劳经等相关专业中的角色和影响。
2. 提出了思考未来应该从事什么样的工作或学习什么样的技能来提升竞争优势。
3. 强调了写出判断和规划的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1341633.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle与mysql的分析函数(窗口函数)

分析函数定义 在SQL语句中,很多查询语句需要进行GROUP BY分组汇总,但是一旦经过分组,SELECT返回的记录数就会减少。为了保留所有原始行记录,并且仍可以进行分组数据分析,分析函数应运而生。 Oracle 8i 版本开始支持窗…

java在线票务系统(选座)Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java servlet 在线票务系统(选座)管理系统是一套完善的java web信息管理系统 系统采用serlvetdaobean(mvc模式),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要…

MongoDB主从复制,一文打尽!

📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜&am…

Hadoop安装笔记2单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理

紧接着上一篇博客:Hadoop安装笔记1: Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理-CSDN博客https://blog.csdn.net/Zhiyilang/article/details/135…

K8s实战-基于LivenessProbe健康检查

LivenessProbe探针用于判断容器是否存活,如果探测到容器不健康,则kubelet将杀掉该容器,然后根据重启策略处理。 LivenessProbe的实现方式: ExecAction:在容器内部执行一个命令,如果该命令的返回码为0&…

右键菜单“以notepad++打开”,在windows文件管理器中

notepad 添加到文件管理器的右键菜单中 找到安装包,重新安装一般即可。 这里有最新版:地址 密码:f0f1 方法 在安装的时候勾选 “Context Menu Entry” 即可 Notepad的右击打开文件功能 默认已勾选 其作用是添加右键快捷键。即,对于任何…

定期修改公司数据协议的重要性

目录 ​编辑 为公司和客户数据提供更好的安全性 利用现代数据分析工具 标准化您的数据收集流程 改善数据的使用 增强您的营销和销售活动 定义数据分类指南 创建更具凝聚力和协作性的团队 遵守法律法规 结论 企业主可以使用许多对其成功至关重要的工具&#…

【UE5.1】程序化生成Nanite植被

目录 效果 步骤 一、下载Gaea软件和树林资产 二、使用Gaea生成贴图 三、 生成地形 四、生成草地 五、生成树林 六、生成湖泊 七、其它功能介绍 7.1 调整树林生成的面积 7.2 让植物随风飘动 7.3 玩家和植物互动 7.4 雪中树林 7.5 环境音效 效果 步骤 一、下载Ga…

图的操作实验

图的操作 一、 实验目的 (1)掌握图的邻接矩阵和邻接表存储结构。 (2)熟练图的邻接表的基本运算。 (3)加深图的深度优先遍历算法和广度优先遍历算法的理解。 (4)领会最小生成树和…

Spring高手之路-Spring事务的传播机制(行为、特性)

目录 含义 七种事务传播机制 1.REQUIRED(默认) 2.REQUIRES_NEW 3.SUPPORTS 4.NOT_SUPPORTED 5.MANDATORY 6.NEVER 7.NESTED 含义 事务的传播特性指的是当一个事务方法被另一个事务方法调用时,这个事务方法应该如何进行? 七…

Clion 项目使用dbg-macro控制台输出ANSI转义,输出颜色文本。

#Clion如何输出ANSI转义 首先源于,引入dbg-macro后,运行发现控制台全部是 C:\Users\WuXiangGuJun\CodeSpace\ClionCodeProjects\Tina\cmake-build-debug\tests\tests.exe ?[02m[..a\tests\src\main.cpp:16 (main)] ?[0m?[36mmessage?[0m ?[01m&q…

【计算机网络实验】educoder实验八 IPV6网络及其路由 头歌

第一关 IPV6网络基础 //千万不要破坏文档原有结构与内容!!! //以下均为判断题,F:表示错误,T:表示正确 //答案必须写在相应行末尾括号内,F与T二选一,大写 // 1、ipv6协议…

element el-table实现可进行横向拖拽滚动

【问题】表格横向太长,表格横向滚动条位于最底部,需将页面滚动至最底部才可左右拖动表格,用户体验感不好 【需求】基于elment的el-table组件生成的表格,使其可以横向拖拽滚动 【实现】灵感来源于这篇文章【Vue】表格可拖拽滚动&am…

《数据库开发实践》之触发器

一、什么是触发器? 1.概念: 简单来说触发器就是一种特殊的存储过程,在数据库服务器触发事件的时候会自动执行其SQL语句集。 2.构成四要素: (1)名称:要符合标识符命名规则 (2&am…

idea 如何快速拉取新分支

方式1 (快捷键:CtrlShift~) 方式2:(快捷键:Alt9)

小梅哥Xilinx FPGA学习笔记18——专用时钟电路 PLL与时钟向导 IP

目录 一:IP核简介(具体可参考野火FPGA文档) 二: 章节导读 三:PLL电路原理 3.1 PLL基本实现框图 3.2 PLL倍频实现 3.3 PLL分频实现 四: 基于 PLL 的多时钟 LED 驱动设计 4.1 配置 Clocking Wizard 核 4.2 led …

详解结构体(包含结构体内存对齐,柔性数组,位段)【尊嘟很详细】

​ 结构体 结构体是一些值的集合,这些值称为成员变量,结构的成员可以是标量、数组、指针,甚至是其他结构体。 成员名可以与程序中其它变量同名,互不干扰。 结构体的定义 (struct结构名{}) struct books {int a;c…

Aseprite编译

官方网站 : https://www.aseprite.org/ Aseprite编译 步骤 : 1> App Store 下载安装 XCode 2> 安装 brew # /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.sh)" 或 # /bin/zsh -c "$(curl -fsSL https://g…

处理HTTP错误响应:Go语言中的稳健之道

开场白:在Web开发中,HTTP错误响应是不可避免的一部分。当请求无法成功完成时,服务器会返回一个错误响应。今天,我们将深入探讨如何在Go语言中优雅地处理这些HTTP错误响应。 知识点一:HTTP错误响应的常见类型HTTP错误响…

初步认识API安全

一、认识API 1. 什么是API API(应用程序接口):是一种软件中介,它允许两个不相关的应用程序相互通信。它就像一座桥梁,从一个程序接收请求或消息,然后将其传递给另一个程序,翻译消息并根据 API 的程序设计执行协议。A…