干货 | 数字经济创新创业——数据是数字经济的基础

news2024/10/5 13:36:12

d6bebe74bfab0e7e6848cf3dca41e4f0.png

下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。

主讲嘉宾:

Kris Singh: CEO at SRII, Palo Alto, California

Visiting Professor of Tsinghua University

Rick McGeer:CEO at engageLively, California, USA

8362d4646c257010dfae69cb12c8705b.png 

bd60ee0f9b5993292f0091e3f51f4327.png

今天我们邀请的专家Rick McGeer,他在数据分析、软件以及互联网领域有深厚的专业知识,并且取得了一些非常好的成绩。他现在也在运营一家公司,主要关注数据分析的未来。他目前所拥有的数据分析工具,也正是我想分享给大家的,这种分析工具可以从各种资源当中捕获大量数据并且进行快速分析,并获得清晰的结果和结论。在开始之前,我还是简单地引入一些背景知识。

正如我在以前的课上所提到的,数据是数字经济的基础。过去的经济基础是石油、天然气和金融等,未来将是数字化和依赖于数据的数字化。所以无论你是什么领域、什么专业,数据分析都是你必备的技能。数据量增长极其之快,特别是在最近的十年里,数据呈现指数级增长。虽然拥有大量的数据是件好事,但是数据本身并不能提供价值,除非你知道如何分析并让数据变得有意义,而这就是我们今天所面临的挑战。数据可以分为结构化数据和非结构化数据,当今超过80%的数据都是非结构化的,我们并不知道应该如何分析,而没有合适的分析则数据毫无价值。

——Kris

我的计算机有1TB硬盘空间,1ZB是10亿TB,所以你需要一个十亿量级的硬盘来存储信息。而到2025年世界上将会有200个ZB的数据,而2010年仅有2个ZB,这意味着在15年内,我们的数据总量扩大了100倍。每18个月过去,这个数据量还要翻倍。所以到2025年,我们每个人需要30台计算机来存储个人数据。那么这么多数据究竟用来干什么呢?下图中有一个列表。但是Kris说,数据是21世纪的石油,他说得简直不能更正确了。

338545d28986cd8ba0ca6316991182bc.png 

3c0c7e5dd2146e130e13cde659b3b36a.png

在我的人生里,发生了人类历史上意义最深远的变革。人类第一次能够在非常短的时间里,在原子的水平上控制这个世界。而这一人类技术的重大变革关键在于数据。数据有很多应用,可以实现娱乐设施的优化。网飞利用数据来优化推荐我们所看的视频。但是这里是数据的爆炸,用于让我们以细粒度的层面控制整个世界,解决二十一世纪的挑战。让世界摆脱疾病困扰,实现碳减排以及其他任务。但是问题在于,这个大数据时代却没有量化分析方法,我们的要求完全超过了计算机工具的能力范畴。

我的朋友roger buss,他正在做攻克核心壳体技术,他想做成永久可用的电池。他们通过精细化操纵电池壳子周围的纳米材料,这需要上千次实验才能完成。我对roger说他是当代爱迪生,因为他像爱迪生一样持续地寻找合适的材料让实验成功。他在几个月的时间里持续对电池充放电,检验当前电池的充电能力。每次实验就会产生五百到一千条记录。所以在我跟他一起工作的时候,他已经有将近十亿的工作表记录储存在计算机上了。无结构的数据尚且难以使用,像这样有结构的数据也像散落的奶酪一样毫无头绪,在庞大的数据集里找到正确的数据并做完分析工作任务量太艰巨了,他完全没有可见的解决方法。

但现在他将数据都储存在云数据库里,并且全程实现共享分析,使用的工具在大学阶段就熟练掌握的可视化拖拽操作,不需要IT专业人才参与。因为云的出现,我们可以打破由于计算机硬件存储带来的限制,软件安装和维护也变得更为容易。我们现在都是数据的探索者,而非数据科学家,在我们的时代,编程还是少数人的技能。而在今天伯克利80%以上的学生至少上过一门编程课,40%的人至少上过一年的数据科学类课程。大部分人不是计算机科学家,但是编程却是他们工作的一部分。正如美国著名的记者Nate Silver曾说“每个记者都得会编程”。但他们只需要会用即可,所以云正是可以简化这一过程的工具,他们无限制地使用云上的工具做分析,也不用掌握IT技术。他们在个人计算机上使用Excel常常面临内存不够用的问题,现在他们可以使用Jupyter这一由伯克利大学开发的有着3500万用户的开源工具。Jupyter近五年的下载量甚至达到了1亿,日常活跃用户有3500万人,它可以用于做任何事。我所认为的分析计算环境就是一个基于云的平台,可以获取实验数据。软件在云平台上运行,实现线下同步,且环境是可以量化的。它可以使用任意的应用程序或系统聚类工具,用于本地和全局资源,没有区域限制,它可以获取所有计算机资源。

如今,获取所有计算机资源的基础已经实现了。一个可规模量化的计算机,在云上存储,可以获取任何数据资源,能够实现可视化,网络缓冲,不需要软件安装和维护。目前最流行的分析工具的基础服务器叫Jupyter hub。这个工具会提供给人们一个服务器,而存储本身是在云环境中实现。它是一个在云端的计算机,可以满足多种用途和需求。它有一个Jupyter实验室编辑器作为服务器的统一和可扩展前端。你也可以在一天甚至几个小时之内就建立一个新的服务器,充分利用Jupyter实验室的资源发展社区。重要的是它的主界面看起来就像是Windows或mac或一般的计算机桌面,不同之处在于这窗口能够像计算机程序一样获取巨大的云平台资源。启动器是这是屏幕右边的大区域是放程序的地方,虽然现在很空,但是它可以扩展到托管任何web前端的应用程序。我们的产品可以让你通过拖拽建立交互上仪表板,并发布到网络平台。我们的软件是云应用,你可以从桌面启动,并与环境无缝衔接。

5283a44e9c9a8531f39a2d19ac7300d9.png 

345cce8358a7dbc3193296bf5f5f2896.png

不只是我们,所有的云应用都在网络上有前端和后台,这就是二十一世纪的数据分析环境。容易的是搭建一个非常简单的数据服务器,所有人都可以自己搭建,完成基础的获取数据请求,并将数据请求通过Internet发出任务。我们需要做的就是把小型数据服务器放到设备面前,在响应请求时抛出数据并将其插入到Jupyter环境中,让任何人都可以看到。这在历史上可被认为是第三代网络计算环境的进化。第一代仅仅是简单的电子邮件和网络,在1990年代,人们可以发布文档并且通过网络和基本的交流方式进行传输。

第二代里,我们用表格作为企业展示工具,canva作为设计工具,如果你考虑一些这些东西都是独立的应用,不具备数据共享的能力。在很多方面,它们就像20世纪70年代计算机出现之前的网络一样,当时有一些专门的设备被称为文字处理器或cad工作站。他们并非通用计算机。而专用计算机只是在做文字处理工作,本质上只是一台运行前置字的计算机,但它不能运行其他任何东西,因为cpu太有限了。不管是设计生产力工具还是办公室套件,都太有限了,这是对网络理解力的不足,网络在普遍意义上可以成为计算环境、数据分析环境,把一切搬到云平台上。所以人们提供的是标准的竖井应用,很像70年代的文字处理器应用,而不是分析计算环境要做的任务,它是否提供了云计算中的通用计算机的等价品,在共享存储上有许多应用程序运行,这是第三代。这就是21世纪的数据分析环境,我也乐于向大家分享,感谢Kris的邀请。

——Rick McGeer

数据分析不仅在美国,在整个世界也是一个大的主题。能够以最佳方式处理数据的人,也能够建立起更好的经济。未来的经济就是数字经济——以数字创造价值。Galileo是一个非常好的平台,我知道在一些新兴经济体也在极力寻求合适的工具和技术用于搭建服务于群体和组织的平台。让我来总结一下Rick的发言,数据对我们所有人都很重要,数据体量增长极其之快,主要来源于智能手机、笔记本、传感器以及我们使用的其他技术。我们有大量的数据资源,而未来IOT数据爆炸式增长将取代其他数据来源排到数据增长的第一位。

8eec703f0ee61bd0fbdf7fbda7370fea.png 

a49e8e0e889eab949a5c8d5c2deeb299.png

AI和机器学习和各种新技术的基础都是数据。AI就是数据分析并让数据更有意义的一种方式。AI提供了平台和工具更好地进行数据分析,所以AI和数据之间建立了连接,从上图中你也可以看到数据挖掘、数据科学以及统计这些耳熟能详的术语都与数据本身有关系。

数据分析是一个全球化趋势。无论你是工程师、领导者或者数据科学家,甚至是工厂员工或者政府工作人员都在此一役中有独特的角色。

我们如何将数据转换为智能和行动。数据对我们个人而言意义不大,除非你对此进行了分析和理解,并找出其中的意义。这里有一个医疗的例子,我们如何使用数据,以及医疗如何具备更高效的潜力。今天的医疗系统有一系列的问题,很昂贵,也面临很多挑战,但这里有专业知识的人,我们有外科医生、内科医生还有很多其他的医生,他们对病人的感受理解更为准确,他们就可以使用他们的情境知识,并利用机器人这些技术工具进行诊断,但技术工具本身不可能非常有帮助,除非有了解医学领域专业知识的人在。

8c2b61c8f410911d979a58067ae03c79.png 

8922cb1cbe2753a1789336c7e98169b3.png

所以将情境和领域专长连接起来,并做分析,这就是AI和机器学习重要的原因。从专业知识开始,再到理解工作领域,之后再使用数据完成分析并协助你,获得结果。结果再用于帮助产生影响,这就叫做智慧数据。智慧数据需要领域专长、需要情境、需要分析技能,把这些整合在一起,就是叫智慧数据。

——Kris

编辑:于腾凯

校对:杨学俊

35cd1c5602110f1905cfb1b844a55989.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/74107.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RTSP 协议漫谈,揭秘 RTSP 协议内幕

RTSP(Real Time Streaming Protocol)实时流传输协议,定义在 RFC2326,是 TCP/IP 协议体系中的一个应用层协议,由哥伦比亚大学、网景和 RealNetworks 公司提交的 IETF RFC 标准。该协议定义了一对多应用程序如何有效地通…

Linux用户管理详解

Linux用户管理详解 前言 Linux用户即Linux的使用者,是指使用Linux系统或服务的人员,通常用户对应拥有一个用户账号,并对用户名识别。正常登录Linux系统,本质是登录系统,但是Linux支持同一时间多个用户同时登陆&#x…

JSP ssh服装定制电子商务系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 JSP ssh服装定制电子商务系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采 用B/S模式开发。开发环境为TOMCA…

大一学生《Web编程基础》期末网页制作 HTML+CSS+JavaScript 网页设计实例 企业网站制作

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 ⚽精彩专栏推荐&#x1…

【Docker】第 1 章 Docker概述

1.1 Docker是什么 使用最广泛的开源容器引擎一种操作系统级的虚拟化技术依赖于Linux内核特性:Namespace(资源隔离)和Cgroups(资源限制) 一个简单的应用程序打包工具 1.2 Docker设计目标 提供简单的应用程序打包工具开…

传奇架设需要准备以下条件

传奇架设其实很简单 很多网友非常爱玩这款游戏,可能还有朋友不知道怎么架设这款游戏 今天特意写篇传奇架设教程,希望大家都能打造出真正属于自己的传奇 首先传奇架设需要准备以下几个软件 准备工具: 1、传奇服务端(版本&#…

select组件切换tags时,联动的select组件内容清空

前言 记录在项目开发中遇到问题的解决方案,方便以后遇到快速解决! 问题描述 在该react hooks 页面中,图纸计划附件表格是一个子组件。其中 【单体】和【专业】两个下拉select选择框,数据来源依赖于【厂区】。 后端给的接口&#…

9微电网两阶段鲁棒优化经济调度方法(MATLAB程序)

联系2645521500 复现文章: 微电网两阶段鲁棒优化经济调度方法——刘一欣(中国电机工程学报) 主要内容: 针对微电网内可再生能源和负荷的不确定性,建立了min-max-min 结构的两阶段鲁棒优化模型,可得到最…

SpringCloud微服务网关gateway

SpringCloud微服务网关gateway 网关简介 大家都都知道在微服务架构中,一个系统会被拆分为很多个微服务。那么作为客户端要如何去调用这么多的微服务呢? 如果没有网关的存在,我们只能在客户端记录每个微服务的地址,然后分别去用…

word电子版签名

word电子版签名 问题 word如何实现电子版签名 解决方案一 1 在纸上使用签字笔签名并进行拍照 2 对图片进行使用电子扫描 对于图片进行使用电子扫描, 可选择的app与微信小程序较多,可自行选择,对于app, 笔者推荐全能扫描王&a…

康沣生物通过上市聆讯:年亏损过亿 高瓴与比邻星是股东

雷递网 雷建平 12月7日康沣生物科技(上海)股份有限公司(简称:“康沣生物”)日前通过聆讯,准备在港交所上市。年亏损过亿康沣生物是一家专注于冷冻消融微创介入治疗技术在心血管领域应用的企业。康沣生物CEO…

我的年度用户体验趋势报告——由 ChatGPT AI 撰写

Our yearly UX trends report, but written by the ChatGPT AI作为今年用户体验集体计划的一部分,我们刚刚发布了年度用户体验状态报告。只是为了好玩,我们想测试ChatGPT人工智能对新一年用户体验趋势的看法,看看哪些预测一致,哪些…

移植第二天知识点整理

一&#xff1a; uboot源码移植准备工作 1.在家目录下创建一个<demo>文件夹 2.将en.SOURCES-stm32mp1-openstlinux-5.10-dunfell-mp1-21-11-17_tar_v3.1.0.xz文件夹拷贝到demo目录下 3.对en.SOURCES-stm32mp1-openstlinux-5.10-dunfell-mp1-21-11-17_tar_v3.1.0.xz进行解…

探秘微信业务优化:DDD从入门到实践

引言 | 本文作者从微信团队维护的带货类项目所遇卡点出发&#xff0c;尝试用领域驱动设计方法&#xff08;简称DDD&#xff09;&#xff0c;保障在快节奏、多人协作的项目迭代中&#xff0c;维持系统的可维护性、可拓展性、高内聚低耦合和稳定性。作者首先剖解相关概念原理&…

福建师范大学Android Room 技术浅谈

福建师范大学Android Room 技术浅谈 ## 前提告知该文章是用作课程评分,本文内容虽为原创&#xff0c;但也有参考。 1.Room的背景简介 处理大量结构化数据的应用可极大地受益于在本地保留这些数据。最常见的使用场景是缓存相关的数据&#xff0c;这样一来&#xff0c;当设备无…

JVM虚拟机内存结构详解,一文带你学习完80%的知识

程序计数器 定义 Program Counter Register 程序计数器&#xff08;寄存器&#xff09; 作用&#xff1a;是记录下一条 jvm 指令的执行地址行号特点&#xff1a; 是线程私有的&#xff0c;随着线程创建而创建&#xff0c;随着线程销毁而销毁不会存在内存溢出是一块较小的内存…

CVPR 2019|APCNet:基于全局引导的局部匹配度自适应金字塔上下文网络

&#x1f3c6;本篇论文发现了一种全局引导的局部匹配度&#xff08;Global-guided Local Affinity (GLA))特征&#xff0c;用于构造上下文语义信息。基于此特性&#xff0c;作者设计了自适应上下文模块&#xff0c;构建自适应金字塔上下文网络&#xff08;APCNet&#xff09;。…

手工测试2年面临职场危机,3个月进阶自动化测试后,老板终于留我了...

​前言 从学校到职场已经3年时间了&#xff0c;大学学的计算机专业&#xff0c;最开始事项从事java开发的&#xff0c;最终被现实打败&#xff0c;然后就从事了软件测试&#xff0c;现在已近过去了2年&#xff0c;为什么说是2年了&#xff0c;大学毕业有一段空窗期&#xff0c…

大数据面试之HDFS常见题目

大数据面试之HDFS常见题目 HDFS常见题目 1 HDFS读流程和写流程 1.1 读流程&#xff08;下载&#xff09; 文字描述&#xff1a; ​ 客户端将要读取的文件路径发送给 NameNode&#xff0c;NameNode 获取文件的元信息&#xff08;主要是 block 的存放位置信息&#xff09;返回…

美团外卖推荐智能流量分发的实践与探索

总第548篇2022年 第065篇美团外卖推荐团队在推荐算法的长期落地实践中&#xff0c;针对外卖业务情境化特点对排序模型进行深入探索与优化。本文介绍了面向情境化建模的“情境细分统一模型”建模思路&#xff0c;通过用户行为序列建模以及专家网络两个模块的优化&#xff0c;实现…