第1章 如何听起来像数据科学家

news2024/11/26 21:18:39

第1章 如何听起来像数据科学家

文章目录

      • 第1章 如何听起来像数据科学家
        • 1.1.1 基本的专业术语
        • 1.1.3 案例:西格玛公司
        • 1.2.3 为什么是Python
        • 1.4.2 案例:市场营销费用
        • 1.4.3 案例:数据科学家的岗位描述

我们拥有如此多的数据,而且正在生产更多数据,我们甚至创造了很多疯狂的小机器24×7不间断的收集数据,在21世纪,我们面对的真正问题是如何搞懂这些数据。

数据就在那里,总有一些对我们有价值的!肯定有!

我们要从数据中探寻洞察和知识。

1.1.1 基本的专业术语

当使用**数据(data)这个词时,我们指的是以有组织(organized)无组织(unorganized)**格式聚集在一起的信息。

  • 有组织数据(organized data):指以行列结构分类存储的数据,每一行代表一个观测对象(observation),每一列代表一个观测特征(characteristic)
  • 无组织数据(unorganized data):指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。

数据科学是关于如何处理数据、获取知识,并用知识完成以下任务的过程:

  • 决策
  • 预测未来
  • 理解过去或现在
  • 创造新产业或新产品

1.1.3 案例:西格玛公司

今天,许多严重依靠直觉的CEO希望快速做出决定,并尝试所有的方案,直到找到答案。

数据科学家Hughan博士则具有分析能力,她的策略是从用户产生的数据中寻找答案,而不是依靠直觉。数据科学正是利用这样的分析能力,帮助“司机”做决定。

1.2.3 为什么是Python

案例:分析一条推文

在本例中,我们将分析一些含有股票价格信息的推文。

tweet="RT @robdv: $TWTR now top holding for Andor,unseating $AAPL"
words_in_tweet=tweet.split(' ')
for word in words_in_tweet:
    if '$' in word:
        print("THIS IS ABOUT",word)

下面解释一下上面的代码片段:

(1)用变量tweet存储推文信息(Python中的string类型):RT @robdv: $TWTR now top holding for Andor,unseating $AAPL

(2)word_in_tweet变量用于对原始推文进行切分(将文字隔开)该变量的内容如下:

['RT', '@robdv:', '$TWTR', 'now', 'top', 'holding', 'for', 'Andor,unseating', '$AAPL']

(3)用for循环对切分开的列表进行迭代,逐个查看列表中的内容

(4)用if语句判断推文中的每一个词是否包含$符号(人们在推文中使用$表示股票行情)

(5)如果推文中包含$符号,则输出该词

这段代码的运行结果如下:

THIS IS ABOUT $TWTR
THIS IS ABOUT $AAPL

它们是这段推文中仅有的两个含有$符号的单词

1.4.2 案例:市场营销费用

image-20230224160912745

image-20230224161142259

这种类型的问题在数据科学中非常常见。我们试图识别影响产品销量的关键特征,如果能够分离出关键特征,就能够利用这种关系,调整营销费用的分配方式,实现销量的提升。

实际上这是一个商业问题。

需求是:用最少(尽量少)的广告预算得到最大(尽量大)的销量

所以我们真正的目的是:找到电视、广播、报纸上花费的广告预算和销量之间的关系。

我们用t代表电视广告花费,r代表广播广告花费,n代表报纸广告花费,s代表产品销量

f ( t , r , n ) = s f(t,r,n)=s f(t,r,n)=s 找到这个函数关系;或者至少找到t、r、n对s影响的权重

1.4.3 案例:数据科学家的岗位描述

image-20230224162915742

请注意第二家公司要求掌握的核心的Python库,本书将会对这些库进行介绍。

import requests
#used to grab data from the web 从网站中抓取数据
from bs4 import BeautifulSoup
#used to parse HTML 解析HTML
from sklearn.feature_extraction.text import CountVectorizer
#used to count number of words and phrases (we will be using this module a lot)

前两行imports代码用于从招牌网站中抓取数据,第三行import用于对文本进行计数。

texts=[]
#hold our job descriptions in this list
for index in range(0,1000,10): #go through 100 pages of indeed
    page='https://www.indeed.com/jobs?q=data+scientist&start='+str(index)
    #identify the url of the job listings
    web_result=requests.get(page).text
    #use requests to actually visit the url
    soup=BeautifulSoup(web_result)
    #parse the html of the resulting page
    
    for listing in soup.findAll('span',{'class':'summary'}):
        #for each listing on the page
        texts.append(listing.text)
        #append the text of the listing to our list

以上代码的功能是打开100个网页,抓取网页中的岗位描述信息。最重要的变量是texts,它存储了1000个岗位描述。

type(texts) #==list
vect=CountVectorizer(ngram_range(1,2),stop_words='english')
#get basic counts of one and two word phrases
matrix=vect.fit_transform(texts)
#fit and learn to the vocabulary in the corpus
print(len(vect.get_feature_names())) #how many features are there
#There are 11,293 total one and two words phrases in my case!!

image-20230225141424158

image-20230225141442061

本案例的代码由于网站反爬虫机制或者网页结构变化等其他一系列原因,并不能直接运行。
`

[外链图片转存中…(img-S5Zo0ehs-1681435562538)]

[外链图片转存中…(img-pTLTzwIz-1681435562538)]

本案例的代码由于网站反爬虫机制或者网页结构变化等其他一系列原因,并不能直接运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

山西省税务汇总申报流程

1、国家税务总局山西省电子税务局 企业登录:填写社会信用代码、密码、手机号、获取验证码,即可登录成功。 2、登录成功后,按下图 第一步进行数据更新、第二步点击“我要办税”->税费申报及缴纳 3、先填写报表->增值税及附加税 4、…

每日学术速递4.11

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning 标题:InstantBooth:无需测试时间微调的个性化文本到图像生成 作者&a…

九耶丨钛伦特-用深度学习实现垃圾图像分类(一)

在这个项目中我们将结合我们的日常生活,让计算机帮助我们进行垃圾分类。比如让计算机能够正确将如下三张包含不同垃圾的图像进行分类。 我们希望计算机能够识别出三张图像依次是玻璃(玻璃瓶),纸张(信封)和塑…

Kafka学习记录

阅读前请看一下:我是一个热衷于记录的人,每次写博客会反复研读,尽量不断提升博客质量。文章设置为仅粉丝可见,是因为写博客确实花了不少精力。希望互相进步谢谢!! 文章目录阅读前请看一下:我是一…

“商量”翻车了?网友质疑搬运C站

在ChatGPT大热的当下,各大互联网和AI大厂陆续开始推出国内版本的大模型产品了,最近发布的有:商汤版ChatGPT发布千亿参数大模型:商量!第一个真正实现智能涌现的国产大语言模型,内测即将开启阿里版 ChatGPT 突…

ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

近两年,视觉语言模型 (VLM) 逐渐兴起,并在小样本学习 (Few-shot Learning) 和零样本推理 (Zero-shot Inference) 上取得了令人注目的成果。那么这些在自然图像上取得成功的大规模预训练视觉语言模型,是否能成功应用到医疗领域呢?抱…

springboot项目中的mysql用国产数据库达梦替换的相关说明

一、 用“DM管理工具”的“管理用户”创建你需要用户,也是达梦的模式。 用户的权限问题可以直接角色授权,方便一些。 二、借用达梦的“DM数据迁移工具”做数据库的表内容转移。 1. 新建工程、新建迁移 编辑mysql的数据库源 编辑达梦的目的端数据库 选择之…

力扣119杨辉三角 II:代码实现 + 方法总结(数学规律法 记忆法/备忘录)

文章目录第一部分:题目第二部分:解法①-数学规律法2.1 规律分析2.2 代码实现2.3 需要思考第三部分:解法②-记忆法(备忘录)第四部分:对比总结第一部分:题目 🏠 链接:119.…

工业路由器IO远程控制使用说明(智联物联)

工业路由器IO控制是指路由系统已开发支持对用户DI(数字输入)/DO(数字输出)/Relay(继电器)类型的设备控制操作,目前各支持1路设备类型。 IO控制目前支持2种方式进行控制操作,即通过工…

C/C++每日一练(20230417)

目录 1. 字母异位词分组 🌟🌟 2. 计算右侧小于当前元素的个数 🌟🌟🌟 3. 加一 🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 J…

【JavaScript】3.JavaScript预解析

JavaScript 预解析 1. 变量预解析 和 函数预解析 js引擎运行js 分为两步: 预解析 代码执行 预解析 js引擎会把js 里面所有的 var 还有 function 提升到当前作用域的最前面代码执行 按照代码书写的顺序从上往下执行 预解析分为 变量预解析(变量提升&…

0101壳-手写springboot-springboot系列

文章目录1 前言1 创建我们自己的pringboot模块1.1 引入相关依赖1.1 启动类注解1.2 启动类2 测试模块3 启动测试结语1 前言 springboot有以下作用: 简化配置:Spring Boot提供了一组预定义的自动配置选项,可以快速地配置应用程序,…

2023年虚拟数字人行业研究报告

第一章 行业概况 虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多种人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟人可分为服务型…

[Python工匠]输出① 变量与注释

变量(variable)是用来从内存找到某个东西的标记 #去掉s两边的空格,再处理 value process(s.strip()) s " hello World " value1 len(s) value2 len(s.strip())print(value1) print(value2) #用户输入可能会有空格&#x…

【云原生】k8s集群命令行工具kubectl之应用部署命令详解

kubectl应用部署命令详解一、准备工作1.1、Replication Controller1.2、Deployment1.3、DaemonSet1.4、查看创建的svc和pod1.5、kubectl 命令自动补全设置二、应用部署命令2.1、diff2.2、apply2.3、replace2.4、rollout2.4.1、history2.4.2、pause2.4.3、resume2.4.4、restart2…

Ubuntu20.04安装matlab2022b

Ubuntu20.04安装matlab2022b 1.系统要求 Ubuntu 22.04 LTSUbuntu 20.04 LTSUbuntu 18.04 LTSDebian 11Debian 10Red Hat Enterprise Linux 9Red Hat Enterprise Linux 8 (minimum 8.4)Red Hat Enterprise Linux 7 (minimum 7.9)SUSE Linux Enterprise Desktop 15SUSE Linux E…

【攻城狮计划】Renesas RA2E1 详细介绍

🚩WRITE IN FRONT🚩 🔎介绍:"謓泽"正在路上朝着"攻城狮"方向"前进四"🔎🏅荣誉:2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2022博客之星TOP10…

A40i使用笔记:QT使用alsa采集音频pcm信息

一、前言 目的是实现一种效果,就是在音频识别时,能够实时显示当前人员说话的声音幅度,通过波形曲线的形式显示出来。如下效果(非我实现) 还可以实现在实时采集的同时,将需要的数据保存成指定格式文件&…

状态设计模式(State Pattern)[论点:概念、相关角色、图示、示例代码、框架中的运用、适用场景]

文章目录概念组成角色相关图示代码示例框架中的应用适用场景概念 状态模式(State Pattern)是一种行为型设计模式,用于解决对象在不同状态下的行为问题。它允许一个对象在其内部状态改变时改变它的行为。状态模式主要包含三个部分:…

Day924.自动化测试 -系统重构实战

自动化测试 Hi,我是阿昌,今天学习记录的是关于自动化测试的内容。 自动化测试是一个很容易产生“争议”的话题,也经常会有一些很有意思的问题。 自动化测试不是应该由测试同学来编写吗,开发是不是没有必要学吧?之前…