机器学习实战六步法之数据收集方法(四)

news2024/11/26 1:53:07

要落地一个机器学习的项目,是有章可循的,通过这六个步骤,小白也能搞定机器学习。

看我闪电六连鞭!🤣

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8fokt0Mq-1686313603676)(image/image-20230604123237459.png)]

数据收集

数据是机器学习的基础,没有数据一切都是空谈!数据集的数据量和数据的质量往往决定了“事情的成败”。所以现在国内(比如百度的文言一心)搞大模型的公司,他们往往拥有“庞大的”数据资产。

数据到底从何而来?

数据的收集通常是比较费力的工作!我们通常通过开源的数据集、数据埋点、数据爬取来获取数据集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-juDDEbbZ-1686313671457)(image/image-20230608210425924.png)]
下面介绍一些开源的数据集:

  1. Kaggle:这是一个知名的数据科学社区,提供了大量的免费开源数据集,涵盖了多个领域和任务。网站地址:https://www.kaggle.com/datasets

  2. UCI机器学习数据仓库:这是一个包含多个数据集的数据仓库,涵盖了多个领域和任务,如计算机科学、医学、金融等。网站地址:https://archive.ics.uci.edu/ml/index.php

  3. Google Dataset Search:这是一个由Google提供的免费开源数据集搜索引擎,可用于搜索各种数据集,如图像、文本、音频等。网站地址:https://datasetsearch.research.google.com/

  4. AWS数据集:这是由亚马逊AWS提供的免费开源数据集,包括天气数据、气象数据、医学数据等,可用于机器学习和数据科学。网站地址:https://registry.opendata.aws/

  5. OpenML:这是一个由欧洲机器学习研究中心提供的免费开源数据集平台,包括多个数据集和任务,可用于机器学习和数据挖掘。网站地址:https://www.openml.org/

  6. Data.gov:这是由美国政府提供的免费开源数据集平台,包括各种政府数据和公共数据,可用于统计分析和数据科学。网站地址:https://www.data.gov/

以下是一些医药行业的开源数据集

  1. DrugBank:这是一个包含药物化合物、药品剂量、药理学数据等的数据库,用于药物研究和开发。网站地址:https://www.drugbank.ca/

  2. PubChem:这是一个包含化学物质、化合物、生物分子等的数据库,用于生物化学和药物研究。网站地址:https://pubchem.ncbi.nlm.nih.gov/

  3. TCGA:这是一个包含多种癌症数据的数据库,包括基因表达、突变、临床信息等,用于癌症研究和治疗。网站地址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

  4. GTEX:这是一个包含多个组织和器官的基因表达数据集,用于研究人类基因表达的变化和差异。网站地址:https://www.gtexportal.org/home/

  5. MIMIC:这是一个包含多个重症监护患者的临床数据集,包括生理信号、诊断数据、药物治疗数据等,用于疾病预测和治疗。网站地址:https://mimic.mit.edu/

  6. PhysioNet:这是一个包含多个生理信号数据集的数据库,包括心电图、脑电图、呼吸信号等,用于生理信号分析和诊断。网站地址:https://physionet.org/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/629937.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

潮牌搭配APP的设计与实现

摘 要:本文开发过程以android为中心,通过数据库进行的数据访问操作。软件以面向对象的思维进行开发和设计,针对于广大群众进行下载使用,对用户提供了时尚的搭配,带领用户形成自己的一套搭配系统,做自己搭配…

C++ std::thread 与Qt qthread多线程混合编程

C与Qt深度融合:高效设计多线程应用框架 1. C与Qt线程的混合使用1.1 C线程与Qt线程的基本概念1.2 线程间的相互依赖关系1.3 设计合理的代码框架 二、深入理解C和Qt线程模型2.1 C线程模型2.2 Qt线程模型2.3 C和Qt线程模型的比较 三、C和Qt线程间的互操作性3.1 std::th…

Web应用技术(第十六周/END)

本次练习基于how2j的教程完成对SpringBoot的初步学习。 初识Springboot 学习导入:1.第一个基于SpringBoot的项目:(1)application.java:该文件中的核心代码: (2)HelloController.java…

浅结代码混淆2

文章目录 SMC 自解码什么是SMC?原理示例动调 mov混淆 SMC 自解码 什么是SMC? 简而言之,就是程序中的部分代码在运行之前被加密成一段数据,不可反编译,通过程序运行后执行相关的解码功能,对加密…

Nginx搭建Https反向代理,使用阿里云免费SSL证书 - Docker

Docker安装Nginx - 需要有域名 没有docker需提前安装docker,不知怎么安装的请自行百度。 1、拉取镜像 docker pull nginx2、去阿里云或者其他云服务提供商申请免费证书,申请到之后下载下来,上传到服务器 # 创建nginx-proxy目录 mkdir ngi…

软考A计划-系统架构师-官方考试指定教程-(13/15)

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

IP签名档PHP开源版:轻松打造网站个性签名档

今天,我们将为大家介绍一个有趣的IP签名档项目。通过将源代码部署在服务器上,您可以轻松地为自己的社交媒体、论坛等地创建一个独特的签名档,使您的网站更加出彩! 接下来,我们将详细向大家展示如何搭建PHP开源版IP签名…

ASP.NET Core Web API入门之一:创建新项目

ASP.NET Core Web API入门之一:创建新项目 一、引言二、创建新项目三、加入Startup类,并替换Program.cs内容四、编辑Program.cs代码五、修改控制器的路由六、运行项目 一、引言 最近闲着,想着没真正从0-1开发过ASP.NET Core Web API的项目&a…

SpringMVC原理分析 | Hello程序

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! SpringMVC Spring MVC 是 Spring 提供的一个基于 MVC 设计模式的轻量级 Web 开发框架,本质上相当于 Servlet; 拥有结构最清晰的 ServletJSPJav…

uni-app APP、html引入html2canvas截图以及截长图

下载安装html2canvas 方式一,https://www.bootcdn.cn/ CDN网站下载html2canvas插件 这里下载后放在测项目目录common下面 页面中引入 方式二、npm方式安装html2canvas 1、npm方式下载 npm i html2canvas2、引入html2canvas import html2canvas from html2can…

linux系统CAN驱动问题分析

在TI sam3354芯片上,使用3.13及4.19版内核,编译CAN驱动,加载启动后,查看有CAN设备,但无法直接使用ifconfig操作CAN设备,以下简单分析下问题。 加载驱动后,查看网络设备: 可以看到有…

分布式项目15 用户注册,单点登陆,用户退出dubbo来实现

用户注册 分析:当用户填写完成注册信息之后,将请求发送给前台服务器.之后前台消费者利用dubbo框架实现RPC调用。之后将用户信息传递给jt-sso服务提供者.之后完成数据的入库操作。 01.页面url分析 02.查看页面JS $.ajax({ type : "POST", url : "/…

煤矿安全防范,DTU为采矿过程提供实时数据支持

在当今快节奏的时代,采矿行业为我们提供了丰富的资源。然而,随着采矿作业的不断扩大和复杂化,我们也面临着一系列潜在的挑战。其中,数据传输和安全问题尤为突出。 想象一下,在一个繁忙的矿山中,海量的数据需…

让软件研发可视化可量化,华为云CodeArts持续加速企业研发转型

导读:软件开发工具从未像今天这样重要。 “没有度量,就没有管理。” (If you can’t measure it, you can’t manage it.) 管理学大师彼得德鲁克的话时刻提醒人们,度量是管理的必要条件。 在高科技领域,研发投入是企业核心竞争力的…

Linux常用命令——grep命令

在线Linux命令查询工具 grep 强大的文本搜索工具 补充说明 grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本&…

【MySQL数据库 | 第十二篇】:约束

约束: 在MySQL中,约束是一种限制数据表中列值的规定。保证数据库中的数据正确,有效性和完整性。MySQL中的约束有以下几种: 1. 主键约束(Primary Key Constraint):主键是用于唯一标识表中每行记…

国内强大的智能语言模型AI

​ Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 前言 环境列表 视频教程 1.飞书设置 2.克隆feishu-chatgpt项目 3.配置config.yaml文件 4.运行feishu-chatgpt项目 5.安装cpolar内网穿透 6.固定公网地址 7.机器人权…

chatgpt赋能python:Python文件目录切换:简单易用的方法

Python文件目录切换:简单易用的方法 Python语言可以轻松地处理文件和目录。使用Python的os库可以方便地操作文件系统。Python在os库中提供了许多可以轻松完成文件和目录操作的函数,其中之一是os.chdir。os.chdir函数用于更改当前的工作目录。 为什么需…

使用阿里云OSS实现图片文件上传

说明&#xff1a;注册用户时&#xff0c;经常会用到上传头像。文件的上传/接收与一般文本数据不同。 一、创建Demo页面 先准备一个Demo页面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>图片上传…

第三章 三段论:所有,有的。

第三章 三段论&#xff1a;所有&#xff0c;有的。 第一节 三段论-推结论 题-三段论-结构-推结论&#xff1a;所有A是B&#xff1b;所有B是C&#xff1b;得&#xff1a;所有A是C。&#xff08;最简单的模型&#xff09; 4.所有高明的管理者都懂得关心雇员福利的重要性&…