【Datawhale夏令营】任务一学习笔记

news2025/1/8 14:18:59

目录

一:anaconda的环境配置

二:赛题任务解读

2.1 任务要求

2.2 数据集介绍

2.3 评估指标

三:机器学习之 LightGBM


一:anaconda的环境配置

  1. 下载Anaconda:访问Anaconda官方网站(https://www.anaconda.com/products/individual)下载适合你操作系统的Anaconda安装包。选择Python 3.x版本的安装包。

  2. 安装Anaconda:下载完成后,运行安装包,按照向导完成Anaconda的安装过程。在安装过程中,你可以选择将Anaconda安装到默认路径或自定义路径。

  3. 创建环境:安装完成后,打开Anaconda Navigator(或者在命令行中输入anaconda-navigator)或Anaconda Prompt,然后执行以下命令创建一个新的环境:

    conda create --name myenv
    

    其中,myenv是你所创建环境的名称,你可以根据需求修改它。

  4. 激活环境:创建环境后,需要激活该环境才能使用。在Anaconda Prompt中执行以下命令激活环境:

    • 在Windows上:

      conda activate myenv
      
    • 在macOS和Linux上:

      conda activate myenv
      

    激活环境后,命令行的前缀会显示环境的名称(如(myenv) C:\User\Username>)。

  5. 安装软件包:在激活的环境下,你可以使用conda命令或者pip命令安装需要的软件包。例如,使用conda安装numpy:

    conda install numpy
    

    或者使用pip安装:

    pip install numpy
    

    根据你的需求,安装其他软件包。

  6. 使用环境:完成环境的配置后,你可以使用该环境运行你的Python程序。在激活环境的状态下,使用命令行执行Python程序或者使用集成开发环境(IDE)加载该环境。

  7. 关闭环境:当你完成使用环境时,可以关闭激活的环境。在命令行中执行以下命令关闭环境:

    conda deactivate
    

    这将会返回到默认的系统环境。

二:赛题任务解读

锂离子电池生产参数调控及生产温度预测挑战赛:赛事链接

2.1 任务要求

  • 初赛任务:初赛提供了电炉17个温区的实际生产数据,分别是电炉上部17组加热棒设定温度T1-1 ~ T1-17,电炉下部17组加热棒设定温度T2-1~T2-17,底部17组进气口的设定进气流量V1-V17,选手需要根据提供的数据样本构建模型,预测电炉上下部空间17个测温点的测量温度值。

2.2 数据集介绍

  • 初赛为参赛选手提供了5类数据:1)加热棒上部温度设定值、2)加热棒下部温度设定值、3)进气流量、4)上部空间测量温度、5)下部空间测量温度。出于数据安全保证的考虑,所有数据均为脱敏处理后的数据。训练集及测试集每行均含有5类数据。选手需要建立上部加热棒设定温度、下部加热棒设定温度、进气流量与上部空间测量温度、下部空间测量温度之间的模型。

2.3 评估指标

  • 初赛考核办法采用测试集各行数据的加热棒上部温度设定值、加热棒下部温度设定值、进气流量3类数据作为输入,选手分别预测上部空间测量温度、下部空间测量温度。将选手预测的上部空间测量温度、下部空间测量温度与测试集数据的测量值进行比较。采用MAE平均绝对误差作为评价指标。

本次比赛为数据挖掘类型的比赛,聚焦于工业场景。本赛题实质上为回归任务,其中会涉及到时序预测相关的知识。

通过电炉空间温度推测产品内部温度,设计烧结过程的温度场和浓度场的最优控制律:

  • 任务输入:电炉对应17个温区的实际生产数据,分别是电炉上部17组加热棒设定温度T1-1 ~ T1-17,电炉下部17组加热棒设定温度T2-1~T2-17,底部17组进气口的设定进气流量V1-V17;
  • 任务输出:电炉对应17个温区上部空间和下部空间17个测温点的测量温度值。

值得注意的是预测目标为34个,所以需要我们进行34次模型训练和预测。

三:机器学习之 LightGBM

在处理这个问题时,我们主要考虑的是回归预测。一种常规的解决思路是运用机器学习技术,例如 LightGBM 或 XGBoost,或者借助深度学习方法进行实践。当我们选择自行搭建模型的路径时,我们将面临更为复杂的挑战,包括构建模型结构以及对数值数据进行标准化处理。

总的来说,我们需要经过以下步骤来解决本问题:

  • 数据预处理
  • 切分训练集与验证集
  • 训练模型
  • 生成最后的预测结果

在实施这些步骤的过程中,我们需要根据模型的性质和数据的特点灵活调整,确保每一步的实施都能最大化模型的预测准确性,从而有效解决这个回归预测问题。

以下是夏令营baseline讲解

更新lightGBM库&解压缩数据 

!pip install -U lightgbm

!unzip data/data227148/data.zip  //具体的路径

这两个命令需要在具有相应权限的命令行环境中执行,例如终端或命令提示符。如果使用的是其他开发环境,如Jupyter Notebook,则可以在相应的框/单元中执行这些命令。

导入库

# 导入所需要的库
import pandas as pd # 用于处理数据的工具
import lightgbm as lgb # 机器学习模型 LightGBM
from sklearn.metrics import mean_absolute_error # 评分 MAE 的计算函数
from sklearn.model_selection import train_test_split # 拆分训练集与验证集工具
from tqdm import tqdm # 显示循环的进度条工具

数据准备

train_dataset = pd.read_csv("./data/train.csv") # 原始训练数据。
test_dataset = pd.read_csv("./data/test.csv") # 原始测试数据(用于提交)。

submit = pd.DataFrame() # 定义提交的最终数据。
submit["序号"] = test_dataset["序号"] # 对齐测试数据的序号。

MAE_scores = dict() # 定义评分项。

模型训练 

pred_labels = list(train_dataset.columns[-34:]) # 需要预测的标签。
train_set, valid_set = train_test_split(train_dataset, test_size=0.2) # 拆分数据集。

 训练参数

# 设定 LightGBM 训练参,查阅参数意义:https://lightgbm.readthedocs.io/en/latest/Parameters.html
lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'regression',
        'metric': 'mae',
        'min_child_weight': 5,
        'num_leaves': 2 ** 5,
        'lambda_l2': 10,
        'feature_fraction': 0.8,
        'bagging_fraction': 0.8,
        'bagging_freq': 4,
        'learning_rate': 0.05,
        'seed': 2023,
        'nthread' : 16,
        'verbose' : -1,
    }

no_info = lgb.callback.log_evaluation(period=-1) # 禁用训练日志输出。

后续讲解仍在进行

baseline进行修改优化后并跑通,结果可观如下:

 

参考文章:

datawhale暑期夏令营:datawhale开源项目

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/781673.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL篇-04_SQL进阶挑战-01_增删改操作

插入记录 SQL110 插入记录(一) 描述 牛客后台会记录每个用户的试卷作答记录到exam_record表,现在有两个用户的作答记录详情如下:用户1001在2021年9月1日晚上10点11分12秒开始作答试卷9001,并在50分钟后提交&#xff…

【算法基础:数学知识】4.3 欧拉函数

文章目录 欧拉函数定义性质 例题列表873. 欧拉函数(使用质因数分解求一个数的欧拉函数)原理讲解(公式推导)⭐解法代码 874. 筛法求欧拉函数(求 1 ~ n 中所有数字的欧拉函数)⭐ 欧拉函数 https://oi-wiki.o…

安装及配置zabbix_agent代理端(监控FTP服务器)

监控agent的linux主机我们在之前的文章里已经做好了 现在直接安装ftp服务即可 [rootagent ~]# yum install -y vsftpd[rootagent ~]# systemctl start vsftpd #启动ftp服务[rootagent ~]# systemctl enable vsftpd #设置ftp服务开机自启 Created symlink fro…

codec2play流程总结

Codec2.0(C2)是android系统为vendor提供的用于实现video/audio/filter模块的的HAL层接口API,vendor可用这个API实现他们自己的HAL层,Codec2.0是用于替换现有的OMX-IL。 数据流程 C2LinearBlock创建share ptr类型block,fetchLinearBlock对blo…

【每日一题Day274】LC42接雨水 | 单调栈

接雨水【LC42】[面试常见] 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 按列求贡献:枚举 首先确定按行计算雨水,还是按列确定雨水 按行计算: 按列计算&#xff1…

SpringBoot之jackson之复杂XML和Object互转、泛型、传参/接参

引入依赖 <!-- lombok插件 --><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency><!-- jackson xml 转换工具 --><dependency><…

自然语言处理实战项目13-基于GRU模型与NER的关键词抽取模型训练全流程

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下自然语言处理实战项目13-基于GRU模型与NER的关键词抽取模型训练全流程。本文主要介绍关键词抽取样例数据、GRU模型模型构建与训练、命名实体识别(NER)、模型评估与应用&#xff0c;项目的目标是通过训练一个GRU模型…

crmeb部署

安装宝塔 教程 安装所需要的软件 php mysql5.7 redis fileinfo nginx 安装crmeb 重启mysql 前台http://192.168.216.128/ 后台http://192.168.216.128/admin admin admin888登录 访问前台

GOF 代理模式

1.需求 &#xff08;1&#xff09;&#xff1a;在程序中&#xff0c;对象A和对象B无法直接交互时。 &#xff08;2&#xff09;&#xff1a;在程序中&#xff0c;功能需要增强时。 &#xff08;3&#xff09;&#xff1a;在程序中&#xff0c;目标需要被保护时 代理模式中有一…

使用html和css技巧提升网站加载速度

使用html和css技巧提升网站加载速度 加载时间每增加一秒&#xff08;0-5 秒之间&#xff09;&#xff0c;网站转化率平均就会下降 4.42%。页面加载时间的前五秒对转化率的影响最大。 通过更改html和css文件可以提高网站的页面加载速度,本文现在就来介绍一下怎么实现。 延迟加载…

51单片机--AT24C02数据存储

文章目录 存储器的介绍AT24C02I2C总线I2C时序结构AT24C02数据帧AT24C02数据存储实例 存储器的介绍 存储器是计算机系统中的一种重要设备&#xff0c;用于存储程序和数据&#xff0c;它可以通过电子、磁性介质等技术来记录和保持数据。在这里&#xff0c;主要介绍的是随机存储器…

Java SPI机制:扩展Java应用的灵活性与可插拔性

文章目录 引言1. Java SPI机制简介2. Java SPI的工作原理2.1. 定义服务接口2.2. 编写服务提供者2.3. 创建SPI配置文件2.4. 使用Service Loader加载服务2.5. 客户端代码调用服务 3. 实例演示HelloEnService .javaHelloZhServiceImpl .javaMETA-INF/services/com.gpj.spi.HelloSe…

Blazor前后端框架Known-V1.2.6

V1.2.6 Known是基于C#和Blazor开发的前后端分离快速开发框架&#xff0c;开箱即用&#xff0c;跨平台&#xff0c;一处代码&#xff0c;多处运行。 Gitee&#xff1a; https://gitee.com/known/KnownGithub&#xff1a;https://github.com/known/Known 概述 基于C#和Blazor…

kubesphere安装中间件

kubesphere安装mysql 创建configMap [client] default-character-setutf8mb4[mysql] default-character-setutf8mb4[mysqld] init_connectSET collation_connection utf8mb4_unicode_ci init_connectSET NAMES utf8mb4 character-set-serverutf8mb4 collation-serverutf8mb4_…

Nuxt 菜鸟入门学习笔记一:介绍与安装

文章目录 介绍 Introduction自动化和惯例服务器端渲染服务器引擎生产就绪模块化架构 安装 Installation准备安装 Nuxt官网地址&#xff1a; https://nuxt.com/ 介绍 Introduction Nuxt 是一个免费的开源框架&#xff0c;以直观和可扩展的方式使用 Vue.js 创建类型安全、高性能…

SQL篇-04_SQL进阶挑战-02_ 表与索引操作

SQL118 创建一张新表 描述 现有一张用户信息表&#xff0c;其中包含多年来在平台注册过的用户信息&#xff0c;随着牛客平台的不断壮大&#xff0c;用户量飞速增长&#xff0c;为了高效地为高活跃用户提供服务&#xff0c;现需要将部分用户拆分出一张新表。 原来的用户信息表&…

【指针和数组笔试题(1)】详解指针、数组笔试题

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言整型数组字符数组第一组题第二组题第三组题 总结 前言 在计算之前要了解基本概念&#xff1a; 数组名的理解 数组名是数组首元素的地址 有两个例外 1.sizeof(…

小白到运维工程师自学之路 第五十八集 (zabbix监控数据库)

一、为server.Zabbix.com添加服务模板 二、配置数据库 cd /usr/local/zabbix/etc/ vim zabbix_agentd.conf 添加配置项 UnsafeUserParameters1 //允许所有字符的参数传递给用户定义的参数。 UserParametermysql.version,mysql -V //定义键值mysql.version&a…

Windows11的VTK安装:VS201x+Qt5/Qt6 +VTK7.1/VTK9.2.6

需要提前安装好VS2017和VS2019和Qt VS开发控件以及Qt VS-addin。 注意Qt6.2.4只能跟VTK9.2.6联合编译&#xff08;目前VTK9和Qt6的相互支持版本&#xff09;。 首先下载VTK&#xff0c;需要下载源码和data&#xff1a; Download | VTKhttps://vtk.org/download/ 然后这两个文…