实验手册 - 第8周DataFrame API/Spark SQL

news2024/12/30 3:08:46

目录标题

  • 实验1
    • 实验内容
    • 绘制散点图
    • 将数据保存到MySQL

# import os
# os.getcwd()
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

实验1

实验内容

通过DataFrame API或者Spark SQL对数据源进行修改列类型、查询、排序、去重、分组、过滤等操作。

实验1: 已知SalesOrders\part-00000是csv格式的订单主表数据,它共包含4列,分别表示:订单ID、下单时间、用户ID、订单状态

(1) 以上述文件作为数据源,生成DataFrame,列名依次为:order_id, order_date, cust_id, order_status,列类型依次为:int, timestamp, int, string。然后并查看其前10行数据(列数据不能被截断)和表结构

from pyspark.sql.types import TimestampType
# 生成DataFrame
dfs = spark.read.csv(r"file:\D:\juniortwo\spark\Spark2023-02-20\SalesOrders\part-00000",\
                     header = False,inferSchema = True)
# 修改列名
dfs = dfs.withColumnRenamed('_c0','order_id')\
         .withColumnRenamed('_c1','order_date')\
         .withColumnRenamed('_c2','cust_id')\
         .withColumnRenamed('_c3','order_status')
# 修改列类型
dfs = dfs.withColumn('order_date',dfs['order_date'].cast("timestamp"))
# 查看前10行和表结构
dfs.printSchema()
dfs.show(10,truncate=False)
root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

+--------+-------------------+-------+---------------+
|order_id|order_date         |cust_id|order_status   |
+--------+-------------------+-------+---------------+
|1       |2013-07-25 00:00:00|11599  |CLOSED         |
|2       |2013-07-25 00:00:00|256    |PENDING_PAYMENT|
|3       |2013-07-25 00:00:00|12111  |COMPLETE       |
|4       |2013-07-25 00:00:00|8827   |CLOSED         |
|5       |2013-07-25 00:00:00|11318  |COMPLETE       |
|6       |2013-07-25 00:00:00|7130   |COMPLETE       |
|7       |2013-07-25 00:00:00|4530   |COMPLETE       |
|8       |2013-07-25 00:00:00|2911   |PROCESSING     |
|9       |2013-07-25 00:00:00|5657   |PENDING_PAYMENT|
|10      |2013-07-25 00:00:00|5648   |PENDING_PAYMENT|
+--------+-------------------+-------+---------------+
only showing top 10 rows

(2) 仅显示(1)中DataFrame的order_status列,并对该列去重、降序排序(注意检查结果对不对)

方法一:使用DataFrame API:select(), distinct(), orderBy()

# 去重
dfs2 = dfs.select('order_status').distinct()
# 降序排序
dfs2 = dfs2.orderBy('order_status', ascending = False)
dfs2.show()
+---------------+
|   order_status|
+---------------+
|SUSPECTED_FRAUD|
|     PROCESSING|
|PENDING_PAYMENT|
|        PENDING|
| PAYMENT_REVIEW|
|        ON_HOLD|
|       COMPLETE|
|         CLOSED|
|       CANCELED|
+---------------+

方法二:使用Spark SQL

from pyspark.sql.functions import col
dfs.createOrReplaceTempView('dfs_view')
dfs2_2 = spark.sql("select distinct order_status from dfs_view \
                    order by order_status desc")
# dfs2_2.orderBy(col('order_status').desc()).show()
dfs2_2.show()
+---------------+
|   order_status|
+---------------+
|SUSPECTED_FRAUD|
|     PROCESSING|
|PENDING_PAYMENT|
|        PENDING|
| PAYMENT_REVIEW|
|        ON_HOLD|
|       COMPLETE|
|         CLOSED|
|       CANCELED|
+---------------+

(3) 将(1)中DataFrame的order_id列更改为string类型,然后查看其Schema是否更改成功

方法一:使用DataFrame API:withColumn()

from pyspark.sql.types import StringType
dfs3 = dfs.withColumn('order_id',dfs['order_id'].cast(StringType()))
dfs3.printSchema()
root
 |-- order_id: string (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs3_view")
dfs3_2 = spark.sql("select cast(order_id as string) from dfs3_view")
dfs3_2.printSchema()
root
 |-- order_id: string (nullable = true)

(4) 找出(1)中DataFrame的order_id大于10,小于20的行,并通过show()方法显示

方法一:使用DataFrame API:filter()

dfs4 = dfs.filter("order_id>10").filter("order_id<20")
dfs4.show()
+--------+-------------------+-------+---------------+
|order_id|         order_date|cust_id|   order_status|
+--------+-------------------+-------+---------------+
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|
+--------+-------------------+-------+---------------+

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs4_view")
dfs4_2 = spark.sql("select order_id,order_date,cust_id,order_status from dfs4_view\
                    where order_id>10 and order_id<20")
dfs4_2.show()
+--------+-------------------+-------+---------------+
|order_id|         order_date|cust_id|   order_status|
+--------+-------------------+-------+---------------+
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|
+--------+-------------------+-------+---------------+

(5) 根据(1)中DataFrame, 找出order_status等于COMPLETE或者CLOSED的订单,并分组统计这两种状态的订单数量。通过show()方法显示

方法一:使用DataFrame API:filter(), groupBy()

dfs.filter("order_status in ('COMPLETE','CLOSED')")\
   .groupBy('order_status').count().show()

+------------+-----+
|order_status|count|
+------------+-----+
|    COMPLETE|22899|
|      CLOSED| 7556|
+------------+-----+

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs5_view")
spark.sql("select order_status, count(order_status) as count from dfs5_view \
          where order_status == 'COMPLETE' or order_status == 'CLOSED' \
          group by order_status").show()
   
+------------+-----+
|order_status|count|
+------------+-----+
|    COMPLETE|22899|
|      CLOSED| 7556|
+------------+-----+

(6) 根据(1)中DataFrame, 分别统计2013年和2014年的订单数量

方法一:使用DataFrame API:withColumn(), groupBy(), count()

# dfs.show(1000)
from pyspark.sql.functions import year
dfs.withColumn('order_date',year('order_date'))\
   .groupBy('order_date').count().show()
+----------+-----+
|order_date|count|
+----------+-----+
|      2013|30662|
|      2014|38221|
+----------+-----+
dfs.printSchema()
root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs6_view")
spark.sql("select year(order_date) as order_date, count(year(order_date)) \
            as count from dfs6_view\
           group by year(order_date)").show()
+----------+-----+
|order_date|count|
+----------+-----+
|      2013|30662|
|      2014|38221|
+----------+-----+

(7) 根据(1)中DataFrame, 找出下单次数最多的前10个客户ID

方法一:使用DataFrame API

from pyspark.sql.functions import col
dfs.withColumn('cust_id',col('cust_id'))\
   .groupBy('cust_id').count()\
   .orderBy('count',ascending = False).show(10)
+-------+-----+
|cust_id|count|
+-------+-----+
|    569|   16|
|  12431|   16|
|   5897|   16|
|   6316|   16|
|  12284|   15|
|   5654|   15|
|   5283|   15|
|    221|   15|
|   4320|   15|
|   5624|   15|
+-------+-----+
only showing top 10 rows

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs7_view")
spark.sql("select cust_id,count(cust_id) as count from dfs7_view \
           group by cust_id order by count desc").show(10)
+-------+-----+
|cust_id|count|
+-------+-----+
|    569|   16|
|  12431|   16|
|   5897|   16|
|   6316|   16|
|  12284|   15|
|   5654|   15|
|   5283|   15|
|   4320|   15|
|    221|   15|
|   5624|   15|
+-------+-----+
only showing top 10 rows

(8) 根据(1)中DataFrame的order_date列,创建一个新列,该列数据是order_date距离今天的天数

方法一:使用DataFrame API

from pyspark.sql.functions import current_date,datediff
dfs.withColumn('days',datediff(col('order_date'),current_date())).show()
+--------+-------------------+-------+---------------+-----+
|order_id|         order_date|cust_id|   order_status| days|
+--------+-------------------+-------+---------------+-----+
|       1|2013-07-25 00:00:00|  11599|         CLOSED|-3542|
|       2|2013-07-25 00:00:00|    256|PENDING_PAYMENT|-3542|
|       3|2013-07-25 00:00:00|  12111|       COMPLETE|-3542|
|       4|2013-07-25 00:00:00|   8827|         CLOSED|-3542|
|       5|2013-07-25 00:00:00|  11318|       COMPLETE|-3542|
|       6|2013-07-25 00:00:00|   7130|       COMPLETE|-3542|
|       7|2013-07-25 00:00:00|   4530|       COMPLETE|-3542|
|       8|2013-07-25 00:00:00|   2911|     PROCESSING|-3542|
|       9|2013-07-25 00:00:00|   5657|PENDING_PAYMENT|-3542|
|      10|2013-07-25 00:00:00|   5648|PENDING_PAYMENT|-3542|
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|-3542|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|-3542|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|-3542|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|-3542|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|-3542|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|-3542|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|-3542|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|-3542|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|-3542|
|      20|2013-07-25 00:00:00|   9198|     PROCESSING|-3542|
+--------+-------------------+-------+---------------+-----+
only showing top 20 rows

方法二:使用Spark SQL

dfs.createOrReplaceTempView("dfs8_view")
spark.sql("select order_id,order_date,cust_id,order_status,datediff(order_date,\
            current_date) as days from dfs8_view").show()
+--------+-------------------+-------+---------------+-----+
|order_id|         order_date|cust_id|   order_status| days|
+--------+-------------------+-------+---------------+-----+
|       1|2013-07-25 00:00:00|  11599|         CLOSED|-3542|
|       2|2013-07-25 00:00:00|    256|PENDING_PAYMENT|-3542|
|       3|2013-07-25 00:00:00|  12111|       COMPLETE|-3542|
|       4|2013-07-25 00:00:00|   8827|         CLOSED|-3542|
|       5|2013-07-25 00:00:00|  11318|       COMPLETE|-3542|
|       6|2013-07-25 00:00:00|   7130|       COMPLETE|-3542|
|       7|2013-07-25 00:00:00|   4530|       COMPLETE|-3542|
|       8|2013-07-25 00:00:00|   2911|     PROCESSING|-3542|
|       9|2013-07-25 00:00:00|   5657|PENDING_PAYMENT|-3542|
|      10|2013-07-25 00:00:00|   5648|PENDING_PAYMENT|-3542|
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|-3542|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|-3542|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|-3542|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|-3542|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|-3542|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|-3542|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|-3542|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|-3542|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|-3542|
|      20|2013-07-25 00:00:00|   9198|     PROCESSING|-3542|
+--------+-------------------+-------+---------------+-----+
only showing top 20 rows
# dfs.show()

绘制散点图

(9) 根据(1)中DataFrame, 利用散点图显示各个订单状态(order_status)的订单个数

# 统计各个状态的个数
dfs9 = dfs.withColumn('order_status',col('order_status'))\
          .groupBy('order_status').count()
# 将Spark DataFrame转变到Pandas DataFrame
pandasDF = dfs9.toPandas()     
pandasDF
order_statuscount
0PENDING_PAYMENT15030
1COMPLETE22899
2ON_HOLD3798
3PAYMENT_REVIEW729
4PROCESSING8275
5CLOSED7556
6SUSPECTED_FRAUD1558
7PENDING7610
8CANCELED1428
# 绘制散点图
import pandas as pd
import matplotlib.pyplot as plt
# pandasDF.plot(x = 'order_status', y = 'count') #折线图
plt.scatter(x = pandasDF['order_status'], y = pandasDF['count'], c = 'red')
# plt.xticks(x = pandasDF['order_status'], rotation='vertical') # vertical垂直
plt.xticks(x = pandasDF['order_status'], rotation=60) #旋转60度
plt.show()

在这里插入图片描述

import os
os.getcwd()
'D:\\juniortwo\\spark'

将数据保存到MySQL

(10) 将(1)中DataFrame数据保存到MySQL中

本实验,需要把本地Hadoop安装目录中etc/hadoop/core-site.xml中的添加的代码注释掉,否则就会在读取文件的相对路径前面添加hdfs的路径。如果需要提交到yarn时,再把这里的注释去掉。
在这里插入图片描述
这里注释掉之后,保存或者读取文件时可以使用相对路径,否则都需要使用绝对路径,不然就会报错,或者jupyter notebook长时间没有反应。

# 导包
import pandas as pd
import findspark
findspark.init()
from pyspark.sql import SparkSession

# 重启内核后再执行
spark = SparkSession \
    .builder \
    .config("spark.driver.extraClassPath", "mysql-connector-java-8.0.27.jar") \
    .getOrCreate()
#这里采用的绝对路径,相对路径容易出错
dfs = spark.read.csv(r"file:\D:\juniortwo\spark\Spark2023-02-20\SalesOrders\part-00000",\
                      header = False,inferSchema = True)
#把已有数据列改成和目标mysql表的列的名字相同
# 将Spark DataFrame转变到Pandas DataFrame
df_1 = dfs.toDF("order_id","order_date","cust_id","order_status")
print(df_1.show())
+--------+--------------------+-------+---------------+
|order_id|          order_date|cust_id|   order_status|
+--------+--------------------+-------+---------------+
|       1|2013-07-25 00:00:...|  11599|         CLOSED|
|       2|2013-07-25 00:00:...|    256|PENDING_PAYMENT|
|       3|2013-07-25 00:00:...|  12111|       COMPLETE|
|       4|2013-07-25 00:00:...|   8827|         CLOSED|
|       5|2013-07-25 00:00:...|  11318|       COMPLETE|
|       6|2013-07-25 00:00:...|   7130|       COMPLETE|
|       7|2013-07-25 00:00:...|   4530|       COMPLETE|
|       8|2013-07-25 00:00:...|   2911|     PROCESSING|
|       9|2013-07-25 00:00:...|   5657|PENDING_PAYMENT|
|      10|2013-07-25 00:00:...|   5648|PENDING_PAYMENT|
|      11|2013-07-25 00:00:...|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:...|   1837|         CLOSED|
|      13|2013-07-25 00:00:...|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:...|   9842|     PROCESSING|
|      15|2013-07-25 00:00:...|   2568|       COMPLETE|
|      16|2013-07-25 00:00:...|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:...|   2667|       COMPLETE|
|      18|2013-07-25 00:00:...|   1205|         CLOSED|
|      19|2013-07-25 00:00:...|   9488|PENDING_PAYMENT|
|      20|2013-07-25 00:00:...|   9198|     PROCESSING|
+--------+--------------------+-------+---------------+
only showing top 20 rows

None
spark = SparkSession \
    .builder \
    .config("spark.driver.extraClassPath", "mysql-connector-java-8.0.27.jar") \
    .getOrCreate()

df_1.write.format("jdbc").options(
    url="jdbc:mysql://127.0.0.1:3306/dftest",
    driver="com.mysql.cj.jdbc.Driver",
    dbtable="sale_order",
    user="root",
    password="123456").mode('overwrite').save()

(11) 将(1)中DataFrame数据根据order_status列值的不同进行划分,并保存为parquet格式

dfs.write.parquet(r"file:\D:\juniortwo\spark\parquet_result01.parquet",\
                  partitionBy="order_status", mode="overwrite")

(12) 根据(11)的输出,读取order_status=CANCELED文件夹中的parquet文件内容并显示

dfs12 = spark.read.parquet(r"file:\D:\juniortwo\spark\parquet_result01.parquet")
dfs12.printSchema()
root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)
dfs12.filter("order_status='CANCELED'").show()
+--------+-------------------+-------+------------+
|order_id|         order_date|cust_id|order_status|
+--------+-------------------+-------+------------+
|      50|2013-07-25 00:00:00|   5225|    CANCELED|
|     112|2013-07-26 00:00:00|   5375|    CANCELED|
|     527|2013-07-28 00:00:00|   5426|    CANCELED|
|     552|2013-07-28 00:00:00|   1445|    CANCELED|
|     564|2013-07-28 00:00:00|   2216|    CANCELED|
|     607|2013-07-28 00:00:00|   6376|    CANCELED|
|     649|2013-07-28 00:00:00|   7261|    CANCELED|
|     667|2013-07-28 00:00:00|   4726|    CANCELED|
|     716|2013-07-29 00:00:00|   2581|    CANCELED|
|     717|2013-07-29 00:00:00|   8208|    CANCELED|
|     738|2013-07-29 00:00:00|  10042|    CANCELED|
|     753|2013-07-29 00:00:00|   5094|    CANCELED|
|     929|2013-07-30 00:00:00|   8482|    CANCELED|
|     955|2013-07-30 00:00:00|   8117|    CANCELED|
|     962|2013-07-30 00:00:00|   9492|    CANCELED|
|    1013|2013-07-30 00:00:00|   1903|    CANCELED|
|    1169|2013-07-31 00:00:00|   3971|    CANCELED|
|    1186|2013-07-31 00:00:00|  11947|    CANCELED|
|    1190|2013-07-31 00:00:00|  12360|    CANCELED|
|    1313|2013-08-01 00:00:00|   3471|    CANCELED|
+--------+-------------------+-------+------------+
only showing top 20 rows

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/425266.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

malloc hook进行内存泄漏检测

记录下使用malloc的hook形式&#xff0c;写个小的demo&#xff0c;并记录遇到的问题 1. 实现代码&#xff1a; CMakeLists.txt和相应的memory_leak.cpp文件 cmake_minimum_required(VERSION 3.14) project(demo)set(_SRCmemory_leak.cpp)add_library(memory_leak SHARED ${_S…

不要轻视Facebook Messenger的客户服务

大多数现代品牌都意识到&#xff0c;在客户最活跃的数字渠道中保持活跃至关重要。如今全球有超过 2亿人使用社交消息应用程序与他人在线联系。特别是Facebook Messenger&#xff0c;每月有1亿用户 -占世界人口的3%&#xff01; 有这么多人使用Facebook Messenger&#xff0c;通…

UE5.1.1创建C++工程失败解决办法

闲来无事&#xff0c;更新了一下UE5.1.1&#xff0c;妈蛋创建C项目居然失败&#xff0c; 错误截图如下&#xff1a; 妈蛋&#xff0c;后面一堆乱码&#xff0c;鬼知道是啥错误&#xff01; 咋解决&#xff1f;步步高打火机&#xff0c;直接复制第一段的Running后面的代码到cmd…

仿真创新大赛—国三省一 智能鱼缸(proteus)(stm32)

⏩ 大家好哇&#xff01;我是小光&#xff0c;嵌入式爱好者&#xff0c;一个想要成为系统架构师的大三学生。 ⏩去年下半年参加了全国仿真创新大赛&#xff0c;也是取得了国赛三等奖&#xff0c;省赛一等奖的好成绩。 ⏩本篇文章对我们的参赛作品《智能鱼缸》做一个简介。 ⏩感…

UE4/5多人游戏详解(加入游戏会话,数值key和value,寻找IP地址)

目录 加入游戏会话 找到会话 加入会话 代码&#xff1a; 设置会话key和value 代码&#xff1a; 在寻找会话中添加匹配&#xff1a; 代码&#xff1a; 寻找IP地址&#xff1a; 代码&#xff1a; 回调函数onJoinSessionComplete实现&#xff1a; 代码&#xff1a; 测试…

分立机器基站接入核心网并调试可用解决之路

问题描述 在两台机器上&#xff0c;分别为服务器A与主机B&#xff0c;其中服务器A上部署OAI核心网&#xff0c;主机B上部署容器版ueransim。两机器用一根网线连接。两台机器的连接如此&#xff1a;但是ueransim无法接入核心网。 解决思路1——机器网卡设置到192.168.70.0网段…

常用AI网站精简版

1.ChatGPT:ChatGPThttps://chat.openai.com/ 2.Discord社区:(AI绘图midjourney)Discord | Midjourney AI生图https://discord.com/channels/@me3.文心一言:

套利策略样本外跟踪

量化策略开发&#xff0c;高质量社群&#xff0c;交易思路分享等相关内容 『正文』 ˇ 专享策略No.2 | 商品股指通用套利策略(一) 日线版本&#xff1a; 15分钟版本&#xff1a; 专享02模型开发步骤&#xff1a; 1.计算套利品种价比的高开低收&#xff0c;不是价差。 2.计…

231:vue+openlayers绘制点、点击此点弹出坐标复制和取消功能

第231个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers项目绘制点、点击此点弹出坐标复制和取消功能,这里面的复制功能采用了ue-clipboard2插件。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果 示例效果 配置方式 1)查看基础设置:ht…

【数据挖掘与商务智能决策】第八章 K近邻算法

第八章 K近邻算法 1.K近邻算法简单代码演示 import pandas as pd df pd.read_excel(葡萄酒.xlsx) df原始样本酒精含量(%)苹果酸含量(%)分类0样本15201样本26102样本34103样本48314样本51021 # 特征变量和目标变量的切分 X_train df[[酒精含量(%),苹果酸含量(%)]] y_train …

安灯电子看板实时反馈产线上的生产状态

安灯电子看板是一种用于显示生产线运行情况的电子显示设备。它可以实时显示生产线的运行状态、异常信息以及工人的呼叫请求等信息&#xff0c;以便管理人员及时采取措施&#xff0c;保证生产线的正常运行。 安灯电子看板可以实现对生产线上各个环节的实时监控&#xff0c;并能够…

AutoGPT使用

windows和mac都可以使用 1&#xff0c;安装python 10 https://www.tutorialspoint.com/how-to-install-python-in-windows 2&#xff0c;下载AutoGPT代码 通过git克隆AutoGPT项目&#xff0c;git clone https://github.com/Torantulino/Auto-GPT.git如果没有安装git的同学就…

SalesForce-第一篇-概述

1. 直接一点&#xff0c;一上来就上图吧&#xff0c;这个是系统的前端页面&#xff0c;分为三个部分&#xff1a; 顶部的菜单栏&#xff0c;左下部的详细信息栏&#xff0c;以及右部相关信息栏位&#xff1b; 略微详细的为&#xff1a; a. 用户信息部分&#xff1b; b. 应用…

UDP套接字编程

文章目录一、IP地址和端口号二、网络字节序三、socket编程接口1.socket常见API2.sockaddr结构四、UDP套接字1.简单认识UDP协议2.利用UDP套接字实现网络版本大小写转换(1)服务端(2)客户端一、IP地址和端口号 IP协议目前有两个版本&#xff0c;分别是IPV4和IPV6&#xff0c;IP地…

【已解决】加载模型时报错:model_config = json.loads(model_config.decode(‘utf-8‘))

Author&#xff1a;AXYZdong 硕士在读 工科男 有一点思考&#xff0c;有一点想法&#xff0c;有一点理性&#xff01; 定个小小目标&#xff0c;努力成为习惯&#xff01;在最美的年华遇见更好的自己&#xff01; CSDNAXYZdong&#xff0c;CSDN首发&#xff0c;AXYZdong原创 唯…

科普 | 带你了解设备振动监测常见术语

一、前言 状态监测是工厂预测维修和主动维修的基础&#xff0c;是企业优化资源&#xff0c;提升生产运营水平和市场竞争力的前提。成功开展状态监测将保证工厂设备长周期、满负荷、安全可靠地运行&#xff0c;避免非计划停机造成的损失&#xff0c;降低维修成本和生产成本。 …

如何高效的完成域名实名认证

根据注册局和工信部要求&#xff0c;需上传实名资料的域名有&#xff1a;.cn/.com/.net/.top/.xyz/.vip/.club/.ren/.wang/.shop/.xin/.中国/.信息等&#xff0c;相关要求请查看http://www.west.cn/faq/list.asp?unid1348。 如果您帐号下的域名较少&#xff0c;可以在域名管理…

【Dom获取属性操作】JavaScript 全栈体系(九)

Web APIs 第一章 Web API 基本认知 一、变量声明 变量声明有三个 var let 和 const建议&#xff1a; const 优先&#xff0c;尽量使用const&#xff0c;原因是&#xff1a; const 语义化更好很多变量我们声明的时候就知道他不会被更改了&#xff0c;那为什么不用 const呢&am…

数据结构_第十关:二叉树的顺序结构——堆

目录 1. 二叉树的顺序结构 2.堆的概念及结构 3.堆的实现 3.1堆向下调整算法 3.2堆的创建 3.3堆的插入 3.4建堆的复杂度 3.5堆的删除 4.堆的代码实现 4.1堆的定义 4.2堆的函数实现 1&#xff09;堆的初始化 2&#xff09;堆的销毁 3&#xff09;堆的插入 4&#xf…

【0基础敲代码】如何使用使用SeaFile搭建私有云盘并公网访问

目录 1. 前言 2. SeaFile云盘设置 2.1 Owncould的安装环境设置 2.2 SeaFile下载安装 2.3 SeaFile的配置 3. cpolar内网穿透 3.1 Cpolar下载安装 3.2 Cpolar的注册 3.3 Cpolar云端设置 3.4 Cpolar本地设置 4. 公网访问测试 5. 结语 1. 前言 现在我们身边的只能设备…