Windows环境下开发pyspark程序

news2025/4/9 10:03:21

Windows环境下开发pyspark程序

一、环境准备

1.1. Anaconda/Miniconda(Python环境)

如果不怕包的版本管理混乱,可以直接使用已有的Python环境。

需要安装anaconda/miniconda(python3.8版本以上):Anaconda下载安装及老版本选择(超详细)
使用conda新建一个虚拟环境用于PySpark开发:Python虚拟环境(windows)

首先,我们新建一个 pyspark_env 文件夹,作为虚拟环境的存放路径(也可以不用,conda创建虚拟环境时检测到没有会自动新建):
在这里插入图片描述
创建环境并指定路径:

conda create -p E:\penv\pyspark_env python=3.9

在这里插入图片描述
创建完成:
在这里插入图片描述
激活环境:

conda activate E:\penv\pyspark_env

在这里插入图片描述
安装pyspark:

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/

在这里插入图片描述
安装psutil

pip install psutil

在这里插入图片描述

1.2. JDK

请注意,PySpark需要Java 8(不包括8u371之前版本)、11或17,并且JAVA_HOME需要正确设置。设置JAVA安装路径的时候不要有空格,否则会报错。
在这里插入图片描述
参考这篇文章:JDK8卸载与安装教程(超详细)

1.3. 安装hadoop

(1)下载
进入hadoop安装包下载地址,这里选择的是hadoop-3.3.6.tar.gz版本:
在这里插入图片描述
(2)解压
对下载好的文件进行解压,将其解压放在个人想存放的目录中(记住路径,以便配置环境变量)。
在这里插入图片描述
在这里插入图片描述
解压成功:
在这里插入图片描述
(3)配置环境变量

HADOOP_HOME

在这里插入图片描述

%HADOOP_HOME%\bin

在这里插入图片描述
此时bin目录( E:\hadoop-3.3.6\bin)下没有 hadoop.dll及winutils.exe文件:
在这里插入图片描述

  • 需要进行下载winutils :https://soft.3dmgame.com/down/204154.html
    在这里插入图片描述

  • 解压文件,选择hadoop版本对应的文件夹bin目录下的hadoop.dll和winutils.exe文件
    在这里插入图片描述

  • 将hadoop.dll和winutils.exe 拷贝到E:\hadoop-3.3.6\bin 、C:\Windows\System32下(两个文件各拷贝一份到两个目录中)
    在这里插入图片描述
    在这里插入图片描述
    (4)环境测试

二、新建一个Python项目

2.1. 创建项目并配置解释器

新建一个项目,项目名为pyspark
在这里插入图片描述
添加新的解释器(找到虚拟环境中的python.exe):
在这里插入图片描述
在这里插入图片描述
创建项目:
在这里插入图片描述

2.2. 创建目录文件

main :用于存放每天开发的一些代码文件
resources :用于存放程序中需要用到的配置文件
datas :用于存放每天用到的一些数据文件
test :用于存放测试时的一些代码文件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3. 环境测试

import os
from pyspark import SparkContext, SparkConf  # 导入pyspark模块

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe' 
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    # 获取 conf 对象
    # setMaster  按照什么模式运行,local  bigdata01:7077  yarn
    #  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
    #  appName 任务的名字
    conf = SparkConf().setMaster("local[*]").setAppName("第一个Spark程序")
    # 假如我想设置压缩
    # conf.set("spark.eventLog.compression.codec","snappy")
    # 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
    sc = SparkContext(conf=conf)
    print(sc)

    # 使用完后,记得关闭
    sc.stop()

输出结果:
在这里插入图片描述

三、WordCount案例

3.1 数据准备

这里我使用文心一言生成了一份数据,用来测试WordCount
数据如下所示:

Hello World! This is a simple WordCount example. The WordCount program is used to count the frequency of words in a given text.

Let's analyze this example: "Hello World!" Hello again, World! Notice how the word 'Hello' appears multiple times, as does 'World'.

The program should ignore case sensitivity, meaning 'Hello' and 'hello' should be treated as the same word. Additionally, punctuation marks like commas, periods, and exclamation points should not affect the word count.

In summary, a WordCount program takes text as input and outputs a list of words along with their corresponding frequencies. For instance, the word 'Hello' might appear 3 times, while 'World' appears 2 times in this example.

数据特点

  • 重复单词:Hello 和 World 多次出现。
  • 标点符号:包含逗号、句号和感叹号等标点符号。
  • 大小写混合:Hello 和 hello 应被视为同一个单词。
  • 自然语言结构:包含简单句子和段落,模拟真实文本。

3.2 代码实现

代码实现如下所示:

import os
import re
from pyspark import SparkContext, SparkConf  # 导入pyspark模块

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    # 获取 conf 对象
    # setMaster  按照什么模式运行,local  bigdata01:7077  yarn
    #  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
    #  appName 任务的名字
    conf = SparkConf().setMaster("local[*]").setAppName("WordCount")
    # 假如我想设置压缩
    # conf.set("spark.eventLog.compression.codec","snappy")
    # 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
    sc = SparkContext(conf=conf)
    fileRdd = sc.textFile("../datas/wordcount/word.txt")  # 读取数据
    rsRdd = fileRdd \
        .filter(lambda line: len(line.strip()) > 0) \
        .flatMap(lambda line: line.strip().split(r" ")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    rsRdd.saveAsTextFile("../output")

    # 使用完后,记得关闭
    sc.stop()

输出结果:
在这里插入图片描述
代码解析:

  • filter(lambda line: len(line.strip()) > 0):过滤掉空行;
    在这里插入图片描述
  • flatMap(lambda line:line.strip().split(r"")):将每一行多个单词转换为一行一个单词,r 的作用是告诉 Python 将字符串按原始字符串处理,避免转义字符的干扰。
    在这里插入图片描述
  • .map(lambda word: (word, 1)):将每个单词转换成KeyValue的二元组(word,1)
    在这里插入图片描述
  • reduceByKey(lambda a, b: a + b):先根据key值进行分组,然后再进行聚合。
    在这里插入图片描述

3.3 代码改进

虽然代码实现出来了简单的WordCount,但是没有达到我们想要的预期,主要有以下几点需要改进:

  • 单词前后的符号无法处理,导致一个单词分成了不同的组。
    在这里插入图片描述
  • 对单词的大小写不敏感,如:Hello和hello应视为一个词。
    在这里插入图片描述
3.3.1 解决标点符号

对于标点符号,我们可以使用正则表达式进行处理。
下面是正则表达式的一个测试用例:

import re

text = "你好,世界!这是一个测试文本。"
# 使用正则表达式去除标点符号
result = re.sub(r'[^\w\s]', '', text)
print(result)  # 输出:你好世界这是一个测试文本

其中:

  • [^\w\s] 匹配所有非字母、数字和空格的字符(即标点符号)。
  • re.sub() 将匹配的字符替换为空字符串。
3.3.2 解决大小写字母

对单词的大小写不敏感,我们可以采取以下措施。

  • 全部字母大写或者小写:使用upper()或者lower()函数。
text = "Hello World"
upper_text = text.upper()
lower_text = text.lower()
print(upper_text)  # HELLO WORLD
print(lower_text)  # hello world
  • 首字母大写,其余字母小写:
  1. 使用 capitalize() 方法 capitalize() 方法会将字符串的第一个字符转换为大写,其余字符转换为小写。
text = "hello world"
capitalized_text = text.capitalize()
print(capitalized_text)  # 输出: Hello world
  1. 使用 title() 方法 如果你希望字符串中每个单词的首字母都大写,可以使用 title() 方法。
text = "hello world"
title_text = text.title()
print(title_text)  # 输出: Hello World
3.3.3 代码实现

这里我们采用正则表达式对标点符号进行处理,使用title()方法处理字母大小写。那么,改进后的代码如下:

import os
import re
from pyspark import SparkContext, SparkConf  # 导入pyspark模块

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    # 获取 conf 对象
    # setMaster  按照什么模式运行,local  bigdata01:7077  yarn
    #  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
    #  appName 任务的名字
    conf = SparkConf().setMaster("local[*]").setAppName("WordCount")
    # 假如我想设置压缩
    # conf.set("spark.eventLog.compression.codec","snappy")
    # 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
    sc = SparkContext(conf=conf)
    fileRdd = sc.textFile("../datas/wordcount/word.txt")  # 读取数据
    rsRdd = fileRdd \
        .filter(lambda line: len(line.strip()) > 0) \
        .flatMap(lambda line: re.sub(r'[^\w\s]', '', line.strip()).split()) \
        .map(lambda word: (word.title(), 1)) \
        .reduceByKey(lambda a, b: a + b)

    rsRdd.saveAsTextFile("../output3")

    # 使用完后,记得关闭
    sc.stop()

输出结果为:

('Hello', 7)
('World', 5)
('Wordcount', 3)
('Example', 3)
('The', 7)
('Program', 3)
('Count', 2)
('Of', 2)
('Words', 2)
('Lets', 1)
('Analyze', 1)
('Again', 1)
('Appears', 2)
('Should', 3)
('Ignore', 1)
('Sensitivity', 1)
('And', 3)
('Same', 1)
('Punctuation', 1)
('Marks', 1)
('Periods', 1)
('Not', 1)
('Affect', 1)
('Summary', 1)
('Takes', 1)
('Input', 1)
('Outputs', 1)
('List', 1)
('Corresponding', 1)
('Instance', 1)
('Might', 1)
('This', 3)
('Is', 2)
('A', 4)
('Simple', 1)
('Used', 1)
('To', 1)
('Frequency', 1)
('In', 3)
('Given', 1)
('Text', 2)
('Notice', 1)
('How', 1)
('Word', 4)
('Multiple', 1)
('Times', 3)
('As', 3)
('Does', 1)
('Case', 1)
('Meaning', 1)
('Be', 1)
('Treated', 1)
('Additionally', 1)
('Like', 1)
('Commas', 1)
('Exclamation', 1)
('Points', 1)
('Along', 1)
('With', 1)
('Their', 1)
('Frequencies', 1)
('For', 1)
('Appear', 1)
('3', 1)
('While', 1)
('2', 1)

四、数据去重案例

4.1 数据准备

这里提供了csv版本的数据:

ID ,  Name    ,  Email                 ,  Phone        ,  Address
1  ,  Alice   ,  alice@example.com     ,  123-456-7890 ,  123 Main St
2  ,  Bob     ,  bob@example.com       ,  234-567-8901 ,  456 Elm St
3  ,  Alice   ,  alice@example.com     ,  123-456-7890 ,  123 Main St
4  ,  Charlie ,  charlie@example.com   ,  345-678-9012 ,  789 Oak St
5  ,  David   ,  david@example.com     ,  456-789-0123 ,  101 Pine St
6  ,  Alice   ,  alice.new@example.com ,  123-456-7890 ,  123 Main St (new addr)
7  ,  Bob     ,  bob@example.com       ,  234-567-8901 ,  456 Elm St (alt addr)
8  ,  Eve     ,  eve@example.com       ,  567-890-1234 ,  202 Maple St
9  ,  Charlie ,  charlie@example.com   ,  345-678-9012 ,  789 Oak St

4.2 去重规则

  1. 完全匹配去重:如果两行数据的所有字段都相同,则认为是重复项,保留其中一行。
  2. 部分匹配去重(可选):如果某些字段(如 Name 和 Email)相同,但其他字段(如 Phone 和 Address)不同,可以根据业务需求决定是否视为重复项。

在此示例中,我们仅考虑完全匹配去重。

4.3 代码实现

方法一:使用PySpark中dataframe进行实现:

import os
from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'

    # 创建SparkSession
    spark = SparkSession.builder \
        .appName("Data Deduplication") \
        .getOrCreate()

    # 读取CSV文件
    csv_file_path = "../datas/data deduplication/data.csv"
    # header=True表示第一行作为列名,inferSchema=True尝试自动推断数据类型。
    df = spark.read.csv(csv_file_path, header=True, inferSchema=True)    

    # 显示原始数据
    print("原始数据:")
    df.show()

    # 获取所有列名并排除ID字段
    columns_to_check = df.columns[1:]

    # 去除重复行(忽略ID字段)
    # 使用dropDuplicates()函数基于columns_to_check列表中的列名去除重复行。这意味着如果两行在这些列上的值完全相同,则只保留一行。
    df_no_duplicates = df.dropDuplicates(subset=columns_to_check)

    # 显示去重后的数据
    print("去重后的数据:")
    df_no_duplicates.show()

    # 如果需要保存去重后的数据到新的CSV文件
    output_csv_file_path = "../datas/data deduplication/deduplicated_data.csv"
    df_no_duplicates.write.csv(output_csv_file_path, header=True, mode="overwrite")

    # 停止SparkSession
    spark.stop()

输出结果为:
在这里插入图片描述
在这里插入图片描述
方法二:使用PySaprk中的SQL进行实现。

import os
from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'

    # 创建SparkSession
    spark = SparkSession.builder \
        .appName("Data Deduplication") \
        .getOrCreate()

    # 读取CSV文件
    csv_file_path = "../datas/data deduplication/data.csv"
    # header=True表示第一行作为列名,inferSchema=True尝试自动推断数据类型。
    df = spark.read.csv(csv_file_path, header=True, inferSchema=True)

    # 获取所有列名并排除ID字段
    columns_to_check = df.columns[1:]

    # 创建一个不包含ID字段的DataFrame
    df = df.select(columns_to_check)

    # 创建一个临时视图
    df.createOrReplaceTempView("my_table")

    spark.sql("select DISTINCT * from my_table").show()

    # 停止SparkSession
    spark.stop()

输出结果:
在这里插入图片描述
但是这个没有对应的ID列。
方法三

import os
from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk-1.8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/hadoop-3.3.6'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'E:/penv/pyspark_env/python.exe'
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'E:/penv/pyspark_env/python.exe'

    # 创建SparkSession
    spark = SparkSession.builder \
        .appName("Data Deduplication") \
        .getOrCreate()

    # 读取CSV文件
    csv_file_path = "../datas/data deduplication/data.csv"
    # header=True表示第一行作为列名,inferSchema=True尝试自动推断数据类型。
    df = spark.read.csv(csv_file_path, header=True, inferSchema=True)

    # 创建一个临时视图
    df.createOrReplaceTempView("tt")

    spark.sql("""
        SELECT * FROM tt
        WHERE ID  IN (select min(ID) from tt group by Name,Email,Phone,Address)
    """).show()

    # 停止SparkSession
    spark.stop()

输出结果:
在这里插入图片描述

问题

1. 测试hadoop出现错误

在这里插入图片描述
原因分析:这时候,多半是因为你的java环境变量路径含有空格。
解决方法
(1)找到hadoop\etc\hadoop这个目录下的hadoop-env.cmd这个命令脚本。
在这里插入图片描述
然后,右键,编辑/notpad ++ ,进入编辑页面:
在这里插入图片描述
修改JAVA_HOME,我的JAVA的安装路径为:C:\Program Files\Java\jdk-1.8
在这里插入图片描述
添加引号:
在这里插入图片描述
查看hadoop版本:
在这里插入图片描述

2. Please install psutil

运行代码,出现下面的情况:

E:\penv\pyspark_env\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling
E:\penv\pyspark_env\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling
E:\penv\pyspark_env\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling
E:\penv\pyspark_env\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling

进程已结束,退出代码0

在这里插入图片描述
解决方案,安装这个包:

pip install psutil

参考

  1. Hadoop高手之路4-HDFS
  2. Anaconda下载安装及老版本选择(超详细)
  3. Python虚拟环境(windows)
  4. JDK8卸载与安装教程(超详细)
  5. Windows环境本地配置pyspark环境详细教程
  6. win10下执行Hadoop命令报错:系统找不到指定的路径。Error: JAVA_HOME is incorrectly set. Please update D:
  7. sparkRDD编程实战

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SSM婚纱摄影网的设计

🍅点赞收藏关注 → 添加文档最下方联系方式咨询本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅 项目视频 SS…

1110+款专业网站应用程序UI界面设计矢量图标figma格式素材 Icon System | 1,100+ Icons Easily Customize

1110款专业网站应用程序UI界面设计矢量图标figma格式素材 Icon System | 1,100 Icons Easily Customize 产品特点 — 24 x 24 px 网格大小 — 2px 线条描边 — 所有形状都是基于矢量的 — 平滑和圆角 — 易于更改颜色 类别 🚨 警报和反馈 ⬆️ 箭头 &…

Llama 4 家族:原生多模态 AI 创新的新时代开启

0 要点总结 Meta发布 Llama 4 系列的首批模型,帮用户打造更个性化多模态体验Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型,同类中全球最强多模态模型,性能超越以往所有 Llama 系列模型,能在一张 NVIDIA H100 GPU 上运…

正则表达式(Regular Expression,简称 Regex)

一、5w2h(七问法)分析正则表达式 是的,5W2H 完全可以应用于研究 正则表达式(Regular Expressions)。通过回答 5W2H 的七个问题,我们可以全面理解正则表达式的定义、用途、使用方法、适用场景等&#xff0c…

JMeter脚本录制(火狐)

录制前准备: 电脑: 1、将JMeter证书导入,(bin目录下有一个证书,需要安装这个证书到电脑中) 2、按winr,输入certmgr.msc,打开证书,点击下一步,输入JMeter证书…

基于SpringBoot的“高校社团管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“高校社团管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 总体功能结构图 局部E-R图 系统首页页面 用户…

C# Winform 入门(3)之尺寸同比例缩放

放大前 放大后 1.定义当前窗体的宽度和高度 private float x;//定义当前窗体的宽度private float y;//定义当前窗台的高度 2.接收当前窗体的尺寸大小 x this.Width;//存储原始宽度ythis.Height;//存储原始高度setTag(this);//为控件设置 Tag 属性 3.声明方法,获…

infinityfree最新免费建站详细教程_无需备案_5G空间_无限流量_免费域名_免费SSL

一、明确目标—是否要使用 1.为什么选择InfinityFree? 对于初学者、学生或只是想尝试网站搭建的个人用户来说,InfinityFree提供了一个绝佳的免费解决方案。这个国外免费的虚拟主机服务提供: 5GB存储空间 - 足以存放个人博客、作品集或小型…

打造高效英文单词记忆系统:基于Python的实现与分析

在当今全球化的世界中,掌握一门外语已成为必不可少的技能。对于许多学习者来说,记忆大量的英文单词是一个漫长而艰难的过程。为了提高学习效率,我们开发了一个基于Python的英文单词记忆系统。这个系统结合了数据管理、复习计划、学习统计和测试练习等多个模块,旨在为用户提…

node_modules\deasync: Command failed.

运行:“yarn install” 时报错 PS D:\WebPro\hainan-mini-program> yarn install yarn install v1.22.19 [1/4] Resolving packages... [2/4] Fetching packages... [3/4] Linking dependencies... warning " > babel-loader8.2.2" has un…

游戏引擎学习第206天

回顾并为当天的工作定下目标 接着回顾了前一天的进展。之前我们做了一些调试功能,并且已经完成了一些基础的工作,但是还有一些功能需要继续完善。其中一个目标是能够展示实体数据,以便在开发游戏逻辑系统时,可以清晰地查看和检查…

Zapier MCP:重塑跨应用自动化协作的技术实践

引言:数字化协作的痛点与突破 在当今多工具协同的工作环境中,开发者与办公人员常常面临数据孤岛、重复操作等效率瓶颈。Zapier推出的MCP(Model Context Protocol)协议通过标准化数据交互框架,为跨应用自动化提供了新的…

蓝桥云客--破译密码

5.破译密码【算法赛】 - 蓝桥云课 问题描述 在近期举办的蓝桥杯竞赛中,诞生了一场激动人心的双人破译挑战。比赛的主办方准备了N块神秘的密码芯片,参赛队伍需要在这场智力竞赛中展示团队合作的默契与效率。每个队伍需选出一位破译者与一位传输者&#…

React-Diffing算法和key的作用

1.验证Diffing算法 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </he…

【NLP 54、大模型训练相关知识】

目录 引言&#xff1a;大模型训练两大问题 一、并行训练 1.方式一&#xff1a;数据并行 DP ① 复制模型到多个GPU ② 各自计算梯度后累加&#xff0c;再反传更新 ③ 需要单卡就能训练整个模型&#xff08;显存够大&#xff09; 2.方式二&#xff1a;模型并行 PP ① 将模型的不同…

cursor机器码重置

1、下载vscode插件 cursor-fake-machine-0.0.2 2、将插件拖入拓展 3、彻底将cursor账号退出 setting -> Manage -> 退出账号 4、打开cursor&#xff0c;ctrlshiftp &#xff0c;输入fake,点击确定

全国产FMC子卡-16bit 8通道2.4G

国产化FMC DA子卡&#xff0c;16bit 8通道2.4GS/s 全国产FMC子卡是一款高分辨率、高采样率的全国产多通道标准双宽DAC FMC子板。其接口电气和结构设计均依据FMC标准(ANSI/VITA 57.1)&#xff0c;通过两个高密度FMC连接器&#xff08;HPC&#xff09;连接至FPGA载板。它提供8路A…

fpga:分秒计时器

任务目标 分秒计数器核心功能&#xff1a;实现从00:00到59:59的循环计数&#xff0c;通过四个七段数码管显示分钟和秒。 复位功能&#xff1a;支持硬件复位&#xff0c;将计数器归零并显示00:00。 启动/暂停控制&#xff1a;通过按键控制计时的启动和暂停。 消抖处理&#…

小白 thingsboard 拆分前后端分离

1、modules 里注释掉ui_ugx <modules><module>netty-mqtt</module><module>common</module><module>rule-engine</module><module>dao</module><module>edqs</module><module>transport</module&g…

4G专网:企业数字化转型的关键通信基石

4G专网 在数字化转型的浪潮下&#xff0c;企业对高可靠性、低时延、安全可控的通信网络需求日益增长。传统的公用蜂窝网络难以满足企业在工业自动化、能源管理、智慧城市等领域的特殊需求&#xff0c;因此4G专网成为众多行业的优先选择。作为行业领先的移动核心网提供商&#x…