Python办公自动化,批量生成Excel案例数据集

news2024/12/25 11:10:18

在数据分析的世界里,数据是核心,而如何高效地生成和处理数据则成为每位数据分析师必备的技能之一。今天,我们要探讨一个有趣的话题——“造数”。

但这里的“造数”并非意味着编造数据,而是指在确保数据安全的前提下,模拟生成一些用于测试的数据。在众多工具中,Faker库以其强大的功能和易用性脱颖而出,成为数据分析师们手中的得力助手。

接下来,让我们一起走进Faker库的世界,看看它是如何帮助数据分析师们轻松“造数”的?

1.常规数据模拟

常规数据模拟,比如我们生成一组范围在100到1000的31个数字,就可以使用一行代码np.random.randint(100,1000,31),如下使用随机数字生成sale随日期变化的折线图。

import pandas as pd 
import numpy as np 
import datetime  

df=pd.DataFrame(data=np.random.randint(100,1000,31),
                 index=pd.date_range(datetime.datetime(2022,12,1),periods=31),
                 columns=['sale']).plot(figsize=(9,6))

2.Faker模拟数据

使用Faker模拟数据需要提前下载Faker库,在命令行使用pip install Faker命令即可下载,当出现Successfully installed的字样时表明库已经安装完成。

!pip install Faker -i https://pypi.tuna.tsinghua.edu.cn/simple

导入Faker库可以用来模拟生成数据,其中,locale="zh_CN"用来显示中文,如下生成包含姓名、手机号、身份证号、出生年月日、邮箱、地址、公司、职位这几个字段的数据。

#多行显示运行结果 
from IPython.core.interactiveshell 
import InteractiveShell InteractiveShell.ast_node_interactivity = "all" 
from faker import Faker 
faker=Faker(locale="zh_CN")

#模拟生成数据  
faker.name() 
faker.phone_number() 
faker.ssn() 
faker.ssn()[6:14] 
faker.email() 
faker.address() 
faker.company() 
faker.job()


除了上面的字段,Faker库还可以生成如下几类常用的数据,地址类、人物类、公司类、信用卡类、时间日期类、文件类、互联网类、工作类、乱数假文类、电话号码类、身份证号类。

#address 地址 
faker.country()  # 国家 
faker.city()  # 城市 
faker.city_suffix()  # 城市的后缀,中文是:市或县 
faker.address()  # 地址 
faker.street_address()  # 街道 
faker.street_name()  # 街道名 
faker.postcode()  # 邮编 
faker.latitude()  # 维度 
faker.longitude()  # 经度

#person 人物 
faker.name() # 姓名 
faker.last_name() # 姓 
faker.first_name() # 名 
faker.name_male() # 男性姓名 
faker.last_name_male() # 男性姓 
faker.first_name_male() # 男性名 
faker.name_female() # 女性姓名

#company 公司 
faker.company() # 公司名 
faker.company_suffix() # 公司名后缀

#credit_card 银行信用卡 
faker.credit_card_number(card_type=None) # 卡号

#date_time 时间日期 
faker.date_time(tzinfo=None) # 随机日期时间 
faker.date_time_this_month(before_now=True, after_now=False, tzinfo=None) # 本月的某个日期 
faker.date_time_this_year(before_now=True, after_now=False, tzinfo=None) # 本年的某个日期 
faker.date_time_this_decade(before_now=True, after_now=False, tzinfo=None)  # 本年代内的一个日期 
faker.date_time_this_century(before_now=True, after_now=False, tzinfo=None)  # 本世纪一个日期 
faker.date_time_between(start_date="-30y", end_date="now", tzinfo=None)  # 两个时间间的一个随机时间 
faker.time(pattern="%H:%M:%S") # 时间(可自定义格式) 
faker.date(pattern="%Y-%m-%d") # 随机日期(可自定义格式)

#file 文件 
faker.file_name(category="image", extension="png") # 文件名(指定文件类型和后缀名) 
faker.file_name() # 随机生成各类型文件 
faker.file_extension(category=None) # 文件后缀

#internet 互联网 
faker.safe_email() # 安全邮箱 
faker.free_email() # 免费邮箱 
faker.company_email()  # 公司邮箱 
faker.email() # 邮箱

#job 工作 
faker.job()#工作职位

#lorem 乱数假文 
faker.text(max_nb_chars=200) # 随机生成一篇文章 
faker.word() # 随机单词 
faker.words(nb=10)  # 随机生成几个字 
faker.sentence(nb_words=6, variable_nb_words=True)  # 随机生成一个句子 
faker.sentences(nb=3) # 随机生成几个句子 
faker.paragraph(nb_sentences=3, variable_nb_sentences=True)  # 随机生成一段文字(字符串) 
faker.paragraphs(nb=3)  # 随机生成成几段文字(列表)

#phone_number 
电话号码 faker.phone_number() # 手机号码 
faker.phonenumber_prefix() # 运营商号段,手机号码前三位

#ssn 身份证 faker.ssn() # 随机生成身份证号(18位)

3.模拟数据并导出Excel

使用Faker库模拟一组数据,并导出到Excel中,包含姓名、手机号、身份证号、出生日期、邮箱、详细地址等字段,先生成一个带有表头的空sheet表,使用Faker库生成对应字段,并用append命令逐一添加至sheet表中,最后进行保存导出。

from faker import Faker 
from openpyxl import Workbook  
wb=Workbook()#生成workbook 和工作表 
sheet=wb.active  

title_list=["姓名","手机号","身份证号","出生日期","邮箱","详细地址","公司名称","从事行业"]#设置excel的表头 
sheet.append(title_list)  
faker=Faker(locale="zh_CN")#模拟生成数据 
for i in range(100):
       sheet.append([faker.name(),#生成姓名
                      faker.phone_number(),#生成手机号
                      faker.ssn(), #生成身份证号
                      faker.ssn()[6:14],#出生日期
                      faker.email(), #生成邮箱
                      faker.address(), #生成详细地址
                      faker.company(), #生成所在公司名称
                      faker.job(), #生成从事行业
                     ])                      

wb.save(r'D:\系统桌面(勿删)\Desktop\模拟数据.xlsx')

4.添加数值型数据

如果要生成一些可计算的随机数据,可以使用pandas、numpy这两个库,以上面的数据为例,添加可计算数据。

import pandas as pd   
import numpy as np    # 读取Excel文件   
df = pd.read_excel(r'D:\系统桌面(勿删)\Desktop\模拟数据.xlsx')   
df.head()  # 设置随机数种子以确保结果可重复   

np.random.seed(0)    # 随机生成新字段的数据   
df['销售数量'] = np.random.randint(1, 100, size=len(df))   
df['销售单价'] = np.random.uniform(5, 50, size=len(df)).round(2)   
df['销售收入'] = df['销售数量'] * df['销售单价']   
df['销售成本'] = np.random.uniform(5, 50, size=len(df)).round(2)   
df['销售利润'] = df['销售收入'] - df['销售成本']   
df['利润率'] = (df['销售利润'] / df['销售收入']).round(4)    

df.to_excel(r'D:\系统桌面(勿删)\Desktop\Faker模拟数据.xlsx')

通过本节的分享,我们不难发现,Faker库在数据分析中扮演着举足轻重的角色。它不仅能够模拟生成各种类型的数据,还能帮助我们快速构建测试数据集,从而提高数据分析的效率和准确性。更重要的是,Faker库的使用也非常简单,只需几行代码,就能生成我们所需的数据。

希望今天的分享能够为大家带来启发和帮助,本节代码运行需要依托Python环境,如果你没有安装Python,想根据文中的代码实操一下,可点击链接实操https://www.heywhale.com/mw/project/674d9ad154549b48b1286c17,无需安装Python,可登录「在线运行」Python代码~

五年互联网数据分析经验,擅长Excel、SQL、Python、PowerBI数据处理工具,数据可视化、商业数据分析技能,统计学、机器学习知识,持续创作数据分析内容,点赞关注,不迷路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2252307.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在线绘制Nature Communication同款双色、四色火山图,突出感兴趣的基因

导读:火山图通常使用三种颜色分别表示显著上调,显著下调和不显著。通过为特定的数据点添加另一种颜色,可以创建双色或四色火山图,从而更直观地突出感兴趣的数据点。 《Nature Communication》文章“Molecular and functional land…

【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑

【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑 目录 文章目录 【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑目录摘要研究背景问题与挑战如何解决核心创新点算法模型实验效果(包含重要数据与结论)相关工作后续优化方向 后记 检索增强…

ETSI EN 300328 标准的一些笔记

ETSI - European Telecommunications Standards Institute 欧洲电信标准化协会 ETSI EN 300328 是欧洲协调标准,此标准适用于工作在2.4G频段范围内运行的宽频传输系统和设备的无线电频谱。 例如 WIFI、Zigbee、蓝牙、 (国内的星闪)。不涵盖UWB。 符合了EN 300328标…

VSCode:代码格式化插件

settings.json文件中添加如下配置并保存 {"workbench.sideBar.location": "left","cssrem.rootFontSize": 80,"git.ignoreWindowsGit27Warning": true,"eslint.codeAction.showDocumentation": {"enable": true…

Redis实现限量优惠券的秒杀

核心&#xff1a;避免超卖问题&#xff0c;保证一人一单 业务逻辑 代码步骤分析 全部代码 Service public class VoucherOrderServiceImpl extends ServiceImpl<VoucherOrderMapper, VoucherOrder> implements IVoucherOrderService {Resourceprivate ISeckillVoucher…

Github提交Pull Request教程 Git基础扫盲(零基础易懂)

1 PR是什么&#xff1f; PR&#xff0c;全称Pull Request&#xff08;拉取请求&#xff09;&#xff0c;是一种非常重要的协作机制&#xff0c;它是 Git 和 GitHub 等代码托管平台中常见的功能&#xff0c;被广泛用于参与社区贡献&#xff0c;从而促进项目的发展。 PR的整个过…

大数据技术Kafka详解 ② | Kafka基础与架构介绍

目录 1、kafka的基本介绍 2、kafka的好处 3、分布式发布与订阅系统 4、kafka的主要应用场景 4.1、指标分析 4.2、日志聚合解决方法 4.3、流式处理 5、kafka架构 6、kafka主要组件 6.1、producer(生产者) 6.2、topic(主题) 6.3、partition(分区) 6.4、consumer(消费…

Docker中配置Mysql主从备份

Mysql配置主从备份 一、Docker中实现跨服务器主从备份二、配置步骤1.配置主库2.配置从库3.遇到问题3.其它使用到的命令 一、Docker中实现跨服务器主从备份 在 Docker 中配置 MySQL 主从备份主要通过 MySQL 主从复制实现 二、配置步骤 1.配置主库 # 进入mysql主库容器 docke…

组态王实现设备OEE数据采集的项目总结

组态王实现设备OEE数据采集的项目总结 方案设计硬件设计软件设计 难点总结数据通讯数据转换报表数据存储 项目拓展 最近在做一个项目&#xff0c;关于采集设备OEE数据。陆陆续续做了小半个月&#xff0c;现在算告一段落&#xff0c;特整理总结。 方案设计 硬件设计 本项目是…

C++《set与map》

在之前我们已经学习了解了CSTL当中的string和vector等容器&#xff0c;现在我们已经懂得了这些容器提供的接口该如何使用&#xff0c;并且了解了这些容器的底层结构。接下来我们在本篇当中将继续学习STL内的容器set与map&#xff0c;在此这两个容器与我们之前学习的容器提供的成…

FPGA 15 ,Xilinx Vivado 的基本使用,使用 Vivado 点亮LED灯,具体实现(使用赛灵思 Vivado编写 Verilog 代码)

目录 前言 我们都知道 Xilinx Vivado 是一款强大的 FPGA 集成开发环境&#xff0c;支持从设计输入、综合、实现到仿真的全流程。它兼容 Verilog 和 VHDL 等硬件描述语言&#xff0c;具备高层次综合功能&#xff0c;能有效提升复杂数字系统的设计效率和性能优化。这里来分享记…

VxLAN 集中式网关配置实验

一、拓扑&#xff1a; 二、配置思路&#xff1a; 1、CE1、2、3 配置 IGP&#xff0c;如 RIP 2、CE1、3 配置 BD 域并绑定二层 VNI&#xff0c;起用 NVE 并建立 VxLAN 隧道&#xff1a;源是自己的环回口&#xff0c;对端是 CE2、3 的环回口&#xff0c;用二层 VNI 联接&#x…

qml项目创建的区别

在Qt框架中&#xff0c;你可以使用不同的模板来创建应用程序。你提到的这几个项目类型主要针对的是Qt的不同模块和用户界面技术。下面我将分别解释这些项目类型的区别&#xff1a; 根据你提供的信息&#xff0c;以下是每个项目模板的详细描述和适用场景&#xff1a; Qt Widgets…

仿真s7 snap7 写入

# 准备写入数据 data bytearray(20) # 创建 20 字节的缓冲区 (每个整数占 2 字节&#xff0c;共 10 个整数)# 按顺序将值 1, 2, 3, ..., 10 写入数据缓冲区 for i in range(10):set_int(data, i * 2, i 1) # 每个整数占 2 字节&#xff0c;从 i * 2 的位置开始写入整数# 将…

【计算机网络】实验6:IPV4地址的构造超网及IP数据报

实验 6&#xff1a;IPV4地址的构造超网及IP数据报 一、 实验目的 加深对IPV4地址的构造超网&#xff08;无分类编制&#xff09;的了解。 加深对IP数据包的发送和转发流程的了解。 二、 实验环境 • Cisco Packet Tracer 模拟器 三、 实验内容 1、了解IPV4地址的构造超网…

[CSP-J 2024] 小木棍

题目传送门 P11229 [CSP-J 2024] 小木棍 题解思路&#xff1a; 1、首先想到的是搜索&#xff0c;全排列填盒子的思想&#xff0c;小木棍数够组成某个数&#xff0c;把某个数放到盒子里&#xff0c;这里就是累加到sum上&#xff0c;还做了个剪枝&#xff0c;中间如果已经大于…

AI运用落地思考:如何用AI进行物料条码的识别及异常检测?

一、AI进行物料条码识别 &#xff08;一&#xff09;基于深度学习的方法 图像预处理 首先需要对包含物料条码的图像进行预处理。这包括调整图像的大小、对比度、亮度等操作&#xff0c;以便提高条码图像的清晰度和可识别性。例如&#xff0c;如果图像较暗&#xff0c;可以通过…

基于STM32的电能监控系统设计:ModBus协议、RS-485存储和分析电能数据(代码示例)

一、项目概述 随着智能电网的发展&#xff0c;电能管理的科学性与有效性变得越来越重要。本项目旨在设计并实现一个基于STM32103C8T6单片机的电能监控系统&#xff0c;该系统可以实时采集、存储和分析电能数据&#xff0c;帮助用户实现对电能的高效管理。 项目目标 实时监控&…

从数据库模型设计到字段设计,用自然语言实现数据库开发,颠覆传统的数据库开发模式

前言 在数据库开发过程中&#xff0c;开发者经常面临以下困扰&#xff1a; 1. 焦头烂额的数据库设计阶段 在设计数据库阶段&#xff0c;开发者需要全面考虑表结构、关系模型、字段定义等&#xff0c;稍有不慎就会影响后续的开发与维护&#xff0c;常常让人感到无从下手。 2…

51c自动驾驶~合集39

我自己的原文哦~ https://blog.51cto.com/whaosoft/12707676 #DiffusionDrive 大幅超越所有SOTA&#xff01;地平线DiffusionDrive&#xff1a;生成式方案或将重塑端到端格局&#xff1f; 近年来&#xff0c;由于感知模型的性能持续进步&#xff0c;端到端自动驾驶受到了来…