使用faker进行生成模拟(mock))数据
文章目录
- 使用faker进行生成模拟(mock))数据
- 一、Faker库安装
- 二、Faker库基本介绍
- 三、案例1:Faker库生成核酸数据
- 四、案例2:生成不重复的人名和地名
- 五、案例3:生成有时间期限的低保数据
- 六、案例4:生成电力数据
- 七、案例5:生成房产登记数据
- 八、总结
当我们要进行一些数据可视化的制作时,数据是必备的,但当我们手头没有真实数据又没有时间和精力去kaggle或其他网站收集数据时,且数据真实性不是特别需要时,我们可以使用faker库来进行数据的mock操作。
这就不需要爬虫去爬取真实数据,也不需要使用别人制作的API接口了!
一、Faker库安装
使用命令:
pip install Faker
进行安装
二、Faker库基本介绍
在使用Faker库之前需要有两部操作来导入和实例化。
1、导入Faker库
from faker import Faker
2、实例化Faker对象
fake = Faker()
3、基本函数介绍
以下是Faker库的一些常用功能和语法:
- 生成随机姓名:
faker.name()
- 生成随机地址:
faker.address()
- 生成随机电子邮件地址:
faker.email()
- 生成随机手机号码:
faker.phone_number()
- 生成随机日期:
faker.date()
- 生成随机时间:
faker.time()
- 生成随机文本块:
faker.text()
Faker库还提供了很多其他的功能,比如生成随机公司名称、随机颜色、随机银行卡号等等。你可以参考Faker库的官方文档来进行更深入的学习和使用。
https://faker.readthedocs.io/en/master/
三、案例1:Faker库生成核酸数据
一般我们使用Faker生成数据,使用pandas、csv或openpyxl等操作excel或csv的库将生成的数据写入。
根据场景,我们可以使用random_element来结合实际去进行生成。
fake.random_element(elements=('文化社区', '中心社区', '枫桥社区', '花园社区','棉织社区','站前社区'))
这里我在网上找了本溪市的街道名和社区名进行随机生成。
from faker import Faker
from openpyxl import Workbook
# 创建实例
fake = Faker(locale='zh_CN')
# 定义表头
headers = ['序号', '市', '区', '街道', '社区', '采集地点', '采集管号', '身份证号', '姓名', '性别', '电话', '住址',
'年龄', '类别', '备注', '采集时间', '采集人姓名', '采集人电话', '标本类型', '接收实验室', '检测时间', '人员关系', '箱号']
# 生成数据并写入Excel
wb = Workbook()
ws = wb.active
ws.append(headers)
for i in range(1, 3000):
row_data = [
i,
'本溪市',
fake.random_element(elements=('平山区', '溪湖区', '明山区', '南芬区')),
fake.random_element(elements=('南地街道','工人街道','平山街道','东明街道','崔东街道','北台街道','河西街道','北地街道','石桥子街道','桥头街道','金山街道','高峪街道','东兴街道','新明街道','牛心台街道','卧龙街道','火连寨街道')),
fake.random_element(elements=('文化社区', '中心社区', '枫桥社区', '花园社区','棉织社区','站前社区')),
fake.building_number(),
fake.random_int(min=100000000, max=999999999),
fake.ssn(),
fake.name(),
fake.random_element(elements=('男', '女')),
fake.phone_number(),
fake.address(),
fake.random_int(min=1, max=100),
fake.random_element(elements=('类别1', '类别2', '类别3')),
'NULL',
fake.date_time_this_year(),
fake.name(),
fake.phone_number(),
fake.random_element(elements=('鼻拭子', '咽拭子', '唾液样本')),
'本溪市核酸检测基地实验室',
fake.date_time_this_year(),
'本人',
fake.random_int(min=1, max=10)
]
ws.append(row_data)
# 保存文件
wb.save('data.xlsx')
结果如下:
生成的数据,如有身份证号码的雷同或手机号的雷同,纯属巧合!
生成这些数据可以应用在医疗系统的建设时充当mock数据。
四、案例2:生成不重复的人名和地名
有一些需求要求我们生成的数据不包含重复值
我们可以配合pandas库来进行生成和去重。
from faker import Faker
import pandas as pd
fake = Faker(['zh_CN', 'en_US'])
# 生成第一列数据
country1_cities = {fake.city_name() + '市' for i in range(2000)}
column1 = list(country1_cities) + [fake.state()]*2000
print(len(column1))
# 生成第二列数据
names = {fake.name() for j in range(4000)}
column2 = list(names)
print(len(column2))
# 计算每列数据的长度
len1 = len(column1)
len2 = len(column2)
# 如果列的长度不一致,则新建一个DataFrame来保证列的长度一致
if len1 != len2:
max_len = max(len1, len2)
dummy_df = pd.DataFrame()
if len1 < max_len:
dummy_df['国家或地区'] = ['']*(max_len - len1)
column1.extend(dummy_df['国家或地区'].tolist())
elif len2 < max_len:
dummy_df['人名'] = ['']*(max_len - len2)
column2.extend(dummy_df['人名'].tolist())
# 将数据转化为DataFrame
df = pd.concat([pd.DataFrame(column1, columns=['国家或地区']), pd.DataFrame(column2, columns=['人名'])], axis=1)
# 保存到csv文件中
df.to_csv('地名与人名不重复.csv', index=False)
但要注意,人名不重复很简单,可以生成中文人名和英文名。但地名不重复是有一定难度的,所以地名的生成在数量上是有限制的。
五、案例3:生成有时间期限的低保数据
我们还会遇到一些需要记录时间期限的场景,如健身卡会员期限等。
生成时间时我们可以设置开始时间和结束时间,如:
fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d'),
这里我们设置开始时间是在前五年之内的,结束时间设置为今天。那么Faker就会随机生成在这五年之内的随机日期。
from faker import Faker
from openpyxl import Workbook
# 创建faker对象
fake = Faker('zh_CN')
# 创建工作表
wb = Workbook()
ws = wb.active
# 编写列头
headers = [ "序号", "年度", "单位隶属",'姓名','身份证号','保障开始时间','保障结束时间','救助情况','所属县区','所属乡镇街道','所属社区村','类型','备注'
]
ws.append(headers)
# 生成并写入200个数据条目
for i in range(3000):
row = [
fake.random_int(min=1, max=100),
'2023',
'本溪市',
fake.name(), # 姓名
fake.ssn(), # 身份证号
fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d'),
fake.date_between(start_date='today', end_date='+5y').strftime('%Y/%m/%d'),
fake.random_int(min=200, max=500),
'本溪满族自治县',
'沙尖子镇',
fake.random_element(elements=('北沟村委会', '大华街道', '东明街道', '北台街道')),
fake.random_element(elements=('农村低保', '城市低保', '残疾人两项补助')),
fake.random_element(elements=('因病', '因残',)),
]
ws.append(row)
# 保存工作簿
wb.save("低保数据.xlsx")
生成结果:
六、案例4:生成电力数据
关于数值类型的数据我们可以使用
fake.random_int(min=10000000000,max=99999999999)
来定义区间和类型,此外关于地址和公司名也可以随机生成
fake.address()
fake.company()
案例代码如下:
from faker import Faker
from openpyxl import Workbook
# 创建faker对象
fake = Faker('zh_CN')
# 创建工作表
wb = Workbook()
ws = wb.active
# 编写列头
headers = ['户号','户名','表号','地址','手机号','身份证号','用电量202001', '用电量202002', '用电量202003', '用电量202004', '用电量202005', '用电量202006', '用电量202007', '用电量202008', '用电量202009', '用电量202010', '用电量202011', '用电量202012', '用电量202101', '用电量202102', '用电量202103', '用电量202104', '用电量202105', '用电量202106', '用电量202107', '用电量202108', '用电量202109', '用电量202110', '用电量202111', '用电量202112', '余额','单位']
ws.append(headers)
# 生成并写入200个数据条目
for i in range(3000):
row = [
fake.random_int(min=10000000000,max=99999999999),
fake.name(),
fake.random_int(min=100000000000000000,max=999999999999999999),
fake.address(),
fake.phone_number(),
fake.ssn(),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.random_int(min=1, max=400),
fake.company(), # 单位名称
]
ws.append(row)
# 保存工作簿
wb.save("国网电力.xlsx")
七、案例5:生成房产登记数据
我们可以在生成数据时,利用字符串拼接的方式进行生成
如下列代码,我们使用循环,并随机生成j
j = random.randint(20000, 50000)
....
'本房权证平山区字第'+ str(j)+ '号' , # 权证号
完整代码如下
import random
import faker
import openpyxl
# 创建一个 Faker 对象
fake = faker.Faker('zh_CN')
# 创建一个 Excel 文件和工作表
wb = openpyxl.Workbook()
ws = wb.active
# 创建表头
ws.append(['编号', '区划', '权证号', '姓名', '证件类型', '身份证号', '地址', '建筑面积', '办结时间'])
# 生成数据并写入 Excel 表格
for i in range(3000):
j = random.randint(20000, 50000)
ws.append([
i + 1, # 编号
fake.random_element(elements=('平山区', '溪湖区', '明山区', '南芬区')), # 区划
'本房权证平山区字第'+ str(j)+ '号' , # 权证号
fake.name(), # 姓名
'居民身份证', # 证件类型
fake.ssn(min_age=18, max_age=70), # 身份证号
fake.address(), # 地址
round(fake.pyfloat( positive=True, min_value=50, max_value=200), 2), # 建筑面积
fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d') # 办结时间
])
# 保存 Excel 文件
wb.save('房产登记数据.xlsx')
结果如下:
八、总结
Faker精简应用可以帮助程序员快速生成测试数据。通过导入Faker库,并选择需要生成的随机数据类型,程序员可以轻松地创建测试数据,从而减少手动创建测试数据的工作量。
以上内容就是我的全部分享啦!祝你有个美好的一天!