import pandas as pd
# 读取两个Excel文件
df1 = pd.read_excel('1.xlsx')
df2 = pd.read_excel('2.xlsx')
# 检查两个DataFrame的列是否相同
if list(df1.columns) != list(df2.columns):
print("两个Excel文件的列不一致。")
print("文件1的列:", df1.columns)
print("文件2的列:", df2.columns)
else:
# 合并两个DataFrame,并标识差异
df_diff = pd.merge(df1, df2, how='outer', on=df1.columns.tolist(), indicator=True)
df_diff = df_diff[df_diff['_merge'] != 'both']
# 删除_merge列,因为它只是用来标识差异的
df_diff = df_diff.drop(columns=['_merge'])
# 打印差异
if not df_diff.empty:
print("两个Excel文件的数据存在差异:")
print(df_diff)
else:
print("两个Excel文件的数据完全相同")
要对比两张Excel数据表并找出差异,可以使用Python的pandas
库。以上是一个示例代码,它会加载两个Excel文件,比较它们的数据,并打印出差异。
在这个代码中,我们首先检查两个DataFrame的列是否完全相同。如果不相同,我们会输出每个文件的列名称。如果列相同,我们使用pd.merge
函数进行外连接(how='outer'
),这样就可以找出只在其中一个DataFrame中存在的行。indicator=True
参数会添加一个名为_merge
的列,用于指示每行数据的来源。然后我们筛选出_merge
列不等于both
的行,这些行就是差异部分。
请注意,这个代码假设两个Excel文件的结构相同(即列名和列的顺序相同)。如果文件的结构不同,或者你想要比较的列不同,你可能需要先对DataFrame进行一些预处理来调整它们的结构。
确保在运行此代码之前已经安装了pandas
和openpyxl
库。如果没有安装,可以使用以下命令安装:
pip install pandas openpyxl
成果: