Dataframe合并大两个df如何完美融合

news2026/2/8 16:53:55

哈喽，大家好，我是木头左！

一、引言

在数据分析过程中，经常需要将多个DataFrame进行合并。本文将详细介绍如何使用pandas库中的merge()、concat()、join()等方法实现两个DataFrame的合并，以及各种方法的适用场景和优缺点。

二、merge()方法

基本用法

import pandas as pd

# 创建两个示例DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'key': ['K0', 'K1', 'K0', 'K1']})

df2 = pd.DataFrame({'C': ['C0', 'C1'],
                    'D': ['D0', 'D1']},
                   index=['K0', 'K1'])

# 使用merge()方法合并
result = pd.merge(df1, df2, left_on='key', right_index=True)
print(result)

参数详解

on: 用于合并的列名，可以是单个列名或多个列名组成的列表。如果指定了left_on和right_on，则表示左右两个DataFrame中需要合并的列名。
left_on: 左侧DataFrame中用于合并的列名。如果未指定，则默认为所有非索引列。
right_on: 右侧DataFrame中用于合并的列名。如果未指定，则默认为所有非索引列。
left_index: 是否使用左侧DataFrame的索引作为合并键。如果为True，则忽略其他合并键。
right_index: 是否使用右侧DataFrame的索引作为合并键。如果为True，则忽略其他合并键。
how: 合并方式，包括’left’（左连接，保留左侧所有行）、‘right’（右连接，保留右侧所有行）、‘outer’（全外连接，保留两个DataFrame的所有行）和’inner’（内连接，只保留两个DataFrame有共同值的行）。默认为’inner’。
sort: 是否对合并后的DataFrame进行排序。默认为False。
suffixes: 当两个DataFrame中有重复的列名时，可以使用后缀来区分。默认为(‘_x’, ‘_y’)。
copy: 是否复制数据。默认为False。如果为True，则返回一个新的DataFrame；如果为False，则在原DataFrame上进行操作。

适用场景与优缺点

适用场景：适用于两个DataFrame中有一列或多列可以作为合并键的情况。
优点：可以根据指定的列进行灵活的合并操作。
缺点：当需要合并的列较多时，代码较为繁琐。

三、concat()方法

基本用法

import pandas as pd

# 创建两个示例DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'key': ['K0', 'K1', 'K0', 'K1']})

df2 = pd.DataFrame({'C': ['C0', 'C1'],
                    'D': ['D0', 'D1']})

# 使用concat()方法合并
result = pd.concat([df1, df2], axis=1)
print(result)

参数详解

objs: 需要合并的DataFrame列表。如果没有指定axis参数，则默认按行方向进行合并。如果指定了axis参数，则按照指定的方向进行合并。
axis: 合并方向，包括0（纵向合并，即按行方向合并）和1（横向合并，即按列方向合并）。默认为0。
join: 是否使用索引进行合并。默认为False。如果为True，则根据索引进行合并；如果为False，则忽略索引进行合并。注意：当axis为1时，join参数无效。
ignore_index: 是否重置索引。默认为False。如果为True，则在合并后重置索引；如果为False，则保留原始索引。注意：当axis为1时，ignore_index参数无效。
keys: 当需要保留原始索引时，可以使用keys参数指定一个字典，字典的键为原始索引的名称，值为新的索引名称。默认为None。注意：当axis为1时，keys参数无效。
levels: 当需要重置索引时，可以使用levels参数指定一个列表，列表中的元素将作为新的索引级别。默认为None。注意：当axis为1时，levels参数无效。
names: 当需要重置索引时，可以使用names参数指定一个列表，列表中的元素将作为新的列名。默认为None。注意：当axis为1时，names参数无效。
verify_integrity: 是否检查新生成的对象是否有重复的索引。默认为False。如果为True，则在合并后检查是否有重复的索引；如果为False，则不进行检查。注意：当axis为1时，verify_integrity参数无效。
sort: 是否对合并后的DataFrame进行排序。默认为False。如果为True，则按照指定的方式进行排序；如果为False，则不进行排序。注意：当axis为1时，sort参数无效。
copy: 是否复制数据。默认为False。如果为True，则返回一个新的DataFrame；如果为False，则在原DataFrame上进行操作。注意：当axis为1时，copy参数无效。