题目
Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家 Levenshtein 提出的,故又叫 Levenshtein Distance 。
例如:
字符串A: abcdefg
字符串B: abcdef
通过增加或是删掉字符 ”g” 的方式达到目的。这两种方案都需要一次操作。把这个操作所需要的次数定义为两个字符串的距离。
要求:
给定任意两个字符串,写出一个算法计算它们的编辑距离。
数据范围:给定的字符串长度满足1<=len(str)<=1000
输入描述:
每组用例一共2行,为输入的2个字符串。
输出描述:
每组用例输出一行,代表字符串的距离。
示例1
输入:
abcdefg
abcdef
输出:1
思路:动态规划
例:求两个字符串A,B的编辑距离。
A:apple
B:oppa
- 判断边界条件:若A和B相等,则直接返回0。
- 在A和B的前面分别加上空字符串,是为了下面的计算方便。
- 建立二维数组,dp[A.length() + 1][B.length() + 1],dp[i][j]表示字符串A的位置i处到字符串B的位置j处,需要的最少操作(替换,插入,删除)次数(编辑距离)。
- 根据dp[][]所表示的含义(dp数组第一行:空字符串最少经过多少次变化可以变成字符串A,dp数组第一列:空字符串最少经过多少次变化可以变成字符串B)补全二维数组dp的第一行和第一列中的值(二维数组左上角元素值为0,忽略即可)。
- 比较字符串A的位置i处和字符串B的位置j处的两个元素是否相等:
- 若相等,则dp[i][j]处元素值为dp[i - 1][j - 1];
- 若不等,则dp[i][j]处元素值为Min(dp[i - 1][j - 1],dp[i - 1][j],dp[i][j - 1]) + 1。
- 二维数组右下角的元素值就是最终的编辑距离。
编辑距离 | null | a | p | p | l | e |
null | 0 | 1 | 2 | 3 | 4 | 5 |
o | 1 | 1 | 2 | 3 | 4 | 5 |
p | 2 | 2 | 1 | 2 | 3 | 4 |
p | 3 | 3 | 2 | 1 | 2 | 3 |
a | 4 | 3 | 3 | 2 | 2 | 3 |
例1:
dp[2][1]=2,表示字符串"o"最少需要经过2次,可以变为字符串"ap"。
因为"o" != "p",所以在dp[2][1]与它相邻的三个元素中,找出最小值+1。发现最小值有两个dp[1][0]=1和dp[1][1]=1。
dp[1][0]+1表示"null"经过了1次添加后已经变成了"a",只需要再将"o"替换为"p","o"就变成了"ap';
dp[1][1]+1表示"o"经过了1次替换后已经变成了"a",只需要再添加上"p","o"就变成了"ap"。
例2:
dp[2][2]=1,表示字符串"op"最少需要经过1次,可以变为字符串"ap"。
因为"p" == "p",所以直接copy要求的dp[2][2]的左上角的元素1(dp[1][1]的值)即可。
表示"o"经过1次替换操作,已经变成了"a",前面都一样,而此时"p"和"p"又相等,不需要进行额外的编辑,直接copy即可。
代码
import java.util.Scanner;
public class LevenshteinDistance {
public static void main(String[] args) {
Scanner sc = new Scanner(System.in);
while (sc.hasNext()) {
String str1 = sc.nextLine();
String str2 = sc.nextLine();
System.out.println(levenshteinDistance(str1, str2));
}
}
public static int levenshteinDistance(String A, String B) {
//判断边界条件
if(A.equals(B)) {
return 0;
}
//建立二维数组,dp[i][j]表示源串A位置i到目标串B位置j处最少需要操作的次数
int[][] dp = new int[A.length() + 1][B.length() + 1];
//补全二维数组dp的第一行和第一列中的值(二维数组左上角元素值为0,忽略即可)
for(int i = 1;i <= A.length();i++) {
dp[i][0] = i;
}
for(int j = 1;j <= B.length();j++) {
dp[0][j] = j;
}
for(int i = 1;i <= A.length();i++) {
for(int j = 1;j <= B.length();j++) {
//比较字符串A的位置i处和字符串B的位置j处的两个元素是否相等
if(A.charAt(i - 1) == B.charAt(j - 1))
dp[i][j] = dp[i - 1][j - 1];
else {
//Math.min(a, b)只能传两个参数中的最小值
dp[i][j] = Math.min(dp[i - 1][j], Math.min(dp[i][j - 1], dp[i - 1][j - 1])) + 1;
}
}
}
//二维数组右下角的元素值就是最终的编辑距离
return dp[A.length()][B.length()];
}
}