例题
在这里使用一个简化版的问题进行分析:给定N个自然数,值域是,求出这N个自然数中共有多少个不同的自然数。
分析
如果值域是,那么可以利用之前介绍过的计数排序算法解决问题。定义一个的大数组a,每个位置a[x]所对应的值为0代表这个值x并没有出现过,为1则代表这个值x出现过。然后将这N个自然数一个一个进行判断,如果a[x]为0,则这个数没统计过,把答案加1,然后把a[x]设为1,这个数字已经被统计过了,不对答案进行改变。
那么值域是,该怎么办呢?可以取一个模数mod,定义一个大小为mod的数组,然后把每个数对mod取模。如果两个数对mod取模得到相同的值,那么就认为两个数是相同的。代码如下:
#include<iostream>
#define mod 233333
using namespace std;
int n,x,ans,a[mod+2];
int main(){
cin>>n;
for(int i=1;i<=n;i++){
cin>>x;
x%=mod;
if(!a[x]){
a[x]=1;
ans++;
}
}
cout<<ans<<endl;
return 0;
}
可以发现,这个处理方法的优势和劣势都很明显。优势是这个做法有效减少了空间的利用,只需要定义一个大小为mod的数组。而劣势是,如果有两个不同的数恰好对mod取模之后得到相同的结果,那这个算法的正确性就得不到保证了--算法会认为这两个数是同一个数,但实际上是两个不同的数,但实际上是两个不同的数,产生了冲突。
该如何优化这个算法,使得其既保证了正确性,又降低了时间和空间复杂度呢?可以把一个int的数组改成一个vector<int>的数组或者一个链表,然后将取模后为同一个数的所有值都存在其所对对应的vector或者链表中。
然后每次判断一个数x是否存在的时候,遍历x%mod为止的vector或链表中所有元素,看看是否有x即可。下面给出使用vector存元素的代码
#include<iostream>
#include<vector>
#define mod 233333
using namespace std;
int n,x,ans;
vector <int> linker[mod+2];
void insert(int x){
for(int i=0;i<linker[x%mod].size();i++){
if(linker[x%mod][i]==x){
return;
}
}
linker[x%mod].push_back(x);
ans++;
}
int main(){
cin>>n;
for(int i=1;i<=n;i++){
cin>>x;
insert(x);
}
cout<<ans<<endl;
return 0;
}