705. 设计哈希集合
English Version
题目描述
不使用任何内建的哈希表库设计一个哈希集合(HashSet)。
实现 MyHashSet
类:
void add(key)
向哈希集合中插入值key
。bool contains(key)
返回哈希集合中是否存在这个值key
。void remove(key)
将给定值key
从哈希集合中删除。如果哈希集合中没有这个值,什么也不做。
示例:
输入:
["MyHashSet", "add", "add", "contains", "contains", "add", "contains", "remove", "contains"]
[[], [1], [2], [1], [3], [2], [2], [2], [2]]
输出:
[null, null, null, true, false, null, true, null, false]
解释:
MyHashSet myHashSet = new MyHashSet();
myHashSet.add(1); // set = [1]
myHashSet.add(2); // set = [1, 2]
myHashSet.contains(1); // 返回 True
myHashSet.contains(3); // 返回 False ,(未找到)
myHashSet.add(2); // set = [1, 2]
myHashSet.contains(2); // 返回 True
myHashSet.remove(2); // set = [1]
myHashSet.contains(2); // 返回 False ,(已移除)
提示:
0 <= key <= 106
- 最多调用
104
次add
、remove
和contains
解法
方法一:静态数组实现
直接创建一个大小为 \(1000001\) 的数组,初始时数组中的每个元素都为 false
,表示哈希集合中不存在该元素。
往哈希集合添加元素时,将数组中对应位置的值置为 true
;删除元素时,将数组中对应位置的值置为 false
;当查询元素是否存在时,直接返回数组中对应位置的值即可。
以上操作的时间复杂度均为 \(O(1)\)。
方法二:数组嵌套链表
我们也可以开辟一个大小为 SIZE=1000
的数组,数组的每个位置是一个链表。
定义了一个比较小的数组,然后使用 hash 方法来把求出 key 应该出现在数组中的位置;但是由于不同的 key 在求完 hash 之后,可能会存在碰撞冲突,所以数组并不直接保存元素,而是每个位置都指向了一条链表(或数组)用于存储元素。
我们可以看出在查找一个 key 的时候需要两个步骤:
- ① 求hash到数组中的位置;
- ② 在链表中遍历找key。
优点:我们可以把数组大小设计比较合理,从而节省空间;不用预知 key 的范围;方便扩容。
缺点:需要多次访问内存,性能上比超大数组的 HashSet 差;需要设计合理的 hash 方法实现均匀散列;如果链表比较长,则退化成 O(N)O(N)O(N) 的查找;实现比较复杂;
时间复杂度:O(N/b)
,N 是元素个数,b 是桶数。
空间复杂度:O(N)
Python3
class MyHashSet:
def __init__(self):
self.size = 1000
self.data = [[] for _ in range(self.size)]
def add(self, key: int) -> None:
if self.contains(key):
return
idx = self.hash(key)
self.data[idx].append(key)
def remove(self, key: int) -> None:
if not self.contains(key):
return
idx = self.hash(key)
self.data[idx].remove(key)
def contains(self, key: int) -> bool:
idx = self.hash(key)
return any(v == key for v in self.data[idx])
def hash(self,key) -> int:
return key % self.size
obj = MyHashSet()
obj.add(1)
obj.add(2)
param_1 = obj.contains(1)
param_2 = obj.contains(3)
obj.add(2)
param_3 = obj.contains(2)
obj.remove(2)
param_4 = obj.contains(2)
print(param_1)
print(param_2)
print(param_3)
print(param_4)
class MyHashSet:
def __init__(self):
self.data = [False] * 1000001
def add(self, key: int) -> None:
self.data[key] = True
def remove(self, key: int) -> None:
self.data[key] = False
def contains(self, key: int) -> bool:
return self.data[key]
# Your MyHashSet object will be instantiated and called as such:
# obj = MyHashSet()
# obj.add(key)
# obj.remove(key)
# param_3 = obj.contains(key)
C++
#include<iostream>
#include<vector>
#include<list>
using namespace std;
class MyHashSet {
private:
int size = 1000;
vector<list<int>> data;
public:
MyHashSet():data(size) {
}
void add(int key) {
if(contains(key)){
return;
}
int idx = hash(key);
data[idx].push_back(key);
}
void remove(int key) {
if(!contains(key)){
return;
}
int idx = hash(key);
data[idx].remove(key);
}
bool contains(int key) {
int idx = hash(key);
for(auto it = data[idx].begin();it!= data[idx].end();it++){
if((*it) == key){
return true;
}
}
return false;
}
int hash(int key){
return key % size;
}
};
int main(){
MyHashSet* obj = new MyHashSet();
obj->add(1);
obj->add(2);
bool param_1 = obj->contains(1);
bool param_2 = obj->contains(3);
obj->add(2);
bool param_3 = obj->contains(2);
obj->remove(2);
bool param_4 = obj->contains(2);
cout << param_1 << "\t"
<< param_2 << "\t"
<< param_3 << "\t"
<< param_4 << "\t" << endl;
delete obj;
return 0;
}
//g++ 705.cpp -std=c++11
class MyHashSet {
public:
bool data[1000001];
MyHashSet() {
memset(data, false, sizeof data);
}
void add(int key) {
data[key] = true;
}
void remove(int key) {
data[key] = false;
}
bool contains(int key) {
return data[key];
}
};
/**
* Your MyHashSet object will be instantiated and called as such:
* MyHashSet* obj = new MyHashSet();
* obj->add(key);
* obj->remove(key);
* bool param_3 = obj->contains(key);
*/