🌠 作者:@阿亮joy.
🎆专栏:《吃透西嘎嘎》
🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根
目录
- 👉前言👈
- 👉如何看源码👈
- 👉vector 的模拟实现👈
- **vector 的主要框架**
- 无参的拷贝构造
- 正向迭代器
- size 和 capacity
- reserve 和 resize
- push_back 和 pop_back
- [ ] 运算符重载
- insert 和 erase
- front 和 back
- swap 和 clear
- 析构函数
- 拷贝构造函数
- 赋值运算符重载
- 用 n 个 val 来构造
- 👉memcpy 带来的浅拷贝问题👈
- 👉总结👈
👉前言👈
我们接下来要模拟实现的 vector,主要参照源码来写。但也不是完全照抄源码,主要是实现 vector 核心的函数接口,知道 vector 的底层实现逻辑。
👉如何看源码👈
源码并不是每一行都要看懂,而是抓住源码的核心。那对于一个类,我们需要关注的是这个类的成员变量和核心的成员函数。而 vector 的成员函数我们不用太关心,因为 STL 要实现哪些函数接口是有规定的。
以下为 vector 源码的成员变量。
注:源码中的 vector 的成员变量都是迭代器,而 vector 的迭代器是指针。而我们之前写的 string 和顺序表都是T* a; size_t _size; size_t _capacity
,那为什么源码要这么定义成员变量呢?见下图:
其实这两种定义成员变量的方式本质上是一致的,只是换了种玩法而已。
👉vector 的模拟实现👈
vector 的主要框架
namespace Joy
{
template<class T>
class vector
{
public:
typedef T* iterator;
typedef const T* const_iterator;
private:
iterator _start;
iterator _finish;
iterator _endofstorage;
};
}
为了避免跟库里的 vector 冲突了,我们用命名空间将我们自己实现的 vector 封装起来。
无参的拷贝构造
vector()
:_start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{}
注:_start 指向第一个位置,_finish 指向最后一个元素的下一个位置,_endofstorage 指向最大容量的下一个位置。
正向迭代器
iterator begin()
{
return _start;
}
iterator end()
{
return _finish;
}
const_iterator begin() const
{
return _start;
}
const_iterator end() const
{
return _finish;
}
size 和 capacity
bool empty() const
{
return _start == _finish;
}
size_t size() const
{
return _finish - _start;
}
size_t capacity() const
{
return _endofstorage - _start;
}
指针相减为两个指针之间的元素个数,所以_finish - _start
为 size
,_endofstorage - _start
为 capacity
。当_start == _finish
时,size 为0。
reserve 和 resize
void reserve(size_t n)
{
if (n > capacity())
{
size_t oldSize = size();
T* tmp = new T[n];
// _start为nullptr时,不需要拷贝数据
if (_start)
{
memcpy(tmp, _start, sizeof(T) * oldSize);
delete[] _start;
}
_start = tmp;
_finish = tmp + oldSize;
_endofstorage = tmp + n;
}
}
void resize(size_t n, T x = T())
{
if (n > capacity())
{
reserve(n);
}
if (n > size())
{
while (_finish < _start + n)
{
*_finish = x;
++_finish;
}
}
else
{
_finish = _start + n;
}
}
reserve 函数接口说明
注:使用 memcpy 函数来拷贝数据会带来一些问题,我们在后面的内容会讲解。
如果没有oldSize
来记录原来 size 的大小,就需要考虑成员变量的更新顺序了。见下方代码:
// 错误的更新方式:先更新_start
_start = tmp;
_finish = tmp + size();
_endofstorage = tmp + n;
// 正确的更新方式:先更新_finish
_finish = tmp + size();
_start = tmp;
_endofstorage = tmp + n;
如果先更新_start
的话,那么就无法通过size()
来得到原来的size
了,从而出现 BUG。所以我们可以用oldSize
来记录size
的大小,那么这样就没有更新成员变量的先后顺序问题了。当_start
为nullstr
时,,说明 vector 对象中没有数据,不需要拷贝数据;反之则通过 memcpy 函数来拷贝数据。最后更新相关成员变量的大小。
resize 函数接口说明
只有当n > capacity()
时,才会去调整capacity
的大小(采取不缩容的原则)。如果n > size()
的话,就利用 while 循环插入x
,这个过程_finish
也刚好更新了。如果n <= size()
的话,就只需要修改_finish
为_start + n
。
push_back 和 pop_back
void push_back(const T& x)
{
if (_finish == _endofstorage)
{
int newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
*_finish = x;
++_finish;
}
void pop_back()
{
assert(!empty());
--_finish;
}
push_back 函数接口说明
首先需要判断是否需要扩容,当_finish == _endofstorage
时,容量已满,需要扩容。扩容之后,就插入数据,更新_finish
。
pop_back 函数接口说明
先断言 vector 类对象是否为空,如果为空,就直接报错;如果不为空,就删除数据。
[ ] 运算符重载
T& operator[](size_t pos)
{
assert(pos < size());
return _start[pos];
}
const T& operator[](size_t pos) const
{
assert(pos < size());
return _start[pos];
}
函数接口功能测试
void vectorTest1()
{
vector<int> v;
v.push_back(1);
v.push_back(2);
v.push_back(3);
v.push_back(4);
for (size_t i = 0; i < v.size(); ++i)
{
cout << v[i] << " ";
}
cout << endl;
vector<int>::iterator it = v.begin();
while (it != v.end())
{
cout << *it << " ";
++it;
}
cout << endl;
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
v.pop_back();
v.pop_back();
v.pop_back();
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
}
void vectorTest2()
{
vector<int> v;
v.resize(10, -1);
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
v.resize(5);
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
}
insert 和 erase
// 迭代器失效:野指针问题
iterator insert(iterator pos, const T& x)
{
assert(pos >= _start);
assert(pos < _finish);
if (_finish == _endofstorage)
{
// 保存pos和_start的相对位置,避免迭代器失效问题
size_t len = pos - _start;
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
// 扩容会导致pos迭代器失效,需要更新处理一下
pos = _start + len;
}
// 挪动数据
iterator end = _finish - 1;
while (end >= pos)
{
*(end + 1) = *end;
--end;
}
*pos = x;
++_finish;
return pos;
}
// STL规定erase返回删除位置下一个位置迭代器
iterator erase(iterator pos)
{
assert(!empty());
assert(pos >= _start);
assert(pos < _finish);
iterator begin = pos + 1;
while (begin < _finish)
{
*(begin - 1) = *begin;
++begin;
}
--_finish;
return pos;
}
insert 函数接口说明
注:insert 的返回值为新插入元素的位置。
首先要判断pos
位置是否合法,然后插入数据。插入数据时,需要判断容量是否已满,是否需要扩容。如果需要扩容的话,则需要将pos
和_start
的相对距离保存为len
。如果保存它们的相对距离的话,扩容将会造成迭代器失效,从而导致野指针问题。那为什么扩容就会带来迭代器失效的问题呢?因为扩容有可能是异地扩容的,异地扩容的话,那么pos
就不会在_start
和_finish
之间。
所以,保存了pos
和_start
的相对距离,就可以在扩容后更新pos
的值了,从而避免迭代器失效造成野指针问题。解决这个问题后,就移动数据,插入数据,更新_finish
就行了。
现在,我们就写好了 insert 函数接口。那我想问大家一个问题,在我们插入数组后,find 函数返回的迭代器是否还可以再用,也就是说是否还可以对 it 进行读写操作。不能,因为也有可能带来野指针问题。那为什么会这样呢?因为插入数据时会发生异地扩容,然后迭代器 it 就会失效。有小伙伴就会说了,我们刚才不是已经解决了这个问题了吗。其实,我们只是解决了 insert 函数内部的迭代器失效问题,并未解决外部的迭代器失效问题,也就是说 it 不在_start
和_finish
之间了。
通过上图就可以清楚地看到,it 已经不在_start
和_finish
之间。这时候,对 it 进行读写操作就是纯纯的野指针问题。
erase 函数接口说明
进行相关的断言,挪动数据,更新_finish
。
那我再想问大家一个问题,这里的迭代器 it 会不会失效呢?我们先来看一下 VS 对这一问题的判定。
可以看到,程序没有报错直接就崩掉了。所以 VS 认为这样是不行的。那么我们再去 Linux 下跑一下这段代码。
可以发现,这段代码是可以在 Linux 下跑过的。那我们再来试一下写能不能跑过。可以发现,写也没什么问题。
注:不同的编译器跑的结果一般不一样。
那迭代器 it 究竟是失效还是不生效呢?其实,我个人认为是失效的。
如果删除最后一个位置的元素,那么 it 就是v.end()
。其实如果我们将要删除的元素改成5,后,代码在 Linux 下也能跑过。为什么呢?因为我们现在模拟实现的 vector 就是 Linux 下的 vector 源码。删除数据就只是指针减减一下,而 it 此时指向的位置不再是有效数据的位置,但是操作系统无法做到对每个位置的越界访问都进行检查,所以上面的代码可以跑过。
那我们再来验证一下,我们自己实现的 vector 是不是也可以在 VS 下跑过。
是不是可以跑过啊!!!那为什么用 VS 下的 vector 就不能跑过呢?原因就是 VS 的 vector 原码的迭代器并不是原生指针,而是函数调用(以后会讲解)。所以,我们应该认为 it 会失效,不要对其进行读写操作。
删除所有的偶数
void vectorTest5()
{
vector<int> v;
v.push_back(1);
v.push_back(2);
v.push_back(2);
v.push_back(3);
v.push_back(4);
v.push_back(6);
auto it = v.begin();
while (it != v.end())
{
if (*it % 2 == 0)
{
it = v.erase(it);
}
else
{
it++;
}
}
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
}
注:删除 it 位置后,我们需要接收一下 erase 函数的返回值,erase 函数的返回值为删除元素的下一个元素的位置。如果不接受 erase 函数的返回值,就会有可能出现各种情况。见下图:
注:我们要统一认为调用 erase(it) 函数后,迭代器 it 会失效。
front 和 back
T& front()
{
assert(!empty());
return *_start;
}
const T& front() const
{
assert(!empty());
return *_start;
}
T& back()
{
assert(!empty());
return *(_finish - 1);
}
const T& back() const
{
assert(!empty());
return *(_finish - 1);
}
swap 和 clear
void swap(vector<T>& v)
{
std::swap(_start, v._start);
std::swap(_finish, v._finish);
std::swap(_endofstorage, v._endofstorage);
}
void clear
{
_finish = _start;
}
注:swap 函数交换两个类对象成员变量的值就行了,clear 函数不能将 _start 置为 nullptr,否则将会造成内存泄漏问题。
析构函数
~vector()
{
delete[] _start;
_start = _finish = _endofstorage = nullptr;
}
拷贝构造函数
传统写法1
vector(const vector<T>& v)
{
size_t Size = v.size();
_start = new T[Size];
for (size_t i = 0; i < Size; ++i)
{
_start[i] = v._start[i];
}
_finish = _endofstorage = _start + Size;
}
注:该写法不能用 memcpy 函数来拷贝数据,因为这样会导致浅拷贝问题(将会在下面的内容讲解)。
传统写法2
vector(const vector<T>& v)
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
reserve(v.capacity());
//reserve(v.size());
for (auto& e : v)
{
push_back(e);
}
}
注:该写法使用范围 for 来尾插数据,一定要加引用。因为 e 有可能是自定义类型,不用引用的话,会存在拷贝构造。
现代写法
// 用迭代器来构造对象
template <class InputIterator>
vector(InputIterator first, InputIterator last)
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
while (first != last)
{
push_back(*first);
++first;
}
}
vector(const vector<T>& v)
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
vector<T> tmp(v.begin(), v.end());
swap(tmp);
}
赋值运算符重载
// v1 = v2
// v1 = v1 极少数情况,且能保证正确性,所以这样写没有什么问题
vector<T>& operator=(vector<T> v)
{
swap(v);
return *this;
}
用 n 个 val 来构造
vector(size_t n, const T& val = T())
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
reserve(n);
for (size_t i = 0; i < n; ++i)
{
push_back(val);
}
}
其实只写这个函数接口的话,会带来一个问题。我们来看一下。
我本来想要 10 个 1来构造出来一个 vector 对象,编译器怎么给我报了个非法间接寻址的错误呢?原因是在这,因为用迭代器去构造对象的函数比上面写的用 n 个 val 构造对象的函数更匹配(int
需要类型转换成 size_t
,而迭代器模板构造函数不用类型转换),编译器会调用更加匹配的函数,所以就导致了非法间接寻址。
那如果我们就是想用 n 个 val 来构造对象的函数,应该解决呢?我们可以再多写个下面的函数来形成函数重载。
vector(int n, const T& val = T())
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
reserve(n);
for (int i = 0; i < n; ++i)
{
push_back(val);
}
}
👉memcpy 带来的浅拷贝问题👈
现在我们模拟实现的 vector 已经差不多完成了,那我们拿上一篇博客写的杨辉三角来验证一下我们写的 vector 对不对。
我们一运行起来,程序就崩溃了。为什么这样子呢?其实就是 memcpy 带来的浅拷贝问题。
为了分析方便,我们换一个例子来说明这个问题,然后再回过头来分析杨辉三角的问题。
可以看到,向 vv 尾插4个 v,没有任何的问题。那插入5个 v呢?
插入5个 v,就出现问题了。为什么呢?因为插入5个 v 就要扩容,而扩容就要将原来的数据拷贝到新空间里。reserve 函数里的拷贝数据是采用 memcpy 函数来拷贝数据,而 memcpy 函数是按照字节来拷贝的,是浅拷贝,而我们所想要的是深拷贝。原来问题就是出现在这里。那我们再调试起来看看。
那我们怎么解决这个问题呢?其实很简单,只需要修改一下 reserve 函数里的拷贝数据的形式就可以了。
void reserve(size_t n)
{
if (n > capacity())
{
size_t oldSize = size();
T* tmp = new T[n];
// _start为nullptr时,不需要拷贝数据
if (_start)
{
//memcpy(tmp, _start, sizeof(T) * oldSize);
for (size_t i = 0; i < oldSize; ++i)
{
// 自定义类型需要深拷贝,调用其赋值运算符重载
tmp[i] = _start[i];
}
delete[] _start;
}
_start = tmp;
_finish = tmp + oldSize;
_endofstorage = tmp + n;
}
}
修改过后,我们的程序就可以跑起来了。那我们再来跑一下杨辉三角的程序,看能不能跑起来。
可以看到,杨辉三角的程序也是可以跑起来的,因为其问题也是扩容时的浅拷贝导致的。
完整代码
#pragma once
namespace Joy
{
template<class T>
class vector
{
public:
typedef T* iterator;
typedef const T* const_iterator;
iterator begin()
{
return _start;
}
iterator end()
{
return _finish;
}
const_iterator begin() const
{
return _start;
}
const_iterator end() const
{
return _finish;
}
size_t size() const
{
return _finish - _start;
}
size_t capacity() const
{
return _endofstorage - _start;
}
vector()
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{}
vector(int n, const T& val = T())
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
reserve(n);
for (int i = 0; i < n; ++i)
{
push_back(val);
}
}
vector(size_t n, const T& val = T())
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
reserve(n);
for (size_t i = 0; i < n; ++i)
{
push_back(val);
}
}
template <class InputIterator>
vector(InputIterator first, InputIterator last)
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
while (first != last)
{
push_back(*first);
++first;
}
}
void swap(vector<T>& v)
{
std::swap(_start, v._start);
std::swap(_finish, v._finish);
std::swap(_endofstorage, v._endofstorage);
}
vector(const vector<T>& v)
: _start(nullptr)
, _finish(nullptr)
, _endofstorage(nullptr)
{
vector<T> tmp(v.begin(), v.end());
swap(tmp);
}
vector<T>& operator=(vector<T> v)
{
swap(v);
return *this;
}
~vector()
{
delete[] _start;
_start = _finish = _endofstorage = nullptr;
}
T& operator[](size_t pos)
{
assert(pos < size());
return _start[pos];
}
const T& operator[](size_t pos) const
{
assert(pos < size());
return _start[pos];
}
void reserve(size_t n)
{
if (n > capacity())
{
int oldSize = size();
T* tmp = new T[n];
if (_start)
{
for (size_t i = 0; i < oldSize; ++i)
{
tmp[i] = _start[i];
}
delete[] _start;
}
_start = tmp;
_finish = tmp + oldSize;
_endofstorage = tmp + n;
}
}
void resize(size_t n, const T& val = T())
{
if (n > capacity())
{
reserve(n);
}
if (n > size())
{
while (_finish < _start + n)
{
*_finish = val;
++_finish;
}
}
else
{
_finish = _start + n;
}
}
void push_back(const T& val = T())
{
if (_finish == _endofstorage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
*_finish = val;
++_finish;
}
void pop_back()
{
assert(!empty());
--_finish;
}
bool empty() const
{
return _start == _finish;
}
iterator insert(iterator pos, const T& val)
{
assert(pos >= _start);
assert(pos < _finish);
if (_finish == _endofstorage)
{
size_t len = pos - _start;
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
pos = _start + len;
}
// Ų
iterator end = _finish - 1;
while (end >= pos)
{
*(end + 1) = *end;
--end;
}
*pos = val;
++_finish;
return pos;
}
iterator erase(iterator pos)
{
assert(!empty());
assert(pos >= _start);
assert(pos < _finish);
iterator begin = pos + 1;
while (begin < _finish)
{
*(begin - 1) = *begin;
++begin;
}
--_finish;
return pos;
}
void clear()
{
_finish = _start;
}
private:
T* _start;
T* _finish;
T* _endofstorage;
};
}
👉总结👈
本篇博客讲解了 vector 的模拟实现,带大家理解 vector 的底层实现。那么以上就是本篇博客的全部内容了,如果大家觉得有收获的话,可以点个三连支持一下!谢谢大家!💖💝❣️