【C++】vector的模拟实现 | 使用memcpy拷贝时的问题

基本框架及接口

构造函数

无参构造

迭代器区间构造

初始化构造

析构函数

size() | capacity()

扩容的reserve()

使用memcpy拷贝的问题

改变大小的resize()

operator[]

迭代器的实现

vector的增删

尾插push_back()

尾删pop_back()

在指定位置插入insert()

在指定位置删除erase()

深拷贝的实现

拷贝构造函数

赋值operator=

上一篇我们说到了vector，它是一个类模板，能够容纳各种类型的对象作为其元素，并且可以动态地调整大小。可以理解为动态数组。

这篇我们就亲自实现一下简易版的vector，这能大大加深我们对vector的理解！

而因为vector的实现和string有很多相似之处，所以实现过程中的一些细节便不再详述。

基本框架及接口

📁vector.h：

#pragma once
namespace jzy   //为了和STL库里的vector区分，我们就把它放进自定的命名空间里
{
    template<typename T>
    class vector
    {
    public:
        typedef T* iterator;   
        
    private:
        iterator _start;
        iterator _finish;     //finish表示最后一个位置的后一个位置
        iterator _end_of_storage;
    };
}

这里的三个成员变量，是参照了《STL源码剖析》，按照STL 3.0版本实现的。

这样的话，想要知道 _size或者 _capacity，就用成员变量相减的方式。

构造函数

无参构造

vector()
    :_start(nullptr)
    ,_finish(nullptr)
    , _end_of_storage(nullptr)
{}

迭代器区间构造

通过传迭代器的起、始区间（左闭右开）来构造。

vector(InputIterator first, InputIterator last)
        {
            InputIterator it = first;
            int num = 0;       //统计个数
            while (it != last)
            {
                it++;
                num++;
            }

            _start = new T[num];
            for (int i = 0; i < num; i++)
            {
                _start[i] = *first++;
            }
            _finish = _start + num;
            _end_of_storage = _start + num;
        }

初始化构造

构造的同时能将对象初始化，使之含n个val值。

vector(int n, const T& val = T())   //注意：这里不能给size_t！
        {
            _start = new T[n];
            for (int i = 0; i < n; i++)
            {
                _start[i] = val;
            }
            _finish = _start + n;
            _end_of_storage = _start + n;
        }

为什么n的类型不能是size_t？

如果是size_t，当传的两个参数都是int类型时，测试出的结果为：

void test7()
{
    vector<int> v1(5,1);  
    for (auto& e : v1)
    {
        cout << e << " ";
    }
}

原因：

我们知道，v1在匹配构造函数时，是根据参数的类型来匹配的。

size_t与int并不能很好地匹配，而InputIerator却可以匹配上int类型，因为InputIerator本身就是个模板，int无需转化就能匹配上。

所以v1调用的构造函数是 vector(InputIterator first, InputIterator last); ,

在这个函数里，要对int进行解引用，所以报错：非法的间接寻址。

析构函数

~vector()
{
    delete[] _start;
    _start = _finish = _end_of_storage = nullptr;
}

size() | capacity()

目前的三个成员变量不能直观地表示出容量和大小，因此，我们需要亲自实现出来。

size_t size()
{
    return _finish - _start;   
}

size_t capacity()
{
    return _end_of_storage - _start;
}

扩容的reserve()

扩容的思路是：

先开新空间，再把数据都拷到新空间里去，然后释放旧空间，让指针指向新空间。

未经修正版的reserve：

void reserve(size_t n)
        {
            if (n > capacity())
            {
                size_t sz = size();

                T* tmp = new T[n];
                int a = size();
                if (_start)
                {
                    memcpy(tmp, _start, sz* sizeof(T)); 
                    delete[] _start;
                }
                _start = tmp;
                _finish = _start + sz;
                _end_of_storage = _start + n;
            }
        }

来测试下：

void test10()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.push_back(4);
    v.push_back(5);

    for (auto& e : v)
    {
        cout << e << " ";
    }
    cout << endl;
}

看起来搞定了。但真的OK吗？

如果我们用自定义类型，如vector<string>来测试：

void test9()
{
    vector<string> v;
    v.push_back("happy");
    v.push_back("happy");
    v.push_back("happy");
    v.push_back("happy");
    v.push_back("happy");

    for (auto& e : v)
    {
        cout << e << " ";
    }
    cout << endl;

}

程序居然崩溃了！

其实，这都是memcpy惹的祸。

使用memcpy拷贝的问题

⭐memcpy只能进行浅拷贝，所以，如果是拷内置类型，那很乐于用memcpy。

如果是自定义类型且涉及资源管理的，就不能用memcpy了，不然可能会引起内存泄漏甚至程序崩溃。

现在来解释vector<string>用例崩溃的原因：

在调用push_back时，空间不够的话，push_back内部会调用reserve开空间，问题就出在这个reserve。来看看reserve是咋实现的：

void reserve(size_t n)
        {
            if (n > capacity())
            {
                size_t sz = size();

                T* tmp = new T[n];
                int a = size();
                if (_start)
                {
                    memcpy(tmp, _start, sz* sizeof(T));    //拷数据时用memcpy
                    delete[] _start;
                }
                _start = tmp;
                _finish = _start + sz;
                _end_of_storage = _start + n;
            }
        }

可以看到，reserve是调memcpy拷数据的，拷完就释放了_start。

虽然vector<string>实现了深拷贝，开了新空间，但是其中的成员 tmp没有被深拷贝，

tmp 的内容是由memcpy值拷贝来的，和_start指向同一块空间。

当_start被delete，那tmp的空间同样也被释放了。

所以说，如果对象中涉及到资源管理时，千万不能使用memcpy进行对象之间的拷贝，还是得自己老老实实地拷贝。

➡️修改后的reserve：

void reserve(size_t n)
        {
            if (n > capacity())
            {
                //开空间
                T* tmp = new T[n];
                //拷数据
                iterator begin = _start;
                int i = 0;
                while (begin != _finish)
                {
                    tmp[i++] = *begin++;
                }
                //释放、赋值
                delete[] _start;
                _start = tmp;
                _finish = tmp + i;
                _end_of_storage = tmp + n;
            }
        }

此时再测试：

改变大小的resize()

void resize(size_t n , T val = T())
        {
            if (n < size())
            {
                _finish = _end_of_storage = _start + n;
            }
            else
            {
                reserve(n);
                for (int i = size(); i < n; i++)
                {
                    _start[i] = val;
                }
                _finish = _start + n;
            }
        }

operator[]

T& operator[] (size_t pos) 
{
    assert(pos < size());
    return *(_start + pos);
}

迭代器的实现

普通迭代器的begin() | end()：

typedef T* iterator;
iterator begin()
{
    return _start;
}

iterator end()
{
    return _finish;
}

const迭代器的begin() | end()：

被const修饰以后，只能读，不能写。

typedef const T* const_iterator;
const_iterator begin() const
{
    return _start;
}

const_iterator end() const
{
    return _finish;
}

关于范围for：

只要实现了迭代器，那范围for不用特意去实现，就已经能用了：

void test1()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.push_back(4);

    for (auto e : v)    //用范围for遍历
    {
        cout << e << " ";
    }
    cout << endl;
}

实际上范围for的底层原理就是迭代器。它依靠begin()、end()来实现，且只认识begin()和end()。

假如我把begin()的名称改成Begin()，那迭代器照样能用，而范围for就用不了了：它不认识Begin()。。。

vector的增删

尾插push_back()

void push_back(const T& val)  
{
    //先考虑容量够不够
    if (size() == capacity())
    {
        reserve(capacity() == 0 ? 4 : 2 * capacity());
    }

    *_finish = val;
    _finish++;
}

这里要注意：形参得被const修饰，并且传引用过去。

传引用的话更省力，不然深拷贝代价大；有了const，形参才能接收常量字符串。

尾删pop_back()

void pop_back()
{
    assert(_start<_finish);
    _finish--;
}

在指定位置插入insert()

void insert(iterator pos, const T& val)
        {
            assert(pos >= _start);
            assert(pos <= _finish);
            //先考虑空间够不够
            if (_finish == _end_of_storage)
            {
                reserve(capacity() == 0 ? 4 : 2 * capacity());
            }
            //挪动数据
            iterator end = _finish - 1;
            while (end >= pos)
            {
                *(end + 1) = *end;
                end--;
            }
            //插入
            *pos = val;
            _finish++;
        }

这样写其实还不够，一旦涉及扩容就会出现问题。我们来测试一下：

void test2()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.pop_back();
    v.insert(v.begin(), 10);
    v.insert(v.begin(), 11);
    v.insert(v.begin(), 12);

    for (auto e : v)  
    {
        cout << e << " ";
    }
    cout << endl;
}

出现了随机值！

究其原因，其实是reserve扩容那步出了疏漏，使迭代器pos失效了。

这就是迭代器失效问题。

也就是说，在扩容后，迭代器pos需要被更新一下：让原本指向旧空间的pos，现在指向新空间的同样位置。

修改后：

void insert(iterator pos, const T& val)
        {
            int flag_pos = pos - _start;   //先记录下pos的相对位置，以便之后更新pos

            assert(pos >= _start);
            assert(pos <= _finish);
            //考虑空间够不够
            if (_finish == _end_of_storage)
            {
                reserve(capacity() == 0 ? 4 : 2 * capacity());
                pos = _start + flag_pos;     //根据刚刚记录的位置，更新pos
            }

            //挪动数据
            iterator end = _finish - 1;
            while (end >= pos)
            {
                *(end + 1) = *end;
                end--;
            }
            //插入
            *pos = val;
            _finish++;
        }

现在可以成功插入了：

拓展思考：若将v.begin()传给pos时，采用引用传参，可行吗？
void insert(iterator& pos, const T& val);
不可行。这个问题很考验我们在类和对象那块的基础知识。

我们来看看begin()：
iterator begin()
        {
            return _start;
        }
它采用传值返回，返回的不是_start，而是它的拷贝出来的临时对象。

临时对象是具有常性的，所以pos没法作它的别名，我们只能拷贝一份它，存进pos里。

在指定位置删除erase()

void erase(iterator pos)
        {
            assert(pos >= _start && pos < _finish );  //这里注意：不能<=_finish！因为它指向的是最后一个元素的后一个位置
            
            iterator begin = pos + 1;
            while (begin < _finish)
            {
                *(begin - 1) = *begin;
                begin++;
            }
            
            _finish--;
        }

但是！看似平静无澜的erase()，其实暗含隐患：erase也会有迭代器失效的问题。

现在我们用一个例子来展示出它的问题：现要求删除所有的偶数。

v分两组，分别是A：{1,2,3,4,5}; B：{1,2,3,4}。

A：

void test3()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.push_back(4);
    v.push_back(5);

    vector<int>::iterator it = v.begin();
    while (it != v.end())
    {
        if (*it % 2 == 0)
        {
            v.erase(it);
        }
        it++;
    }
    for (auto e : v)
    {
        cout << e << " ";
    }
    cout << endl;
}

删除成功了。但如果v中是1 2 3 4，就不行。

B：

void test3()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.push_back(4);
    ……
}

程序崩溃了：

这是因为迭代器失效了，我们用图来说明原因：

而{1,2,3,4,5}仅仅是碰巧，被删的偶数后面正好跟着奇数，所以没有暴露错误。

那对于erase中迭代器失效的情况，写C++的大佬是怎么处理的呢？

处理的思路是：将返回值由void 改为iterator，返回删除后pos的位置。这样的话，删完后迭代器还是指向pos，就不会错过pos位置的比较。

修改后的erase：

iterator erase(iterator pos)
        {
            assert(pos >= _start && pos < _finish );  //这里注意：不能<=_finish！因为它指向的是最后一个元素的后一个位置
            
            iterator begin = pos + 1;
            while (begin < _finish)
            {
                *(begin - 1) = *begin;
                begin++;
            }
            
            _finish--;
            return pos;
        }

测试：

void test3()
{
    vector<int> v;
    v.push_back(1);
    v.push_back(2);
    v.push_back(3);
    v.push_back(4);

    //要求删除所有的偶数
    vector<int>::iterator it = v.begin();
    while (it != v.end())
    {
        if (*it % 2 == 0)   //用if else语句，删完以后迭代器仍停在pos位置，而不会自增
        {
            it = v.erase(it);
        }
        else 
        {
            it++;
        }
    }
    for (auto e : v)
    {
        cout << e << " ";
    }
    cout << endl;
}

深拷贝的实现

拷贝构造函数

如果我们用默认的拷贝构造函数，进行vector的浅拷贝的话：

void test4()
{
    vector<int> v1;
    vector<int> v2(v1);
}

这是因为，浅拷贝仅能复制值，而不能复制一份同样的空间。

这样v1、v2就指向了同一块空间，析构v1、v2时，同一块空间被析构了两次，所以程序崩溃了。

所以，我们要手动实现vector的拷贝构造，实现深拷贝。

➡️Way1 传统写法：老老实实地开空间、拷数据。

vector(vector<T>& v)
            :_start(new T[v.capacity()])
            , _finish(_start + v.size())
            , _end_of_storage(_start + v.capacity())
        {
            memcpy(_start, v._start, sizeof(T) * v.size());
        }

➡️Way2 现代写法：本质是复用现成的代码，“构造新对象+将自己和新对象进行swap”。

vector(const vector<T>& v)   
            :_start(nullptr)
            , _finish(nullptr)
            , _end_of_storage(nullptr)
        {
            vector<T> tmp(v.begin(), v.end());
            swap(_start, tmp._start);
            swap(_finish, tmp._finish);
            swap(_end_of_storage, tmp._end_of_storage);
        }

赋值operator=

vector<T>& operator=(vector<T> v)    //因为是传值传参，v就已经是实参的拷贝了，所以不需要再构造tmp
        {
            swap(_start, v._start);
            swap(_finish, v._finish);
            swap(_end_of_storage, v._end_of_storage);
            return *this;
        }