线程局部存储（TLS）

线程局部存储（Thread Local Storage，TLS），是一种变量的存储方法，这个变量在它所在的线程内是全局可访问的，但是不能被其他线程访问到，这样就保持了数据的线程独立性。而熟知的全局变量，是所有线程都可以访问的，这样就不可避免需要锁来控制，增加了控制成本和代码复杂度。

一、C/C++编程接口

POSIX线程库提供了如下API管理TLS：

// 创建一个TLS变量，并设置析构函数
int pthread_key_create(pthread_key_t *key, void (*destructor)(void*));
// 回收TLS变量，但是注意并不调用TLS的析构函数
int pthread_key_delete(pthread_key_t key);
// 获取TLS变量的当前值
void *pthread_getspecific(pthread_key_t key);
// 给TLS变量赋值
int pthread_setspecific(pthread_key_t key, const void *value);

除了上面API的方式，GCC的编译器也支持语言级别的用法，这样比用API调用，更简单。使用 __thread 关键字可将变量声明为线程局部变量，如下例所示：

__thread int i;
__thread char *p;
__thread struct state s;

使用GCC编译级别支持的方式来实现TLS的一个Demo：

// 编译：g++ main.cc -lpthread
#include<iostream>
#include<pthread.h>
#include<unistd.h>

using namespace std;
__thread int iVar = 100;

void* Thread1(void *arg)
{
    iVar += 200;
    cout<<"Thead1 Val : "<<iVar<<endl;
}

void* Thread2(void *arg)
{
    iVar += 400;
    sleep(1);
    cout<<"Thead2 Val : "<<iVar<<endl;
}

int main()
{
    pthread_t pid1, pid2;
    pthread_create(&pid1, NULL, Thread1, NULL);
    pthread_create(&pid2, NULL, Thread2, NULL);

    pthread_join(pid1, NULL);
    pthread_join(pid2, NULL);

    return 0;
}

在循环优化期间，编译器可根据需要选择创建临时线程局部变量。

适用性
__thread 关键字可以应用于任何全局变量、文件作用域静态变量或函数作用域静态变量。它对于始终是线程局部变量的自动变量没有影响。

初始化
在 C++ 中，如果初始化需要静态构造函数，将无法初始化线程局部变量。否则，可以将线程局部变量初始化为对于普通静态变量合法的任何值。无论是线程局部变量还是其他变量，都不能静态地初始化为线程局部变量的地址。

绑定
线程局部变量可以在外部声明和引用。线程局部变量遵循与普通符号相同的插入规则。

二、ELF中的TLS节

代码中所有的全局变量都存储在.data（静态初始化变量）和.bss（未静态初始化的变量）这两个段。而TLS变量存储位置有所不同：

已初始化的线程局部变量分配在 .tdata 或 .tdata1 节中，节类型为SHT_NOBITS，节属性为SHF_ALLOC + SHF_WRITE + SHF_TLS。此初始化可能需要重定位。
未初始化的线程局部变量定义为 COMMON 符号，最终分配在 .tbss 节中进行，节类型为SHT_PROGBITS，节属性为SHF_ALLOC + SHF_WRITE + SHF_TLS。

与.data不一样的是，运行时程序不会直接访问这些TLS段。在分配了任何已初始化的节后会立即分配未初始化的节，并进行填充以便正确对齐（内存中.tbss紧跟在.tdata后）。

.tdata和.tbss合并的节一起构成 TLS 模板，每次创建新线程时，都会使用此模板分配 TLS，所以每个线程启动时TLS都是相同的。此模板的已初始化部分称为 TLS 初始化映像。所有因已初始化的线程局部变量而生成的重定位将应用于此模板。当新线程需要初始值时，将使用重定位的值。

每个线程的TLS块都是运行时分配的，所以在链接时是不知道其地址的，要访问TLS变量必须借助动态链接器才能计算出其地址。链接时只能知道TLS变量在TLS段中的偏移。

TLS 符号的符号类型为 STT_TLS，这些符号表示相对于 TLS 模板开头的偏移量，而不是实际的虚拟地址。TLS 符号指向 TLS 模板的开头，而不是每个数据项的每个线程副本。在exec文件和共享目标文件中，对于已定义的 TLS 符号，其 st_value 字段包含指定的 TLS 偏移量，而对于未定义的 TLS 符号，此字段通常包含零。

访问 TLS 符号通常需要进行重定位，以便在运行时能够正确地计算 TLS 数据的地址。这些重定位引用 STT_TLS 类型的符号，并且还可以引用与 GOT 项关联的局部节符号。

对于根据 TLS 项进行的重定位，重定位地址在 TLS 模板的末尾编码为负偏移。计算该偏移时，首先将模板大小舍入到 32 位目标文件中最接近的 8 字节边界，然后舍入为 64 位目标文件中最接近的 16 字节边界。此舍入操作确保静态 TLS 模板合理对齐以便可用于任何用途。

在exec文件和共享目标文件中，PT_TLS 程序项用于描述 TLS 模板。此模板包含以下成员：

成员	值
p_offset	TLS 初始化映像的文件偏移
p_vaddr	TLS 初始化映像的虚拟内存地址
p_paddr	0
p_filesz	TLS 初始化映像的大小
p_memsz	TLS 模板的总大小
p_flags	PF_R
p_align	TLS 模板的对齐方式

三、TLS运行时分配

在程序的生命周期中，会在三个时间创建 TLS。

程序启动时。
创建新线程时。
程序启动后装入共享目标文件之后，线程第一次引用 TLS 块时。

3.1 TLS布局结构

运行时线程局部数据存储的布局如下图所示。

在这里插入图片描述

线程指针

每个线程 t 都有一个关联的线程指针 $tp_t$ ，该指针指向线程控制块 TCB。线程指针 tp 始终包含当前正在运行的线程的 $tp_t$ 值。

TLS模块偏移

动态链接器将exec文件装载之后，假设与exec文件相关联的动态库有多m个（再假设每个都有TLS模块），所以也就会有m + 1个模块（一个是exec的，假设其有）。动态链接器会将这些模块合并成单个静态模板，在合并的模板中，为每个动态目标文件（exec和共享库）的 TLS模板指定一个偏移 $tlsoffset_m$ 。

$tlsoffset_1 = round(tlssize_1, align_1 )$
$tlsoffset_{m+1} = round(tlsoffset_m + tlssize{m+1}, align_{m+1})$

动态线程向量

动态线程向量（Dynamic Thread Vector，dtv）是在多线程程序中用于管理线程局部存储（TLS）的数据结构之一。每个线程都有一个 dtv，用于存储该线程的 TLS 变量的地址列表。dtv 是一个数组或指针数组，其中的每个元素都指向一个 TLS 变量的地址，这些地址通常相对于线程基址或线程指针（TP）进行偏移（可通过tp + tlsoffset进行访问）。

线程库为当前线程 t 创建一个指针向量 $dtv_t$ 。每个向量的第一个元素都包含一个生成编号 $gen_t$ ，该生成编号用于确定需要扩展向量的时间。 $dtv_{t,m}$ 向量中剩余的每个元素都是一个指针，指向为属于动态目标文件 m 的 TLS的块的地址。

分配模型

有些模块的TLS块跟TCB放在一起，是程序启动时就分配的（如exec及其依赖的.so），称为静态模型；有些模块是程序运行中动态加载的（通过dlopen()动态加载）， TLS块在线程第一次访问时分配，称为动态模型。

对于静态模型，在程序启动时动态链接器就可以确定其相对于 $tp_t$ 的偏移值，如 $tlsoffset_1、tlsoffset_2、tlsoffset_3$ ，编译器生成代码时可以直接使用这些偏移值来访问。

对于动态模型，线程库将延迟分配 TLS 块。分配将在第一次引用已装入的目标文件中的 TLS 变量时进行，需要调用运行时系统提供的__tls_get_addr()获取其地址，如 $tlsoffset_4、tlsoffset_5$ 。

3.2 延迟分配TLS

对于延迟分配的TLS，由于其偏移值在启动时未知，必须借助于__tls_get_addr()获取，定义类似如下：

struct tls_index {
    size_t module_id;
    size_t offset;
};

void* __tls_get_addr(struct tls_index* ti)
{
    // Get the DTV of current thread.
    dtv_t* dtv = GET_CURRENT_DTV();

    // Check if the DTV is stale, and if so, update it.
    if (dtv[0].counter != dl_tls_generation) {
        update_dtv();
    }

    // Get the TLS block. If not allocated yet, allocate now.
    char* tls_block = dtv[ti->module_id];
    if (tls_block == UNALLOCATED_TLS_BLOCK) {
        tls_block = dtv[ti->module_id] = allocate_tls(module_id);
    }

    return tls_block + ti->offset;
}

module_id是模块ID，由动态链接器在加载模块时分配，从1开始（exec文件的模块ID固定是1）。

当动态加载或卸载一个模块时，动态链接器维护的dl_tls_generation会加1，表示模块信息有了变化。由于每个线程的DTV时延迟更新的，所以每个线程的dtv[0]也会维护自己的generation counter，用于在访问TLS时判断是否需要更新DTV。

四、TLS的访问模型

每个 TLS 引用都遵循下列访问模型之一。这些模型按照最常见、但最少优化到速度最快、但限制最大的顺序列出。要访问TLS变量需要确定两个信息：

定义TLS变量的模块（可执行程序exec或动态共享库.so）。
TLS变量在该模块的TLS段的偏移。

4.1 常规动态 (General Dynamic, GD)－动态 TLS

此模型允许从共享目标文件或exec文件中引用所有 TLS 变量。如果是第一次从特定线程引用 TLS 块，此模型还支持延迟分配此块。

这种模式下不需要链接时知道模块ID和偏移值。程序启动时动态链接器通过重定向确定模块ID和TLS变量的偏移值，存储在GOT表中。在访问TLS时调用 __tls_get_addr()，传入这两个参数，获取TLS变量的地址。

4.2 局部动态 (Local Dynamic, LD)－局部符号的动态 TLS

此模型是对 GD 模型的优化。编译器可能会确定变量在要生成的目标文件中是局部绑定或受到保护的。在这种情况下，编译器将指示链接器静态绑定动态的 tlsoffset 并使用此模型。与 GD 模型相比，此模型可提供更好的性能。每个函数只需要调用一次 tls_get_addr() 即可确定 $dtv_{0,m}$ 的地址。进行链接编辑时绑定的动态 TLS 偏移会与每个引用的 $dtv_{0,m}$ 地址相加。

如果链接器确定访问的TLS变量属于本模块（如文件作用域的TLS变量），则采用此模型。TLS变量的偏移值在链接时即可确定，只需要调用__tls_get_addr()确定TLS块的地址即可。由于TLS块的地址可以在不同的本地TLS变量访问时复用，所以相比于GD模型编译器可利用此模型生成有效的代码减少对__tls_get_addr()的调用次数。