1. FastText 概述

首先，我们得搞清楚，FastText 是什么？有的地方说是分类模型，有的地方又将其用于词向量，那么，FastText究竟指的是什么？我搜集资料时发现很多视频的up主都没弄清楚，其实，FastText 的指向有两个模型，一个就是指向的文本分类模型，首先在论文《Bag of Tricks for Efficient Text Classification》中提出，另一个自然就是词向量模型，首先在文章《Enriching Word Vectors with Subword Information》中提出，接下来我们将会介绍一下两种FastText模型，并将其复现。

2. FastText 分类模型

FastText的分类模型具有速度快、精度高的优点，其分类的准确率甚至不输于大型的深度学习模型，但是由于其模型简单，其训练的速度则要比后者快上好几个数量级。

2.1 结构

FastText在模型结构上采用了 $C B O W$ 模型的结构，结构如下：
在这里插入图片描述
其中这里的 $x_1,x_2,\cdots,x_N$ 是输入的词，整个网络与 $C B O W$ 都一样，不同之处主要有以下方面

$C B O W$ 预测的是中心词，FastText最后输出的是各个标签的概率；
FastText 由于面向的是超多分类以及大量数据的情况，所以FastText 最后的输出采用了层级Softmax，大大优化了模型的运行速度

2.2 n-gram

首先要声明，在原论文中，n-gram并不是FastText必要的步骤，仅仅是一个锦上添花的步骤而已，没有n-gram它还是FastText。

引入n-gram首先是为了解决word2vec中的词序问题，比如两个句子“你礼貌吗”和“礼貌你吗”这两个句子仅仅词序不同，但是意思却天差地别，这种情况word2vec是检测不到词序的不同的，由此提出了n-gram。

注意，词分类模型的n-gram的是word级别的，并不是字符级别的，比如，有如下的句子
$\hspace{0.5em}have\hspace{0.5em} an \hspace{0.5em}apple$ 如果n-gram中的 $n = 2$ 时，那么输入其中的句子经过n-gram后被分为以下部分 $\hspace{0.5em}have,have\hspace{0.5em} an,an \hspace{0.5em}apple$ 三个部分，输入也是这三个部分。

尽管如此，还是需要注意一下几个方面：

分类模型的n-gram是word级别的，并非字符级别
n-gram并不是FastText模型中必须的，仅仅是锦上添花
$C B O W$ 和 FastText都是用求和平均值来预测的
词向量初始化都是随机的，FastText 并没有在 word2vec 预训练词嵌入的基础上再训练

3. FastText 词嵌入模型

FastText 模型中也引入了n-gram，n-gram的引入其实是为了解决word2vec忽略词型的问题。比如单词 $e a t, e a t e n$ 其实就是一个单词的不同时态，但是，在不同语境下，其词向量可能会相差特别大，而引入n-gram就是为了能够很好的解决词的形态学方面的问题。

例如一个单词 $n o r m a l$ ，如果使用n-gram，当 $n = 3$ 时，可以将其分为 $n o r, o r m, r m a, m a l$ 四个部分，在使用n-gram时一般会用一个尖括号将单词括起来，表示这个单词的开始和结束，如 $n o r m a l$ 变为 $< n o r m a l >$ ，相应的n-gram也就分为 $< n o, n o r, o r m, r m a, m a l, a l >$ 六个部分，其中每个部分又称为子词。