A comprehensive review of machine learning-based models for fake news detection

Abstract

互联网在假新闻传播中的作用使其成为一个严重的问题，需要复杂的技术来自动检测。为了应对 Facebook、Twitter、Instagram 和 WhatsApp 等社交媒体网站上误导性材料的快速传播，本研究探索了深度学习方法和各种分类策略领域。该研究特别调查了基于 Transformer 的模型（如 BERT、递归神经网络 (RNN) 和卷积神经网络 (CNN)）在虚假新闻检测中的应用。为了为结果提供背景，调查涵盖了假新闻传播的广泛历史和当代趋势。该研究使用严格的标准，包括精确度、召回率和 F1 分数，来评估建议模型的有效性。使用基准数据集验证创建的方法的有效性。这项研究强调了解决日益严重的假新闻问题的紧迫性，特别是因为它涉及到利用假新闻进行心理战和点击诱饵来创收。通过明确评估的方法、持续时间和标准，本研究为当前数字时代消除虚假信息的讨论增添了新的内容。

1 Introduction

由于信息服务器以及流行的社交媒体平台 Twitter、WhatsApp 和 Meta 的发展，信息现在比以往任何时候都更加广泛。这导致了前所未有的数据共享量。用户在社交网站上创建、分享和发布数量空前的内容（SNS）是他们不断参与的结果。由于大量虚假和不相关的内容，人们开始怀疑新闻和信息的真实性。很难自动将书面文章识别为虚假信息。一些新颖的方法需要分析假新闻和真实新闻的有趣共存。即使是主题专家也很难确认文章的真实性；因此，在得出结论之前需要对几个因素进行彻底检查[1]。

虚假信息的迅速传播已成为值得关注的社会问题。找到假新闻背后的真相，以减少其对人民和社会的有害影响，尤其是在人们对解决这一问题的兴趣日益浓厚的情况下。假新闻经常被用来传播不真实或充满谣言的故事来影响人们的观点。真实性和意图是构成虚假新闻定义的两个主要组成部分。由于很难确定阴谋论的真假，因此真实性是指某事物是“真实的”而不是“虚假的”。这个定义排除了大多数阴谋论。第二个要素“意图”，是指虚假信息是为了欺骗读者谋取利益，制造一个吸引多方、大量人群兴趣的舞台。

由于虚假信息的传播，我们的文化变得越来越脆弱。因此，许多数据科学家建议使用深度学习技术、机器学习和数据挖掘模型来确定新闻是否真实。这包括将数据划分为训练集和测试集以及使用文本挖掘技术，这是文本评估的重要组成部分。文本统计对于确定故事的真实性至关重要。 Meta 和其他数字媒体平台等组织已开始研究多种方法来检测和阻止错误信息的传播。在马克·扎克伯格公开否认 Meta 改变选举结果的说法后，这场竞选活动势头强劲。与传统的文本挖掘方法和机器学习技术相比，深度学习和机器学习模型在管理大量数据时表现更好。当前的研究与情感分析和文本分类等领域相关。

机器学习分类算法是识别假新闻的有用工具。检测模型的核心组件基于文本特征，由多种算法支持，可区分真实信息和欺诈内容。为了实现成功的模型检测，必须确定新闻文章中的单词和标记是否对新闻真假的判断产生重大影响。 TF-IDF 矢量化可以帮助完成此任务 [2]。这项研究深入研究了用于识别网络社交网络上的虚假新闻、文本、视频、新闻制作者和主题的概念、方法和算法。该研究旨在通过各种技术来评估其有效性，重点关注手动标记数据集的特定问题。结果证实了机器学习是识别假新闻的关键组成部分的观点。此外，该研究支持创建一个有用的工具，使人们能够区分信誉良好的新闻来源和虚假的新闻来源，并确认新闻来源的真实性 [3]

制作虚假新闻的过程涉及几个步骤，包括操纵材料或内容、将其伪装成真实新闻以及利用社交媒体来引起注意。无论是为了经济利益、报复还是个人恩怨，制造假新闻都非常简单。错误信息常常源于错误或误解。同样，由于技术的发展和社交媒体的广泛使用，误导性信息也很容易传播。用户对传播不准确信息负有主要责任，因为他们积极分享包含误导性信息的帖子并与之互动。随着越来越多的新闻来源传播虚假信息，这种做法仍在继续，从而形成持续传播的循环。

2 Related Work

在 Rosas 等人的工作 [11] 中，包含两个旨在识别虚假信息的新数据集的数据文件被用来检测七个主要领域的不正确信息。他们有两件事可以提供。为了识别虚假信息和真实信息之间的语义差异，他们首先检查数据。其次，他们使用计算机方法来构建假新闻探测器。在本例中，他们将 5 折交叉验证与线性 SVM (LSVM) 分类器结合使用。他们还将虚假新闻检测器的准确性与人类的表现进行了比较，发现人类更擅长发现虚假新闻。因此，该模型在这种情况下表现更好。周等人的目标。 [12] 的目标是创建一种基于理论的算法，在社交媒体网站传播之前优先考虑早期内容识别，以识别虚假新闻。利用这些特征，他们开发了一种监督学习机器学习模型，其中包括描述新闻的风格和结构化特征集。基于真实数据集，测试结果显示准确率为 88%。与此类似，Ahmad 等人[13]提出了用于新闻文章分类的集成机器学习方法。在四个数据集中，他们使用了各种机器学习算法，例如 SVM、MLP、KNN、Ensemble Learners（随机森林、Bagging、Boosting 和投票集成分类器）和基准算法（Perez-LSVM、CNN、Bi-LSTM）网络）。根据研究结果，整体学习者的表现优于个体学习者。

研究由 Khanam 等人、Alwasel 等人、Sirafi 等人和 Rahid 等人完成。他们评估了不同的监督机器学习算法，并测量了其结果的性能指标和预测准确性。使用自然语言处理 (NLP) 进行文本分析（涉及所提供文本数据的标记化和特征提取），确定了模型的准确性。在他们的研究中，使用了六种机器学习算法：XGBoost、随机森林、朴素贝叶斯、KNN、决策树和 SVM。根据研究结果，随机森林和 XGBoost 都产生了相同精度的结果；然而，随机森林的混淆矩阵比 XGBoost 的 [14] 产生更多的假阴性。 Sharma 等人、Saran 等人和 Patil 等人对三篇不同的网络新闻文章进行了二元分类。他们使用静态和动态技术，根据精度和性能图表比较了四种关键算法。他们在静态方法中使用了基于向量的机器学习算法；除了 65% 的更高准确率之外，逻辑回归还产生了更好的精确度、召回率和 F1 分数。此外，他们的研究表明，优化网格搜索参数可以提高逻辑回归的准确性。另一方面，被动攻击在动态方法中达到了惊人的 92% 的准确率 [15]。

Aldwani 等人创建了用于识别和消除包含不准确和误导性内容的网站的工具。该程序会考虑多个网站特征，包括句法结构、标点符号的使用、网站标题中特定单词或短语的频率以及网站特定的元素（如奖金百分比）。奖金率越高，传播虚假信息的概率就越高。他们的研究中使用了四种著名的算法：随机森林、朴素贝叶斯、逻辑回归和贝利网络。根据实验结果，逻辑回归显示出惊人的 99.4% 的准确率。 Logistic分类器具有99.4%的准确率和最好的分类质量，显示出最好的分类分数[16]。 Shu等人的[17]社交媒体假新闻识别的数据挖掘方法从社会理论和心理学的角度对其进行了描述。他们的结论是，用户对误导性信息的广泛接受可归因于两个关键因素：确认偏差和天真的现实主义。他们提出的用于数据集分析和虚假新闻识别的两步数据挖掘方法使用混淆矩阵和特征提取。

与此类似，Gahirwal 等人。 [18]建议使用 F 分数将假新闻分类为不同的组。使用两种方法来分析数据：文档相似度（id-if）和立场检测，将文章分为几个类别，并为每个类别赋予权重，并比较文档和搜索结果之间的相似度。然后，他们根据 F 分数值，使用随机森林将新闻分为四类：真、假、主要为真和大部分为假。 Rubin 等人将 SVM 技术和五种预测特征（荒谬性、语法幽默、负面影响和标点符号）应用于一组新闻项目。 [19]开发了一种机器学习模型。该算法能够预测喜剧、反讽和讽刺的存在，准确率为 87%。本着类似的精神，库达里等人。 [20]创建了一项研究，利用差异特征的比较分析来识别假新闻和真实新闻。他们使用 TF-IDF 矢量器和计数矢量器来创建被动攻击分类器和朴素贝叶斯分类器。研究结果表明，TF-IDF 和被动攻击矢量化器运行良好，该模型的准确率达到 90%。

3 Detecting Fake News

人们已经提出了许多方法来识别虚假新闻，使用机器学习算法进行二元分类来辨别已更改的内容和真实的内容。真实新闻和假新闻都包含在检测方法所使用的数据集中。为了从数据集中提取相关内容，需要进行预处理。检测阶段使用SVM（支持向量机）、随机森林、决策树、逻辑回归等分类方法。然后，计算这些算法的预测和准确性，并使用分类报告和混淆矩阵等指标评估其有效性.

3.1 Detection Method

社交媒体平台的全球采用加速了虚假信息的传播。在全球范围内，这些平台上提供的信息的数量和种类产生了重大影响，其中包括机器人真实的和欺诈的东西。因此，技术专家、数据科学家和研究人员正在共同努力检测和阻止社交媒体平台上的虚假新闻。传统的自动谣言识别技术通常准确性较低，因为它们依赖于人类特征。但随着技术的发展，人们开始转向更先进的方法，例如深度学习策略。在内容和社会环境的更大框架内，本节探讨了检测假新闻的一些现代方面。

3.1.1 Content-Based Detection

通过新闻报道的内容分析，基于内容的数据可用于识别传播不正确信息的尝试[3]。文本和图像可以包含在新闻报道等组件中。为了检测假新闻，研究人员经常使用专注于隐藏[4,5,6,7,8,]或手动创建的内容元素[10]的自动技术。这种方法需要仔细检查文本以辨别准确和不准确的信息。

3.1.2 Knowledge-Based Detection

事实核查是基于知识的策略的一个组成部分，其重点是通过将其与外部来源的信息进行对比来确认事实以评估主张的真实性。事实检查可以自动或手动完成。手动验证事实：

基于专家：此策略取决于主题专家，他们根据特定领域的知识做出选择。尽管值得信赖，但其耗时的特性使得有效管理社交媒体上的大量内容变得困难。众包：利用人群，以这种方式验证新闻报道的准确性。众包比基于专家的验证更有效，尽管它可能难以管理，并且注释可能有偏见和不一致。尽管众包被认为不太安全，但由于其广泛的贡献者基础，它提供了更大的覆盖范围。自动科学事实检查：社交媒体网站上创建的大量材料带来了一个困难，可以通过自动事实检查来扩大规模。该方法利用了数据挖掘、深度学习、机器学习、自然语言处理（NLP）和网络/图论等尖端技术。与依赖于认知过程的人类事实检查不同，自动事实检查使用计算机技术来确定信息的准确性。这使得有效处理大量数据集并快速识别误导性或不真实的陈述成为可能。自动事实核查过程有两个步骤：

事实或信息的提取：构建知识库并编译事实数据是此阶段的任务。检查或分析事实：它将事实与知识库进行比较，以确定信息的准确性。它使用数据/图形库和网络浏览器来评估某篇文章的准确性。由于假新闻的合法来源本质上是混乱的、非结构化的、无标签的、零散的和杂乱无章，自动检测困难。

3.1.3 Style-Based Detection

基于风格的方法使用内容分析来检测假新闻，就像基于知识的方法一样。但它的不同之处在于，它非常重视通过检查出版商或作者误导公众和欺骗观众的意图来确定信息的真实性。基于风格的方法检查特定的语言特征，例如在标题中使用大写术语以使其与众不同、专有名词的使用增加以及停用词的使用减少。该技术旨在通过考虑真实用户和可疑帐户写作风格的独特特征来区分真实用户和可疑帐户，从而有助于识别谣言或不准确的信息。

3.1.4 Linguistic-Based Detection

基于语言的检测使用分析技术检查统计和上下文数据，以发现真实新闻和虚假新闻之间的共同差异。这种方法的主要目标是识别和匹配与语法、语法和词汇等重要语义属性相关的特征。为了提高准确性，还必须手动检查新闻内容。

3.1.5 Visual-Based Detection

基于视觉的检测背后的理论是，视觉内容经常充当证据，提高新闻广播的准确性 [2]。因此，虚假信息的制造者经常使用引人注目的图像来吸引和误导观众。该方法分析新闻内容附带的视觉成分，以检测欺骗性信息，承认视觉效果在塑造公众认知中发挥的重要作用。

3.1.6 Social-Context-Based Detection

在社会分析的背景下，植根于社会背景的方法论侧重于三个基本要素：用户的个人资料、用户的帖子和反馈以及网络的结构。这种方法深入了解信息传播随时间的动态，提供系统且有价值的见解，以确定信息内容的真实性和结构方面。对这三个关键组成部分的检查有助于全面了解多年来信息如何激增，为评估信息内容的可信度和组织提供有价值的细节。

3.1.7 Network-Based Detection

为了检测虚假新闻，对 Facebook 和 Twitter 等各种社交媒体平台的调查需要调查发帖-转发和转发的运作方式。推文-转发网络以建立更牢固的关系。该策略旨在识别传播虚假信息的人，理清广播公司之间的联系，并了解虚假信息如何在社交媒体网站上传播。在社交媒体网站上，用户经常根据共同的兴趣和特征创建大型网络，作为信息共享的渠道。

3.1.8 Frequently Based Detection

在线新闻不断变化，当其中包含虚假信息或歪曲事实时，常常呈现出超现实的品质。当新闻报道首次发布后谣言不断传播时，就会出现这种情况。了解谣言的生命周期是更好地理解这一特殊现象的一种方法。

3.2 Fake News Dataset

几位分析师和数据科学家就这一主题编制了许多有关互联网平台上虚假新闻的数据文件。其中一些数据集已向公众开放，并被视为假新闻的标准。本节概述了可供公众使用的数据文件，以及每个文件的说明。下表列出了当前可访问的假新闻数据集。

3.3 Fake News Diagnosis Techniques

假新闻的识别涉及采用各种技术来提取信息数据或特征以预测新闻文章。其中一些技术包括：

3.3.1 Removing The Stop-Words

停用词通常用于连接语言中的单词，在句子中传达时态信息。然而，删除它们并不会显着影响句子上下文的理解。

3.3.2 Tokenization

标记化涉及将文本分成更小的部分。在自然语言处理（NLP）中，句子中的单词、特殊字符和数字被表示为标记。

3.3.3 Vectorization

单词预测和单词相似性或含义搜索是向量化的两个典型应用，即单词到其对应的实际向量的映射。重要的向量化器包括：

计数向量化器：通过计算文档中标记的实例来确定权重。这是一种简单易用的方法。

哈希向量化器：通过将标记编码为数字索引而不是将其保留为文本，哈希算法可以最大限度地提高内存效率。矢量化后无法恢复特征名称是一个缺点。 TF-IDF 矢量化器：术语频率-逆文档频率是 TFIDF 的缩写。

TF-IDF 根据术语在整个语料库中出现的频率对每个标记进行最佳加权，而不是仅考虑短语在文档中的频率。

4 Natural Language Processing (NLP)

自然语言处理（NLP）是计算机科学的计算分支，涉及理解、产生、分析和修改人类语言。其主要目标是创建能够阅读文本并执行操作的机器诸如拼写检查、连字符和翻译等活动。 NLP 使用两种基本方法来帮助计算机理解文本：

句法分析：是通过使用语法规则解析或分析文档来识别句子模式、单词结构和单词关系的过程。

语义分析：语义分析的目标是理解单词的含义。它首先查看单个单词的含义（词汇语义），然后查看单词在组合时以及在其上下文中变得有意义的方式（上下文语义）。

5 Artificial Intelligence

机器学习正在许多不同领域引起重大变化。它影响着很多不同的事情。它是一种自行创建分析模型的数据分析方法。基于机器可以看到数据模式并从中学习的想法，它可以更轻松地创建决策模型，而无需人类的参与。为此，机器学习算法用于提取知识并实时生成数据驱动的预测。

以下关键操作是机器学习工作流程的一部分，如图 1 所示：

图 1. 机器学习工作流程

数据集：获取与当前问题相关的最新信息。使用该数据集作为基础来训练和评估机器学习模型。

数据预处理：应对数据集进行清理和处理，以保证数据质量并消除任何不规则之处。在开始模型训练过程之前，从数据集中收集相关且有用的数据。

建模：要训练模型，请应用机器学习方法。为了帮助模型找到数据中的模式和关系，这需要将预处理的数据拟合到所选算法中。

模型评估：使用多种性能评估标准，评估训练后模型的准确性和预测性能。了解模型如何有效地推广到新的、未经测试的数据取决于这个阶段。

实施：模型经过训练和评估后，进行部署，以便最终用户可以使用它。为了使模型能够实时产生预测，必须将其集成到生产环境中。这些操作共同创建了一个标准化程序，可用于创建、评估和实施机器学习模型。该过程保证了模型高效、精确，并为在现实世界中的应用做好了准备。

机器学习类型：

监督学习：在监督学习中使用标记结果和分类输入数据来训练人工智能模型。通过使用具有已知标签的训练示例集合，该算法能够将输入特征转换为适当的输出。

无监督学习：使用人工智能算法，无监督学习可以在大数据集中找到模式，而无需标记或分段数据。在不使用预先建立的类别的情况下，程序可以找到数据中的链接或底层结构。

半监督学习：半监督学习将无监督和监督学习组件结合起来。它利用大量未标记数据和少量标记数据。通过这种方法，两种学习范式的优点结合在一起，并且没有获得大量标记数据的困难。

强化学习：一种称为强化学习的机器学习训练技术通过奖励良好行为和惩罚不良行为来训练模型。为了优化累积奖励，算法在给定环境中尝试不同的操作，从结果中学习，并修改其方法。这些小组展示了许多训练机器学习模型的方法，每种方法都适合特定的应用和情况。

5.1 Machine Learning Algorithms

决策树：可用于分类和回归的机器学习方法称为决策树分类器。它的工作原理是根据预定标准逐渐将数据集分割成更易于管理的子集，创建类似于树的结构。该配置的组成部分包括表示数据属性的节点、表示决策环境的分支以及表示最终结果的叶节点。

结构：树由叶子、分支和内部节点组成，每个节点在决策过程中发挥不同的作用。操作：决策树通过应用从训练数据导出的条件或规则，递归地划分数据集以产生可能的结果。

表示：决策树提供了决策过程的清晰、简洁的视觉描述，有助于理解和解释。

训练：算法通过从训练数据中学习条件和规则，获得识别数据集中的模式和相关性的能力。由于其易用性、可解释性以及管理复杂选择场景的效率，决策树受到高度重视。它们在各个领域都很有用，可以提供看法并支持决策者理解复杂的决策程序。

随机森林：随机森林分类器（一种监督机器学习方法）使用决策树集合来解决回归和分类问题。它使用每棵树的特征子集，将发现结合在一起，并以其在管理各种数据集、最大限度地减少过度拟合和生成可靠预测方面的适应性而闻名。

部署随机森林：从具有 k0 条记录的数据集中随机选择 n 条记录。为每个记录创建一个决策树，观察其输出。聚合所有决策树的输出，获得分类问题的多数票，或回归的平均值。这个集体结果作为最终输出。

图 2. 随机森林的工作原理

支持向量机 (SVM)：支持向量机 (SVM)（一种监督机器学习技术）的一种流行用途是用于回归和分类。通过这种技术在 n 维空间中绘制数据项，其中 n 是特征的数量。属性的值决定了每个数据项的位置。 SVM 通过使用超平面将数据点分为两组来寻找最准确的解决方案。当考虑不同类数据点之间的最大距离时，理想超平面具有最高的余量。实现过程需要创建多个超平面并选择最佳的一个来有效地划分类别。

K 最近邻 (KNN)：一种称为 K 最近邻 (KNN) 的监督机器学习方法用于解决分类问题。从根本上讲，该技术基于“附近存在相似对象”的思想，这表示那些相似对象位于附近。首先，将训练集的数据项绘制在平面上，然后根据预定的特征分为不同的组。随后，测试集数据项同样显示在同一平面中。 “K”的值或点之间的距离决定了如何将数据点分割成不同的簇。测试数据点的最终预测是取决于它们所属的集群；类似于检测到的簇的值将分配给测试数据点。

6 Conclusion

该研究分析了社交媒体上日益频繁的虚假信息，以及新闻消费模式远离传统媒体的变化。它研究了旨在促进准确信息的技术，并全面概述了过去十年创建的虚假信息检测方法，特别强调机器学习算法。该研究强调了虚假信息对民主和言论自由构成的重大威胁，并强调了检测误导性信息的有效模型的重要性。它建议将人工智能（即机器学习算法）纳入其中，作为处理虚假信息问题的关键一步。该论文还声称，将机器学习与自然语言处理（NLP）等技术相结合可以提高整体检测性能。报告建议，未来的研究应侧重于该领域的新颖方法和发展，特别强调计数矢量化器和 TF-IDF 等技术的改进。这些策略在提高假新闻检测的准确性方面显示出了希望。研究结果强调了机器学习和相关技术之间持续合作对于解决数字时代持续存在的错误信息问题的重要性。