卡罗尔数
难度:白银
0时间限制:1秒
巴占用内存:64M
卡罗尔数是其值满足4n-2(n+1)-1的整数(n为正整数)。输入正整
数N判断它是不是卡罗尔数,输出YES或者NO。
#include <bits/stdc++.h>>
using namespace std;
int main(){
int n;
cin >>n;
if((n+3) % 2 == 0){
cout <<"YES";
}
else cout <<"NO";
return 0;
}
假设我们有下面这段文字。我们要检查它是否由GPT-2这样的语言模型生成:
How much wood would a woodchuck chuck if a woodchuck could chuck wood?
GLTR将接受这个输入并分析GPT-2对每个输入位置的预测。
请记住,语言模型的输出是该模型知道的所有单词的排名,因此,我们根据GPT-2的排名将能够迅速查看输入文本中每个单词。
如果我们根据每个单词在前10名中是否是绿色、前100名中是否是黄色和前1000名中是否是红色对其进行颜色编码,我们将得到以下输出:
现在,我们可以直观地看到,根据GPT-2,每个单词的可能性有多大。根据模型,绿色和黄色是很有可能的,而红色是意料之外的词,这意味着它们很可能是由人类书写的。这正是你将在GLTR接口上看到的!
如果你需要更多的信息,你可以把鼠标悬停在“wood”这个词上。你会看到一个小盒子,上面有这个位置的前5个预测词及其概率:
我鼓励你尝试不同的文本,可以是人类产生的或者机器产生的。GLTR工具本身也已经提供了一些示例:
你会注意到,当你移到真正的文本时,红色和紫色的单词数量,即不太可能或罕见的预测,会增加。
此外,GLTR还显示了三种不同的直方图,其中包含整个文本的聚合信息(请查看下面的图片以供参考):
第一个显示每个类别(前10个、前100个和前1000个)在文本中出现的单词数
第二个例子说明了前一个预测词和后一个预测词的概率之比
第三个直方图显示了预测熵的分布。低不确定性意味着模型对每个预测都非常有信心,而高不确定性意味着低信心
以下是这些直方图的帮助:
前两个柱状图有助于理解输入文本中的单词是否从分布的顶部取样(对于机器生成的文本,基本上就是从分布顶部采样)
最后一个直方图说明单词的上下文是否为检测系统所熟知(对于机器生成的文本,基本上就是熟知)
GLTR模型将这些多重可视化和概率分布知识结合起来,可以作为一种有效的法医学工具来理解和识别机器生成的文本。
以下是对GLTR的报道:
“在一项人类受试者研究中,我们发现GLTR提供的注释方案在不经过任何训练的情况下将人类对假文本的检测率从54%提高到72%。”–Gehrmann等人
你可以在最初的研究论文中关于GLTR的内容:https://arxiv.org/pdf/1906.04043.pdf。
利用模型检测神经假新闻
GLTR是相当令人印象深刻的,因为它使用概率分布和可视化的简单知识来检测神经假新闻。但如果我们能做得更好呢
如果我们能训练一个大的模型来预测一段文字是否是神经假新闻呢?
好吧,这正是我们在这一节要学的
GPT-2 探测器
GPT-2检测器模型是一个RoBERTa(BERT的变种)模型,它经过微调以预测给定的文本是否是使用GPT-2生成的(作为一个简单的分类问题)。
RoBERTa是Facebook人工智能研究开发的一个大型语言模型,是对Google的BERT的改进。这就是为什么这两个框架有很大的相似之处。
这里需要注意的一点是,尽管RoBERTa的模型结构与GPT-2的模型结构非常不同,因为前者是一个屏蔽语言模型(如BERT),与GPT-2不同,前者在本质上不是生成的。GPT-2在识别由它生成的神经假新闻方面仍然显示了大约95%的准确性。
这个模型的另一个优点是,与我们在本文中讨论的其他方法相比,它的预测速度非常快。
让我们看看它!
安装GPT-2探测器模型
这个探测器模型的安装步骤非常简单,就像GLTR一样。
我们首先需要克隆存储库:
git clone https://github.com/openai/gpt-2-output-dataset.git
然后
cd gpt-2-output-dataset/ && pip install -r requirements.txt
接下来,我们需要下载预训练好的语言模型。通过运行以下命令执行此操作:
wget https://storage.googleapis.com/gpt-2/detector-models/v1/detector-base.pt
这一步可能需要一些时间。完成后,你可以启动探测器:
python -m detector.server detector-base.pt --port 8000
————————————————
版权声明:本文为CSDN博主「磐创 AI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/fendouaini/article/details/106744426