Claude3.5 Sonnet模型评测(附使用方法)

news2024/11/15 13:45:45

随着模型的发展,之前大家常用的鉴别模型能力的测试已经有很多过时现象,比如经典的喝水测试,目前国内的先进模型也已经可以答对,我们需要更复杂的问题来测试模型能力,最近有研究人员发现,大模型不会比较浮点数字,「13.11>13.8」冲上热搜,一道题让人类AI集体降智?。所有国产模型和国外模型,对这道简单的数学题都很头疼,已经过去一个月了,我们来测试下最新的Claude3.5和GPT4o,有没有解决掉这个问题。可以看到Claude 3.5已经可以正确的回答,但GPT4o还是不行。

Claude 3.5 Sonnet

GPT-4o

我们再看下模型幻觉方面,大模型现在面临着最具挑战的问题之一就是模型『幻觉』问题,这主要原因是现在的模型基于概率模型,会容易做出『无中生有』的答案,就是模型很难『知道自己不知道』,这也是现在大模型在一些复杂应用中无法落地的原因之一,我们需要知道模型的边界在哪里。这里我们就以一道背诵歌词的测试题,来看下模型的幻觉能力。『周杰伦《枫》的歌词是什么』

GPT-4o

GLM4

Claude 3.5 Sonnet

这里先测试了GPT4o,可以看到模型给出的歌词的第一句还是对的,后面就开始编造了,但整体的寓意还比较接近,GPT4o像是记住了一点歌词的大意。有些同学会说,国产模型在中文上效果应该更好,更了解中国文化,所以我这里测试了下国产的领先模型GLM4,结果并不如预期,整个歌词完全是GLM4闭眼创作,画风全变。最后我们再看下Claude 3.5,模型给出了『不知道』的答案,并且给出了歌词的大意和表达。是一个非常难得的答案,Claude模型在不知道或者不该回答的场景下,完美避开了模型的幻觉问题。

我们再看下文章写作方面,现在很多模型的写作内容都AI味很重,容易一眼看出是空洞的文章,这里我们对标下Claude3.5 和GPT4o的写作风格。我们同样对一段文章进行仿写,希望按照头条的风格去改写,我们看下两者的对比

Claude 3.5 Sonnet

GPT-4

可以看出,非常明显的对比结果,Claude的仿写内容更加细腻,表达中使用了非常多人性化表达方式,并且会在内容中加上类似『有用户反馈』这样的表述,让内容更加符合新闻的写作风格。相比GPT4就是更中规中矩的仿写表达,与原文的差距不大。

尽管在国内使用Claude存在显著挑战,但通过选择合适的工具和方法,用户仍然可以实现较为顺畅的使用体验。在最后推荐一个Claude五魔方使用方案,对于最新的先进模型都可以无痛使用。

Claude 3.5 入口icon-default.png?t=N7T8https://aibox365.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093334.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作符详细解析

操作符详解 文章目录 操作符详解1.操作符分类2.算数操作符3.移位操作符3.1整型二进制的表示3.1.1整数二进制的种类3.1.2二进制原码反码补码的表示 3.2移位运算符使用规则3.2.1正数的左移运算符 3.2.2负数的左移运算符3.2.3右移操作符3.2.3.1右移运算符的两种形式:3.…

使用WSL在Windows上安装Linux

文章目录 环境步骤参考 注:WSL是“Windows Subsystem for Linux”的缩写,即“适用于 Linux 的 Windows 子系统”,说白了就是在Windows系统里直接使用Linux,而不需要VMWare等虚拟软件。 环境 Windows 11 家庭中文版 步骤 首先&…

DORIS - DORIS简介

前言 本博文基于DORIS的2.1.5版本。apache-doris-2.1.5-bin-x64.tar.gz 是什么? DORIS官网 Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的…

迅为2K1000开发板流畅运行Busybox、Buildroot、Loognix、QT5.12 系统

硬件配置 国产龙芯处理器,双核64位系统,板载2G DDR3内存,流畅运行Busybox、Buildroot、Loognix、QT5.12 系统! 接口全板载4路USB HOST、2路千兆以太网、2路UART、2路CAN总线、Mini PCIE、SATA固态盘接口、4G接口、GPS接口WIF1、蓝牙、Mini HD…

leetcode72. 编辑距离,二维动态规划

leetcode72. 编辑距离 给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作: 1.插入一个字符 2.删除一个字符 3.替换一个字符 示例 1: 输入:word1 “horse”,…

nvm使用详解

在开发时采用nodejs环境的时候有时会遇见版本过新项目不匹配的情况这时的话重新下载过于麻烦,一个项目一个开发环境肯定不现实 这时我推荐一款nodejs管理器nvm 官网如下nvm文档手册 - nvm是一个nodejs版本管理工具 - nvm中文网NVM中文网:nvm一个nodejs的版本管理工具,为wind…

使用docker file创建镜像(thirty-seven day)

回顾:根据镜像创建容器 docker -it --name c0 centos:latest /bin/bash安装应用ctrlpqdocker export -o centos.tar c0docker import -m "山不像我走来,我便向山走去" centos.tar centos:httpddocker commit c0 centos:v2 一、docker file应…

Oracle 客户端 PL/SQL Developer 15.0.4 安装与使用

目录 官网下载与安装 切换中文与注册 连接Oracle数据库 tnsnames.ora 文件使用 Oracle 客户端 PL/SQL Developer 12.0.7 安装、数据导出、Oracle 执行/解释计划、for update。 官网下载与安装 1、官网:https://www.allroundautomations.com/products/pl-sql-d…

uni-app 微信小程序开发安装配置 HbuilderX 微信小程序开发工具

安装HbuilderX 官网下载: https://www.dcloud.io/hbuilderx.html 编译器用来编写小程序代码 微信小程序开发工具 官网下载:https://developers.weixin.qq.com/miniprogram/dev/devtools/stable.html 用于小程序的页面调试 创建项目 HbuilderX创建项目…

找单身狗(c语言)

1./找单身狗 //在一个数组中只有两个数字出现一次,其他所以数字都出现了两次 //编写一个函数找出这两个只出现一次的数字 2.方法一:暴力求解,我们用冒泡函数,进行比较如果ij,那么n,如果n1,那么我们将他存储在arr2[]&a…

C++编程语言——基础设施:指针,数组和引用

指针,数组和引用 (Pointers, Arrays, and References) 目录 7.1 引言 7.2 指针 7.2.1 void* 指针 7.2.2 nullptr 指针 7.3 数组 7.3.1 数组初始化 7.3.2 字符串文字量 7.3.2.1 原字符串(Raw Character Strings) 7.3.2.2 大字符集(Larger Charac…

Multi-UAV|多无人机、多场景路径规划MATLAB

无人机(Unmanned Aerial Vehicle,UAV) 是一种无需机载驾驶员的半自主飞行器,由于其灵活度高、机动性强等特点,目前已广泛应用于民用和军用领域,如救援、农业、 输电线路巡检等。但在实际应用中,单个UAV难以应对任务点分…

看github源码必备的chrome插件

Web Activity Time Tracker 一个记录github等各个网站的阅读时长 长这样 GitHub Web IDE 一个方便打开github的各种web IDE,最后一个选项Clone in VScode 一键克隆到本地并打开非常省事 Elmo Chat - Your AI Web Copilot 一键总结项目内容,打开web i…

Datawhale X 李宏毅苹果书 AI夏令营 入门 Task2-了解线性模型

目录 线性模型分段线性曲线模型变形 线性模型 输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型。 分段线性曲线 线性模型有很大的限制,这一种来自于模型的限制称为模型的偏差,无法模拟真实的…

网络压缩之参数量化(parameter quantization)

参数量化(parameter quantization)。参数量化是说能否只 用比较少的空间来储存一个参数。举个例子,现在存一个参数的时候可能是用64位或32位。 可能不需要这么高的精度,用16或8位就够了。所以参数量化最简单的做法就是&#xff0c…

智慧党建解决方案

1. 新时代党建工作背景 报告强调了新时代党建工作的重要性,提出要利用互联网、大数据等新兴技术推进智慧党建,提高党的执政能力和领导水平。 2. 基层党组织建设挑战 基层党组织在日常工作中面临组织管理难、过程监管难、宣传教育难等问题,…

基于yolov8的人头计数检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的人头计数检测系统是一种利用深度学习技术的先进解决方案,旨在实现高效、准确的人头计数功能。该系统以YOLOv8为核心算法,该算法是YOLO系列中的最新迭代,以其卓越的实时检测性能和准确性著称。 该系统通过复杂的网…

pip+代理

在cmd中使用代理时执行pip指令下载包时, 会报错 WARNING: Retrying (Retry(total4, connectNone, readNone, redirectNone, statusNone)) after connection broken by SSLError(SSLEOFError(8, EOF occurred in violation of protocol (_ssl.c:1131))): /simple/op…

day-45 全排列 II

思路 与上一题思路相同,代码也基本一致,只是需要全排列不重复 解题过程 可以利用Arrays.sort()函数将nums数组进行排序,这样相同的全排列数字的位置也会相同,可以利用List的contains()函数进行判断,如果不重复则加入答…

【CSS】border-image 样式不生效 - 和谷歌浏览器版本有关系 - 谷歌 80 版本边框图片样式失效问题

目录 问题解决 问题 使用边框图片时,部分谷歌浏览器版本中边框图片不生效 边框图片样式代码 border-image-source: url(img/dialog-bg.40ddf10d.png); border-image-slice: var(--topSlice) 50 var(--bottomSlice) 330; border-image-repeat: stretch; border-im…