OpenAI o1 Review 大模型PHD水平数理推理能力 OpenAI o1 vs GPT4o vs Gemini vs Claude

news2024/12/26 11:06:20

1. 介绍

OpenAI昨天发布了o1推理优化的大模型,利用了CoT (Chain of Thought) 思维链推理机制,提升了针对数学/物理/编程/逻辑等复杂问题的推理能力。OpenAI官方网站评测 OpenAI o1大模型对比GPT4o的数学、编程能力有显著提升。我们利用DeepNLP的AI Store提供的大模型对比评测能力,对比了 OpenAI o1 模型、GPT4o、Gemini、Claude在相同问题上的回答,评测结果可以访问网站查看,下面可以会具体介绍。

https://medium.com/@rockingdingo/2024-chatgpt-vs-gemini-vs-claude-for-math-ai4science-skill-reviews-566df2c9ecdd

https://medium.com/@rockingdingo/2024-chatgpt-vs-gemini-vs-claude-for-math-ai4science-skill-reviews-566df2c9ecdd
 

2.评测

数学能力

## Math Problem

1. Let n be an even positive integer. Let p be a monic, real polynomial of degree 2n; that is to say, p(x)=x^{2n} + a_{2n-1}x^{2n-1} + ... + a_{1}x+ a_{0} for some real coefficients a_{0}, a_{1}, ..., a_{2n-1}. Suppose that p(1/k) = k^{2} for all integers k such as 1<=|k|<=n. Find all other real numbers x for which p(1/x)=x^2.

2.  Let $X$ be a topological vector space. All sets mentioned below are understood to be the subsets of $X$. Prove the following statement: If $A$ and $B$ are compact, so is $A + B$

3.  What's the differentiation of function f(x) = e^x + log(x) + sin(x)?

4. what's the solution x of equation x^2+5x+6=0?

代码能力

### Coding Prompt

1. Implement LLM LLaMa Architecture in python code using pyTorch library, Then use distilling techniques to distill a large LLaMa model (large than 70B) to a small student model, with size limit to 2B. Please think step by step and provide details of the model code.

2. Write front end code of the login and logout pages for H5 mobile application usage. Split the code in separate files for css, html, and js.

3. Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

website地址: 

OpenAI o1 Review

3.评测结果

3.1 OpenAI o1 Math Review 数学能力评测

地址:

OpenAI o1 Reviews for Math Reasoning Ability

3.2 OpenAI o1 Code Review 代码能力评测

地址: 

OpenAI o1 Reviews for Code Reasoning Ability from OpenAI o1, Genuine Reviews, Ratings and Questions

4. 能力对比 AI Tools Compare

4.1 OpenAI o1 VS GPT4o for Code

地址:

OpenAI o1 vs ChatGPT for code Comparison

4.2 OpenAI o1 vs Gemini for code

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-gemini-google?tag=code

4.3 OpenAI o1 vs Claude for code
地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-claude-anthropic?tag=code

4.4 OpenAI o1 vs ChatGPT for math 

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-chatgpt-openai?tag=math

4.5 OpenAI o1 vs Gemini for math

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-gemini-google?tag=math

4.6 OpenAI o1 vs Claude for math

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-claude-anthropic?tag=math

5. 相关阅读

http://www.deepnlp.org/store/image-generator
http://www.deepnlp.org/store/chatbot-assistant
http://www.deepnlp.org/store/productivity-tool
http://www.deepnlp.org/store/video-generator
http://www.deepnlp.org/store/science
http://www.deepnlp.org/store/productivity-tool
http://www.deepnlp.org/store/pub
http://www.deepnlp.org/store/embodied-ai
http://www.deepnlp.org/store/quadruped-robot

http://www.deepnlp.org/store/humanoid-robot
http://www.deepnlp.org/store/pub
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2132120.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024.9.13 Python与图像处理新国大EE5731课程大作业,SIFT 特征和描述符,单应性矩阵透视变换

1.SIFT特征点和描述符 import cv2 import numpy as np import matplotlib.pyplot as plt # read image img cv2.imread(im01.jpg,cv2.IMREAD_COLOR) gray cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) plt.imshow(gray,plt.cm.gray)提取图片&#xff0c;以灰度图像输出 #SIFT sift…

【免费分享】OpenHarmony鸿蒙物联网开发板资料包一网打尽,附教程/视频/项目/源码...

想要深入学习鸿蒙设备开发及鸿蒙物联网开发吗&#xff1f;现在机会来了&#xff01;我们为初学者们准备了一份全面的资料包&#xff0c;包括原理图、教程、视频、项目、源码等&#xff0c;所有资料全部免费领取&#xff0c;课程视频可试看&#xff08;购买后看完整版&#xff0…

带你深入了解C语言指针(二)

目录 前言一、数组名的理解二、使用指针访问数组三、⼀维数组传参的本质四、冒泡排序五、二级指针六、指针数组七、 指针数组模拟⼆维数组总结 前言 前面我们基本了解了C语言指针的概念&#xff0c;也初步开启了指针的用处&#xff0c;这期我们主要围绕数 组展开&#xff0c;也…

学生请假管理系统

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 学生请假管理系统拥有两种角色 管理员&#xff1a;班级管理、课程管理、学生管理、审核请假信息、导出请假单 学生&#xff1a;填写请假单、查看请假审核情况 1.1 背景描述 学生请假管…

GIS应届生不考研,不考公,不考编,未来要怎么安排?

01 考公考研or就业 一直以来&#xff0c;大学生毕业去向的话题就居高不下。 近日&#xff0c;便有“不考研不考公&#xff0c;未来要怎么样&#xff1f;”的话题&#xff0c;出现在某社交媒体热榜&#xff0c;迅速引起54.5万人围观。 国内本科毕业后大学生的出路无外乎&…

什么空气净化器可以除猫毛?范罗士、希喂、小米、IAM、安德迈横测谁是毛克星

秋季掉毛季来咯&#xff0c;每入掉毛季&#xff0c;我们医院鱼油销量都暴涨。都是被家里猫猫、狗狗掉毛折腾得没办法了&#xff0c;想喂点鱼油&#xff0c;减少点掉毛。鱼油含有丰富的Ω-3&#xff0c;能够调节皮脂分泌&#xff0c;减轻炎症反应。平时喂点对宠物身体是有好处的…

矩阵引流助手有试用吗

矩阵引流助手有试用吗 还在为内容和流量曝光发愁吗&#xff1f;来了解一下矩阵工具让你事半功倍 #矩阵工具 #矩阵管理 #矩阵引流 推荐阅读&#xff1a; 短视频代运营代发 短视频代运营代发帖https://www.bsw80.com/post/111.html 抖音通过矩阵获客&#xff0c;我告诉大家新上…

Qt/C++ 了解NTFS文件系统,解析盘符引导扇区数据获取MFT(Master File Table)主文件表偏移地址

系列文章目录 一、Qt/C 了解NTFS文件系统&#xff0c;了解MFT(Master File Table)主文件表&#xff08;一&#xff09; 二、Qt/C 了解NTFS文件系统&#xff0c;解析盘符引导扇区数据获取MFT(Master File Table)主文件表偏移地址 目录导读 系列文章目录前言BOOTICE工具介绍读取…

防止文件外发泄密有什么方法?这7防外发方式可以看下!

防止文件外发泄密有什么方法&#xff1f; 一、使用防泄密软件外发&#xff1a;可对发送的文件进行权限设定。接收&#xff1a;可查看次数、可查看时间复制、修改、打印、外发受到限制。文件外发控制&#xff1a;以对外发的文件进行权限设定&#xff0c;如可打开的次数、可打开时…

基于JavaWeb开发的java ssm springboot+VUE疫情防疫系统系统前后端分离设计和实现

基于JavaWeb开发的java ssm springbootVUE疫情防疫系统系统前后端分离设计和实现 &#x1f345; 作者主页 网顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取…

【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程

【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转on…

文件系统(磁盘 磁盘文件 inode)

文章目录 磁盘看看物理磁盘磁盘的存储结构 对磁盘的储存进行逻辑抽象inode号文件名 -> inode判断文件在哪个分区 磁盘 电脑中存在非常多的文件&#xff0c;被打开的文件只是少量的。 没有被打开的文件&#xff0c;在磁盘中放着&#xff0c;那么文件是如何存取&#xff1f; …

Unity 之 【Android Unity FBO渲染】之 [Unity 渲染 Android 端播放的视频] 的一种方法简单整理

Unity 之 【Android Unity FBO渲染】之 [Unity 渲染 Android 端播放的视频] 的一种方法简单整理 目录 Unity 之 【Android Unity FBO渲染】之 [Unity 渲染 Android 端播放的视频] 的一种方法简单整理 一、简单介绍 二、FBO 简单介绍 三、案例实现原理 四、注意事项 五、简…

深度盘点PLM 项目管理系统哪家强?优缺点一目了然!

本文将盘点10款知名的PLM 项目管理系统&#xff0c;为企业选型提供参考&#xff01; 想象一下&#xff0c;在一个企业的产品研发过程中&#xff0c;各种数据、文档四处散落&#xff0c;不同部门之间沟通不畅&#xff0c;项目进度难以把控。这时&#xff0c;PLM 项目管理系统就如…

在线压缩图片地址

https://squoosh.app/editor这个是免费的&#xff0c;并且不限制图片数量 https://tinypng.com/ 这个限制图片的大小&#xff0c;如果单张图片超过5M需要收费 https://www.jpeg-optimizer.com/ https://imagecompressor.com/

再次进阶 舞台王者 第八季完美童模全球赛形象大使【于洪森】赛场秀场超燃合集!

7月20-23日&#xff0c;2024第八季完美童模全球总决赛在青岛圆满落幕。在盛大的颁奖典礼上&#xff0c;一位才能出众的少年——于洪森&#xff0c;迎来了他舞台生涯的璀璨时刻。 形象大使——于洪森&#xff0c;以璀璨童星之姿&#xff0c;优雅地踏上完美童模盛宴的绚丽舞台&am…

WPF实现Hammer 3D入门学习

代码下载&#xff1a;https://download.csdn.net/download/bjhtgy/89748674

springboot Web基础开发

Spring Boot 是一个用于简化 Spring 应用开发的框架&#xff0c;它通过自动配置和开箱即用的功能&#xff0c;使得创建和部署 Spring 应用变得更为高效。以下是 Spring Boot 基础 Web 开发的一些关键点和实操总结&#xff1a; 1. 项目搭建 使用 Spring Initializr: 访问 Spring…

代码随想录刷题day31丨56. 合并区间,738.单调递增的数字,总结

代码随想录刷题day31丨56. 合并区间&#xff0c;738.单调递增的数字&#xff0c;总结 1.题目 1.1合并区间 题目链接&#xff1a;56. 合并区间 - 力扣&#xff08;LeetCode&#xff09; 视频讲解&#xff1a;贪心算法&#xff0c;合并区间有细节&#xff01;LeetCode&#x…

源代码加密软件有哪些?2024常用的10款好用的企业源代码加密软件分享!

源代码作为企业的核心资产&#xff0c;一旦泄露&#xff0c;将可能导致技术被窃取、产品被复制&#xff0c;甚至引发法律纠纷。 一、企业源代码泄密的危害详情描述 企业源代码泄密事件频发&#xff0c;其危害不容小觑。 一方面&#xff0c;源代码的泄露可能导致企业的核心技术…