作为校招新人，他们如何在字节跳动做 AI 研究并中选 ICLR 的？

作为校招新人，他们如何在字节跳动做 AI 研究并中选 ICLR 的？

news2026/2/15 3:41:52

校招生和实习生在字节跳动，工作一年就中选 ICLR 2024 ，这是怎样一种体验？

就在 5 月 7 日至 5 月 11 日，2024 年度国际表征学习大会 ICLR 2024 在奥地利维亚纳举办。该活动是深度学习领域最重要的学术活动之一，由深度学习三巨头之二的 Yann LeCun 与 Yoshua Bengio 发起。

今年 ICLR ，共有 7262 篇论文提交，整体接收率约为 31% ，中选文章作者中，不乏字节跳动校招新人的身影。

这些同学中，有的人是实习生，有的人刚刚毕业一年左右。在公司时间虽短，却也做出了顶会成果。

今天，我们一起看看他们是如何做到的。

一句话让机器人拿起西兰花

Terry 字节跳动 2022 校招生

毕业于 JHU

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation 核心作者

这个项目立项是在 2023 年的三四月份。当时 ChatGPT 刚出来没多久，证明了其在 NLP 领域的有效性。后来大家也看到了，大模型在图像、视频生成都能用上。

但在机器人领域，训练数据相比 NLP 和图像来说少很多，而且采集难度大、周期长。我们团队希望探索新的方法，在少量数据的情况下，也能在端到端多任务操作上达到不错的鲁棒性和泛化性。

这也是整个团队在端到端的多任务操作上的第一次探索。

具体来说，我们参考大模型做法，希望通过大量公开视频数据帮助机器人实现更高效的学习。最终，我们也验证了这个方法在机器人学习上面效果很好，鲁棒性、抗干扰性也更强。

我们这个模型也参考了 GPT 的做法，语言模型是根据前面的词，生成后面的内容。我们也是，让机器人根据前面的数据对后面的动作进行预判。

接下来是验证思路，这也不是我一个人完成的，而是由不同背景的同学一起参与完成。

有同学做学习算法、数据集，有同学负责硬件，即机器人本体，也有负责机器人控制的同学，还有的同学负责进行测试。我主要是做学习算法和测试这块。

面对各种问题，相关同学就会来一起积极帮助调试，很多方法也是由不同背景的同学提出，我们一起去验证对比，大家一起把事情完成，这样的协作沟通其实让人感到轻松一些。

而且 Leader 也会帮助我们，为大家选出真正有价值的研究课题，我们的课题是前沿的，研究方法也是前沿的，加上公司提供了丰富的计算资源。我觉得，还是非常难得的。

最兴奋的还是经过很多次尝试后，终于成功的那一刻。想想看，跟机器人说一句话，它就可以帮我做一件事，比如，从一些蔬果中拿起西蓝花，放到盘子里去。这让我们觉得很有成就感。

后面就是抓紧时间，去探索机器人的能力边界在哪，比如去做更复杂的任务、增加干扰物、变换背景完成任务等等。

这个项目里，大家工作都是奔着很高的目标去的。就算方法已经达到了 SOTA ，但我们还是会想，哪些地方可以做得更好一些？这个方法是不是足够通用？

感觉在字节跳动， Leader 跟你的讨论，与在学校导师跟你探讨思路、一起解决问题是一样的。遇到困难，大家也会坐下来一起讨论：问题出在哪儿，哪个方法对，哪个方法不对。

跟在学校不一样的是，加入公司后，我开始更多去思考什么项目对公司和产业更有价值，这也是我进入公司这一年的变化。

做高质量的研究，而不是刷论文

Paul 字节跳动 2023 校招生

毕业于中科院自动化所

Image Background Serves as Good Proxy for Out-of-distribution Data 核心作者

我做的研究是分布样本检测，在大模型时代，算一个比较小的研究方向。

分布样本检测其实应用很多。拿猫狗分类举例，一方面要去分辨是猫还是狗，另一方面，也要分辨图片到底属不属于猫或狗，不然就是分布外样本。

一开始我就想，能不能探索一种方法，从图像本身获取分布内和分布外特征。也就是说，将目标所在部分作为正样本，其他部分背景作为负样本进行模型训练。这样做出的模型在分类上，应该有非常好的鲁棒性，且也适用于现实。

后来证明，这个思路是有效的。其实这篇文章，团队其他同学也给了我很多帮助，包括提供了效果更好的方法，也从论文撰写和排版角度，提供了不少建议。

应用方面，这个成果也能与多模态结合，比如，多模态模型目前在看图答题时，常会出现“胡编乱造”问题，明明图片没有的物体，它会说有。这个成果的结合，能减少幻觉产生的。

加入之前，我也在其他公司实习过，感觉字节跳动这边工作时间灵活，对不同习惯的研究工作者来说，比较友好。

另一方面是字节跳动的 Mentor 都非常资深，而且在日常工作中，他们不会随意将自己的想法强加给你，团队对研究是非常开放的， Leader 不会阻止你去探索。

只不过，比起“水”文章，我们还是倡导大家探索前沿技术，做真正让人眼前一亮的工作。

第一次试验，我们就有很大希望

继续做下去

Jory 前字节跳动实习生

NUS 在读博士

AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models 核心作者

这篇论文是我在字节跳动实习期间做的。

一开始有想法，是在 2022 年底，那时各种生成模型比较火，尤其扩散模型。

我们就想，能否将一些预训练好的判别模型与生成模型结合，这个是我们最初的灵感。

具体思路是，根据生成的图片，让判别模型算出 Loss 数值，再用 Loss 微调扩散模型参数，以生成更符合要求的图片。

举个落地的例子来说，我们在亚马逊上看到的图片可能美感不够，或不符合审美要求，其实，可以用预训练好的审美评价模型去微调生成模型，再让生成模型生成商品图，这样美感就更好。

这个项目是 Mentor 提出了大致的框架，我去进行尝试。

我们的设想其实是个比较数学的方法，原本不确定是否有效，没想到，第一次试验效果就还可以，这也给了我们很大希望继续做下去。

另外一个同学对视觉任务特别了解，代码能力也很强，给我提供了一些技术支持。当然，公司科学家也在背后支持我们整个团队。

这当中，我负责自己去跑实验，有困难就可以找大家解决，毕竟他们经验比较丰富。

在微调网络参数的过程中，我们希望优化整个过程，把算力要求降下来，也是大家一起商量，聚焦文字信息嵌入关键层，Cross Attention 层，这样就容易一点。

图注：采用论文方法，生成的小狗面部细节与小鸟羽毛细节更贴合左侧参考图片

来字节跳动实习前，我一直都在纯研究的机构里，刚进入字节跳动时，最大感受就是——公司里技术交流特别多，大家每天都在分享、讨论科技界有什么最新的、让人眼前一亮的模型。

这当中，我也开始理解了业务驱动的感觉，更看重应用，收获了新视角，对自己后续发展也有很大帮助。

加入我们，一起探索

AI 的价值与乐趣

上述内容仅仅展现了字节跳动在机器学习、大模型、具身 AI 等方向成果的一小部分。

本届 ICLR 2024，字节跳动共有 20 余篇论文入选，相关同学来自智能创作、ByteDance Research、豆包大模型团队等业务线。

如果你也对 AI 、大模型、机器人等研究工作感兴趣，想在务实高效的氛围里，和优秀的人，一起做高质量、有价值的前沿研究，欢迎加入我们。

长按下方二维码，或点击阅读原文，投递简历。

扫码一键投递

注：本文提及同学均使用化名。

字节跳动更多技术应用

用扣子 / Coze 揭秘吴恩达的 4 种 AI Agent 设计模式

自回归超越扩散！北大、字节跳动 VAR 范式解锁视觉生成 Scaling Law

点击「阅读原文」，一起来做高质量、有价值的前沿研究。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1668850.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

五角钱的程序员 | Kafka 是什么？

五角钱的程序员 | Kafka 是什么？

本文来源公众号“五角钱的程序员”，仅用于学术分享，侵权删，干货满满。原文链接：Kafka 是什么？ 你是一个程序员，假设你维护了两个服务 A 和 B。B 服务每秒只能处理 100 个消息，但 A 服务却每秒…

阅读更多...

苹果手机上音乐转换成mp3格式难不难？电脑支持转换吗？支持！

苹果手机上音乐转换成mp3格式难不难？电脑支持转换吗？支持！

在苹果手机上，有时我们可能会遇到需要将音乐文件转换为MP3格式的情况。这可能是因为某些音乐播放器或设备只支持MP3格式，或者我们想要将音乐文件与其他设备或平台共享。本文将为您详细介绍在苹果手机上如何将音乐转换为MP3格式。首先，我们需…

阅读更多...

贪吃蛇——C语言实践

贪吃蛇——C语言实践

目录 1. 游戏效果演示 2. 课程目标 3.项目适合对象 4.技术要点 5. Win32 API介绍 5.1 Win32 API 5.2 控制台程序 5.3 控制台屏幕上的坐标COORD 5.4 GetStdHandle 5.5 GetConsoleCursorInfo 5.5.1 CONSOLE_CURSOR_INFO 5.6 SetConsoleCursorInfo 5.7 SetConsoleCurs…

阅读更多...

Linux系统——VIM编辑工具

Linux系统——VIM编辑工具

vi/vim vi是一个文本编辑器，用于撰写文档，或者开发程序。vim是vi的增强版功能一致，可视化效果更好一些。去鼠标化编辑更加方便可定制化。 vim编辑器是一个模式化文本编辑器模式以：编辑模式进入文档后默认的模式作用&am…

阅读更多...

Midjourney与Stable Diffusion大比拼：AI绘画技术的未来

Midjourney与Stable Diffusion大比拼：AI绘画技术的未来

在当今快速发展的人工智能技术浪潮中，AI绘画软件成为了艺术和技术交汇的新领域。两大巨头——Midjourney和Stable Diffusion，在这一领域中引领风骚，它们以其独特的功能和强大的生成能力，让创作者能够将想象力化为现实。本文将深入…

阅读更多...

在Ubuntu 24.04 LTS (Noble Numbat)上安装nfs server以及nfs client

在Ubuntu 24.04 LTS (Noble Numbat)上，我使用的是最小化安装，当然server版本的Ubuntu在安装的时候可能会有网络不通的问题，解决办法见如下文章： ubuntu 24.04 server 仅NAT模式上网设置静态IP设置-CSDN博客文章浏览阅读489次，点赞9次，收藏3次。在Ubuntu 24.04 上设置网…

阅读更多...

YApi的在IDEA中的使用

YApi的在IDEA中的使用

1 IDEA中插件下载 2 misc.xml的配置 <component name"yapi"><option name"projectToken">XXXXXXXXXX</option><option name"projectId">47</option><option name"yapiUrl">http://XXXX:3000<…

阅读更多...

Appium 2.x 安装及使用

Appium 2.x 安装及使用

由于安全问题，Appium 1.x 版本不再被维护，但想要继续使用Appium进行自动化可以使用 Appium 2.x。 1. 安装Appium 2.x 在过往文章中有介绍过Appium 1.x 的安装，所以一些必备的软件(如：JDK、SDK、node.js、Python)安装就不再细嗦&…

阅读更多...

RWA会成为下一个风口吗？有哪些值得关注的项目？

RWA会成为下一个风口吗？有哪些值得关注的项目？

随着加密货币市场的迅速发展和成熟，现实世界资产（Real World Assets，RWA）正逐渐引起人们的关注，并有望成为下一个加密货币领域的风口。本文将探讨RWA的潜力，以及当前值得关注的项目。 RWA的潜力 RWA代表着…

阅读更多...

docker（五）：DockerFile

docker（五）：DockerFile

文章目录 DockerFile1、Dockerfile构建过程解析2、DockerFile常用保留字命令FROMMAINTAINERRUNEXPOSEWORKDIRUSERENVADDCOPYVOLUMECMDENTRYPOINT总结 3、案例 DockerFile 1、Dockerfile构建过程解析官网文档：https://docs.docker.com/reference/dockerfile/ Dock…

阅读更多...

SpringBoot3集成WebSocket

SpringBoot3集成WebSocket

标签：WebSocket，Session，Postman。一、简介 WebSocket通过一个TCP连接在客户端和服务器之间建立一个全双工、双向的通信通道，使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据&#xf…

阅读更多...

有没有适合女生或者宝妈下班后可以做的副业？

有没有适合女生或者宝妈下班后可以做的副业？

宝妈与上班族女生的新篇章：水牛社副业兼职之旅在繁忙的职场和温馨的家庭之间，不少女性渴望找到一种既能兼顾家庭又能实现自我价值的兼职方式。对于上班族女生和宝妈们来说，水牛社这样的线上任务平台为她们提供了一个全新的选择。上班族女…

阅读更多...

c++ map，set封装

c++ map，set封装

map 是一个 kv 结构， set 是 k结构。我们前面模拟实现了红黑树，但是我们实现的红黑树把 kv 结构写死了，怎么样才能用泛型编程的思想来实现map和set呢我们先简单看一下原码中是怎么实现的 1.原码实现逻辑我们打开这里的 stl_set.h 通过…

阅读更多...

数据结构(Java实现)：List接口的介绍

数据结构(Java实现)：List接口的介绍

1.什么是List 在集合框架中，List是一个接口，继承自Collection。 Collection也是一个接口，该接口中规范了后序容器中常用的一些方法，具体如下所示： Iterable也是一个接口，表示实现该接口的类是可以逐个元…

阅读更多...

达梦数据库连接失败：Connect Failure! “Encryption module failed to load“

达梦数据库连接失败：Connect Failure! “Encryption module failed to load“

初次安装达梦数据库：V7 QT5.12.12版本开发调用数据库，最基础的原型调用： { //执行查询语句或则执行sql语句 QSqlDatabase qDb; QSqlDatabase db QSqlDatabase::addDatabase("QDM"); db.setHostName("192.168.2…

阅读更多...

【大数据】HDFS

【大数据】HDFS

文章目录 [toc]HDFS 1.0NameNode维护文件系统命名空间存储元数据解决NameNode单点问题 SecondaryNameNode机架感知数据完整性校验校验和数据块检测程序DataBlockScanner HDFS写流程HDFS读流程HDFS与MapReduce本地模式Block大小 HDFS 2.0NameNode HANameNode FederationHDFS Sna…

阅读更多...

红黑树的理解和简单实现

红黑树的理解和简单实现

目录 1. 红黑树的概念和性质 2. 红黑树的插入 2.1. 情况一：新增节点的父亲为空 2.2. 情况二：新增节点的父亲非空且为黑色节点 2.3. 情况三：当父亲为红节点，叔叔存在且为红 2.3.1. 当祖父为根节点的时候 2.3.2. 当祖父不是根…

阅读更多...

揭秘高效引流获客的艺术：转化技巧大公开

揭秘高效引流获客的艺术：转化技巧大公开

在数字化营销的海洋中，每个企业都如同一艘努力航行的船，而流量便是推动船只前行的风帆。如何有效吸引并获取潜在客户，即所谓的“引流获客”，已成为企业市场营销策略中不可或缺的一环。本文将详细探讨几种实用且高效的引流获客技巧…

阅读更多...

【RAG 论文】AAR：训练一个LLM喜欢的检索器来做RAG

【RAG 论文】AAR：训练一个LLM喜欢的检索器来做RAG

论文：Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In ⭐⭐⭐ ACL 2023, Tsinghua & Microsoft，arXiv:2305.17331 论文速读以往 RAG 的工作通常联合微调 retriever 和 LLM 导致紧密耦合&#xff0…

阅读更多...

实验0.0 Visual Studio 2022安装指南

实验0.0 Visual Studio 2022安装指南

Visual Studio 2022 是一个功能强大的开发工具，对于计算机专业的学生来说，它不仅可以帮助你完成学业项目，还能为你将来的职业生涯打下坚实的基础。通过学习和使用 Visual Studio，你将能够更高效地开发软件，并在编程领域…

阅读更多...

推荐文章

最新文章