为什么 Facebook 不使用 Git?

news2024/10/6 10:26:59

在编程的世界里,Git 就像水一样常见,以至于我们认为它是创建和管理代码更改的唯一可行的工具。

前 Facebook 员工,2024 年

首先,我为什么关心?

我致力于构建 Graphite,它从根本上受到 Facebook 内部工具的启发。当我开始与朋友创建一家初创公司时,我从未听说过 Mercurial - 尽管我对开发工具的所有事物充满热情。我之前的工程经验包括个人项目、大学作业、Google 的 iOS 开发以及 Airbnb 的基础设施开发。在我的一生中,Git 就像水一样常见。事实上,它是如此常见,以至于我认为它是创建和管理代码更改的唯一可行的工具。

有趣的是,在 Airbnb,Mercurial 专家坐在离我几个座位远的地方,尽管我只知道他是一个好心的同桌,对他的贡献一无所知。Gregory Szorc

2021 年,我的队友托马斯和尼克打开了我的思路。他们来自 Facebook,令我惊讶的是,他们几乎不了解 Git。相反,他们接受了 Mercurial 模式和 Facebook 的“堆叠差异”工作流程的深入培训。随着时间的推移,他们向我推销了非 git 工具和模式的好处,最终我们做出了早期的公司转型,为 GitHub 开发人员带来了堆积的差异。在此过程中,我们制作了一个 CLI,将 Hg 的想法融入到 Git 中。

这篇文章与我们的初创公司无关。相反,这是过去三年来困扰我的根本问题。为什么 Facebook 用户(Metamates 🏴‍☠️)不使用 Git?

为什么要采用 Mercurial 并在其之上构建自定义工作流程?

我知道 Google 不使用 Git - 但这是有道理的 - Google 的工程比 Git 早五年多。另一方面,Facebook 是在 2004 年左右与 Git 创建的同时成立的,当 Facebook 认真评估源代码控制工具时,Git 比 Mercurial 更受欢迎。那么为什么 Facebook 不使用 Git 呢?

这个问题很小众,但我认为这是一个值得考虑的有趣问题。

如果 Facebook 在 2010 年代初就开始使用 Git 并做出贡献,工程世界可能会有所不同。Git 可能更加用户友好,并且可能本身支持堆叠更改。GitHub 可能为闭源软件开发提供了更好的支持。Uber 和 Pinterest 等前 Facebook 早期公司可能也使用 Git 和 GitHub 作为源代码控制,而不是 Phabricator 和 Mercurial,从而在过去十年中减少了生态系统的碎片化。

但 Facebook 并没有坚持使用 Git(作为他们的主要 monorepos)。相反,他们采用 Mercurial 进行版本控制,并在顶部逐渐添加自定义工具。为什么?首先,我尝试用谷歌搜索答案并找到以下明确的博客文章:

https://engineering.fb.com/2014/01/07/core-infra/scaling-mercurial-at-facebook/

这篇十年前的文章,以及后来的一些 YouTube 技术演讲,给了我一个起始答案:

“因为性能……”

但我想更深入地了解最初的决定工程师的意见。在队友的帮助下,我在 Facebook 前成员群组上发布了一个问题,询问这段历史。我还给参与该项目的两名原始工程师发送了冷电子邮件,要求他们迁移到 Mercurial - 他们很友善地取消了我的记录,并提供了该项目的个人帐户。以下是我了解到的 Facebook 不使用 Git 的完整原因 - 希望这篇文章可以帮助进一步记录 2024 年我们的工具为何如此的历史。

注:我从未在 Facebook 工作过,这个帐户是我作为一个没有在 Facebook 工作过的人对事实的最好理解。我能够与一些参与该项目的人交谈,并获得他们的许可来写下他们向我解释的内容。

Facebook 为何以及如何从 Git 迁移

根据 2014 年 Facebook 博客文章,Facebook 是从 Git 起步的。正如人们所预料的那样,这是他们当时对源代码控制系统的默认选择。但在 2012 年左右,他们开始达到规模极限。该帖子声称他们的代码库“甚至比 Linux 内核还要大很多倍,Linux 内核有 1700 万行代码和 44,000 个文件”。具体来说,工程师开始感觉 Git 操作很慢。虽然速度不算太慢,但足够慢到值得调查。

关键瓶颈是“统计”所有文件的过程。

Git 会检查每个文件,随着文件数量的增加,它自然会变得越来越慢。

工程师尝试运行模拟,创建一个虚拟存储库,以匹配 Facebook 几年后代码库的预期规模。结果令人震惊 - 基本的 Git 命令花了超过 45 分钟才能完成。用该项目的一位原始工程师的话来说,“这不是那种你想在所有工程师都抱怨之前就放弃的事情。到那时,这个东西就太笨重了。尝试进行损害控制,没关系,想出一个更清洁的解决方案,将是一项艰巨的努力。”

因此,一群乌合之众的瑞典人开始研究解决方案。首先,他们联系了 Git 维护者,看看如何扩展 Git 以更好地支持大型 monorepos:

以下是来自 Git 维护者的一封电子邮件的一些精选引述——已经过去 12 年了,但读到这些消息时我还是感到有些沮丧:

听起来好像你在一个 .git 中拥有所有内容。将大型存储库拆分为较小的 .git 存储库。

虽然您/可以/这样做,但这不是一个好主意,您应该拆分存储库

我同意。我在xx公司工作,该公司拥有多年的开发历史,拥有多个大型 CVS 存储库,我们正在缓慢但坚定地将代码库从 CVS 迁移到 Git。把事情分开。这将使您能够更好地重新组织事情,恕我直言,没有任何缺点。

虽然 Git 可以更好地处理大型存储库(特别是在交互式 rebase 中应用提交似乎会减慢较大存储库的速度),但对于统计 130 万个文件,您能做的只有这么多。

这种反应并不合作——而且在未来充满大型单一回购的情况下,这种反应也没有很好地适应。Git 维护者拒绝提高性能,而是建议 Facebook 对其 monorepo 进行分片。 然而,分片对于 Facebook 团队来说是不可能的,他们表示对 Git 不愿意扩展感到惊讶。传统上,大型科技公司提供免费的开源劳动力是一件很受欢迎的礼物,可以确保项目的长期寿命。

话虽这么说,Git 项目没有义务屈服于 Facebook 的要求——我无意将他们描绘成这个故事中的“坏人”。仅仅因为 Facebook 的要求而做某事并不是一种生活方式。有趣的是,两年后,Git 维护者在看到 Facebook 为 Mercurial 做出有意义的改进后似乎改变了语气:

他们邮寄了有关 git 性能问题的列表。据我所知,反馈相对较少。

我有这样的印象,如果他们有 git 开发社区相对不关心大型存储库的性能问题的印象,我不会感到惊讶。

所以问题是 git 社区是否有兴趣在如此大规模的场景中保持竞争力 - Mercurial 现在似乎是开箱即用的

十年后,Git 做出了重大改进,以更好地支持 monorepos。

今天的情况已经发生了很大的变化,Git 现在(知道如何做到这一点)在非常非常大的存储库上运行良好。

Ani Betts,前 Facebook 用户

考虑的替代方案

2012 年,Git 的替代品还很少。该团队考虑了闭源 Perforce,Google 以前的源代码控制解决方案。在与 Perforce 销售工程师的早期调查电话中,Facebook 指出了 Perforce 读取器和写入器节点之间的本地一致性的架构缺陷。这一回应并没有给人们带来信心——销售工程师没有意识到根本问题,也没有解决该问题的路线图计划。

还考虑了其他解决方案,例如 Bitkeeper,但很快就被取消了资格。最后一个选择是 Mercurial。它的性能与 Git 类似,但架构更简洁。Git 是一个由 Bash 和 C 代码组成的复杂网络,而 Mercurial 是使用面向对象的编码模式在 Python 中设计的,并且被设计为可扩展的。

其中一名调查工程师之前曾使用 Mercurial,因此该团队决定参加在阿姆斯特丹举行的 Mercurial 黑客马拉松以进一步调查。

由于我之前与 Mercurial 有过很多联系,因此在将 Mercurial 摆上桌面之前,我竭尽全力地寻求各种可能的替代方案。

布莱恩·奥沙利文,前 Facebook 员工

他们发现了一个易于扩展的系统和一个维护者社区,他们非常欢迎 Facebook 团队的积极改变。

我认为这就是提到的具体黑客马拉松,但我并不肯定。这段视频中展现了 2010 年初的真实氛围:

https://www.youtube.com/watch?v=fml4s6MEjW8

迁移整个工程组织

阿姆斯特丹黑客马拉松结束后,Facebook 团队被说服了。剩下的就是让公司的其他成员相信这次迁移。这是一项令人生畏的任务 - 工程师可能对工具更改极其敏感(想象一下 vim 与 emacs),并且更改源代码控制系统是一件大事。

团队尽可能顺利地出发,以免引发其他工程师的防御反应。接下来的事情听起来像是内部开发工具迁移的大师班。该团队花了几个月的时间宣传迁移到 Mercurial 的可能性,并花时间映射 Git 和 Mercurial 之间的所有常用命令和工作流程。他们甚至收集了整个公司运行的 Git 命令的频率,并专门记录了最频繁的操作在 Mercurial 中的工作方式。

其次,他们为开发人员创造了表达他们的担忧并讨论新系统中可能棘手的任何边缘情况的机会。团队一开始就认为他们会因为迟钝的 8 路章鱼合并假设而陷入激烈的争论。但令他们惊讶的是,他们发现同事工程师非常包容和友好。“没有人站起来并开始尖叫他们的特殊处境。”

最后,他们致力于迁移并将公司移交给 Mercurial。剩下的就是历史了。Facebook 为 Mercurial 做出了性能改进,使其成为大型单一存储库的最佳选择。 Evan Priestley 扩展了 Phabricator以支持 Mercurial。Facebook 利用 Mercurial 的“差异”概念创建了“堆叠”模式, 解锁了新颖的代码审查并行化。前 Facebook 员工跳槽到了新公司,并带来了他们的工作流程,创建了一个规模虽小但声名狼藉的 diff 爱好者崇拜者。最后,我遇到了其中一些爱好者,并决定用我 20 多岁的时间将 Mercurial 风格的堆叠差异引入 Git 和 GitHub。

结束语 这个故事的要点是什么?反思这些引述和采访,我想起了经典智慧:历史上许多关键技术决策都是人类驱动的,而不是技术驱动的。

善良和开放在开发工具的世界中走得很远,我的目标是在为源代码控制的历史做出贡献时继承这些价值观。

IT镜闻39

IT镜闻 · 目录

上一篇人工智能将意味着更多的程序员,而不是更少下一篇太忙”意味着你的个人策略很糟糕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1627455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FSMC读取FPGA的FIFO

一、硬件说明 FSMC配置 单片机的代码如下: #define VALUE_ADDRESS_AD1 (__IO uint16_t *)0x60400000while (1){if(!HAL_GPIO_ReadPin(GPIOF, GPIO_PIN_8)) //数据非空{data *(__IO uint16_t *)VALUE_ADDRESS_AD1;data2 *(__IO uint16_t *)VALUE_ADDRESS_AD1…

网上订餐系统,基于 SpringBoot+Vue+MySQL 开发的前后端分离的网上订餐系统设计实现

目录 一. 前言 二. 功能模块 2.1. 用户功能模块的实现 2.2. 管理员功能模块的实现 三. 部分代码实现 四. 源码下载 一. 前言 随着我国经济的飞速发展,人们的生活速度明显加快,在餐厅吃饭排队的情况到处可见,近年来由于新兴IT行业的空前…

python的turtle库画直线

1.画一条直线 让画笔从(0,0)划到(100,100),在turtle中画笔是一只小乌龟。 import turtle turtle.setup(800,800,0,0)#turtle.setup(width,height,startx,starty)来设置窗口初始位置及大小 turtle.goto(100,100)2.画一条折线 left和right使小…

安装crossover游戏提示容量不足怎么办 如何把游戏放到外置硬盘里 Mac电脑清理磁盘空间不足

CrossOver作为一款允许用户在非原生操作系统上运行游戏和应用程序的软件,为不同平台的用户提供了极大的便利。然而,随着游戏文件大小的不断增加,内置硬盘的容量往往无法满足安装需求。幸运的是,通过一些简单的步骤,我们…

怎么样解决web图片加载未更新问题|浏览器图片未更新问题

问题列举 为什么我本地资源改变但是我在用 tomcat 预览网页时图片仍然未之前的图片? 为什么我当前网页的图片是之前的我换浏览器就变了? tomcat启动后,为什么访问项目中的图片无效解决? 解决方案 问题一 为什么我本地资源改变但是我在用 tomcat 预览网页时…

关于使用SpringSecurity框架发起JSON请求,但因登陆失效导致响应403的问题。

这里记录一个生产中遇到的一个问题。 现有环境是基于SpringBoot 2.6.8,然后是前后台一体化的项目。 安全框架使用的是内置版本的SpringSecurity。 在实际使用过程中遇到一个问题。 就是当用户登陆失效后,前端操作JSON请求获取列表数据,但…

编程学习路线

Java最强学习路线 快来官网定制一套属于自己的学习路线吧 官方网址: Learn to become a modern Java developerCommunity driven, articles, resources, guides, interview questions, quizzes for java development. Learn to become a modern Java developer by…

架构师系列- 消息中间件(12)-kafka基础

1、应用场景 1.1 kafka场景 Kafka最初是由LinkedIn公司采用Scala语言开发,基于ZooKeeper,现在已经捐献给了Apache基金会。目前Kafka已经定位为一个分布式流式处理平台,它以 高吞吐、可持久化、可水平扩展、支持流处理等多种特性而被广泛应用…

go 测试和文件

go 测试和文件 需求传统测试单元测试牛刀小试总结练习文件介绍打开关闭文件读文件一次性读取文件写文件文件或文件夹是否存在文件拷贝 需求 有一个函数&#xff0c;怎样确认他运行结果是正确的&#xff1f; func addUpper(n int)int {res : 0for i : 1; i < n; i {res1}r…

牛客NC368 质数的计数【中等 基础数学,数论 C++/Java/Go/PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/190167d1990442da9adb133980259a27 思路 判断x是否是质数&#xff1a;这是判断质数最好的代码了public boolean isPrime(int x){if(x 2 || x3) return true;if(x%6!1 && x%6!5) return false; //不在6倍…

微服务之分布式理论概述

一、分布式技术相关的理论 CAP理论 CAP定理(CAP theorem)&#xff0c;⼜被称作布鲁尔定理(Eric Brewer)&#xff0c;1998年第⼀次提出. 最初提出是指分布式数据存储不可能同时提供以下三种保证中的两种以上: (1) ⼀致性(Consistency): 每次读取收到的信息都是最新的; (2) …

7天入门Android开发之第1天——初识Android

一、Android系统 1.Linux内核层&#xff1a; 这是安卓系统的底层&#xff0c;它提供了基本的系统功能&#xff0c;如内存管理、进程管理、驱动程序模型等。安卓系统构建在Linux内核之上&#xff0c;借助于Linux的稳定性和安全性。 2.系统运行库层&#xff1a; 这一层包括了安卓…

Python用于高级异常检测和聚类的工具库之BanditPAM使用详解

概要 Python BanditPAM库是一个用于高级异常检测和聚类的工具,具有强大的特性和灵活的功能,可以发现数据中的异常点并进行有效的聚类分析。本文将详细介绍Python BanditPAM库的安装、特性、基本功能、高级功能以及总结。 安装 首先,需要安装Python BanditPAM库。 可以使用…

Hadoop之路

hadoop更适合在liunx环境下运行&#xff0c;会节省后期很多麻烦&#xff0c;而用虚拟器就太占主机内存了&#xff0c;因此后面我们将把hadoop安装到wsl后进行学习,后续学习的环境是Ubuntu-16.04 &#xff08;windows上如何安装wsl&#xff09; 千万强调&#xff0c;有的命令一…

Python-VBA函数之旅-list函数

目录 一、list函数的常见应用场景&#xff1a; 二、list函数使用注意事项&#xff1a; 三、如何用好list函数&#xff1f; 1、list函数&#xff1a; 1-1、Python&#xff1a; 1-2、VBA&#xff1a; 2、推荐阅读&#xff1a; 个人主页&#xff1a;https://blog.csdn.net…

2015-2023年上市公司商道融绿ESG评级数据

2015-2023年上市公司商道融绿ESG评级数据 1、时间&#xff1a;2015-2023年 2、来源&#xff1a;整理自WIND 3、指标&#xff1a;代码、名称、商道融绿ESG评级 4、范围&#xff1a;上市公司 5、指标解释&#xff1a; 商道融绿ESG评级体系是一种全新的评级体系&#xff0c;…

Restful API 具体设计规范(概述)

协议 https 域名 https://www.baidu.com/api 版本 https://www.baidu.com/v1 路径 https://www.baidu.com/v1/blogs 方法 数据过滤 状态码返回结果 返回的数据格式 尽量使用 JSON&#xff0c;避免使用 XML。 总结&#xff1a; 看 url 就知道要什么看 http method 就知道干…

【网络技术】【Kali Linux】Wireshark嗅探(十一)以太网Ethernet协议报文捕获及分析

往期 Kali Linux 上的 Wireshark 嗅探实验见博客&#xff1a; 【网络技术】【Kali Linux】Wireshark嗅探&#xff08;一&#xff09;ping 和 ICMP 【网络技术】【Kali Linux】Wireshark嗅探&#xff08;二&#xff09;TCP 协议 【网络技术】【Kali Linux】Wireshark嗅探&…

BUUCTF--web(2)

1、[HCTF 2018]admin1 打开题目后发现有注册和登录两个页面&#xff0c;因为题目提示admin&#xff0c;尝试用admin进行爆破 爆破得到密码为123 登录得到flag 2、[护网杯 2018]easy_tornado1 打开题目后有三个文件&#xff0c;分别打开查看 在url地址栏中发现包含两个参数&a…

DBSCAB算法介绍(Python3实现)

一、DBSCAB算法简介 1、DBSCAN算法 基于密度的空间聚类的应用(Density-based spatial clustering of applications with noise&#xff0c;DBSCAN)算法是由Martin Ester, Hans-Peter Kriegel, Jrg Sander和Xiaowei Xu于1996年提出的一种聚类分析算法。 其原始论文是在1996年的…