9月21日,“OceanBase
城市交流会”来到了深圳,携手货拉拉大数据技术与产品部,联合举办了“走进货拉拉”的技术交流活动。货拉拉、万家数科、云集、百丽等多家企业的一线技术专家,就大数据存储、AI等热点话题,深入探讨并分享了各自的实践经验。
现场气氛活跃,参会者互动频繁,在活动尾声,仍然有不少热情参与者争分夺秒与演讲嘉宾进行深度交流,不愿错过任何一个启发灵感的瞬间。那么,究竟是哪些精彩内容激发了如此高涨的求知欲与热烈讨论?让我们一探究竟,回顾一下现场的高光时刻吧!😘
货拉拉技术揭秘:大数据存储与图数据库驱动物流行业技术升级
货拉拉技术专家们在本次活动的分享中,生动展现了大数据存储与图数据库技术如何在物流行业中破解挑战、加速决策,并推动业务效率的革新升级。以下为分享内容的精彩摘要:
货拉拉大数据专家章啸
货拉拉大数据专家章啸解析了货拉拉如何利用大数据技术,尤其是大数据存储的优化策略,驱动业务发展。自 2013 年于大湾区创立以来,货拉拉凭借先进的物流匹配技术,已发展成为全球最大的物流交易平台之一。背后依靠的是一个高度优化的全球大数据架构,支撑着复杂的数据流转和多变的业务需求,其中:
- HBase 为核心的高效存储策略:在高并发的键值存储场景下,HBase 扮演着关键角色,它不仅承载了海量用户与司机查询请求,而且在 Flink 驱动的实时数据分析中发挥效力,将计算结果迅速存回 HBase,确保查询反馈的即时性,即便在数据规模庞大、延迟要求严格的条件下亦能游刃有余。
- OLAP 处理的智能化升级:通过集成 Druid 等高级分析工具,货拉拉极大提升了复杂数据分析的效率与灵活性,为 AB 测试、精细化用户画像构建等提供了强大的数据支持,推动业务洞察的深度拓展。
- 数据分层管理的经济高效性:企业实施了数据冷热分离策略,依据数据活跃度采用差异化存储方案,结合自动化数据生命周期管理和智能归档机制,有效平衡存储成本与效率,控制了离线存储的膨胀,实现了资源的最优化配置。
货拉拉业务风控部的分享则凸显了图数据库技术在风险控制中的革新应用。其部门的大数据专家杨嘉奇与大数据工程师赵浩,展示了图数据库技术的最新进展及其在实战中的深刻影响:
- HugeGraph 技术的集成:成为业务转型的关键节点,它突破了原有异步事件处理机制的局限,通过 Apache Huge Graph 图引擎的全面部署,不仅极大简化了数据处理流程,更将查询响应速度与系统整体稳定性推向新高,标志着风控技术从初级阶段向成熟稳定 2.0 时代跃进的里程碑。
- BulkLoad 技术创新:针对大数据处理中的加载难题,团队创新性地推出了 BulkLoad 技术,有效缓解了 CPU 与 I/O 资源的压力。通过直接数据格式转换与快速对接 RocksDB,这一技术在 1.5 版本中实现了相比 Spark 传统方案的数据加载效率显著提升,直观验证了技术创新对效率革命的推动作用。
未来,货拉拉将持续探索多元化数据存储解决方案,迭代存储系统,追求极致性能与成本效益,以满足用户对高效物流服务的需求。同时深潜于图引擎并行计算、HBase 与 RocksDB 融合加速等技术,也将在内存管理、RockDB 性能优化及高性能键值存储技术方面实现新突破,引领物流行业迈向更智能、高效的未来。
OceanBase 赋能企业数字化转型,万家数科与云集的实战解析与成果展示
除了货拉拉老师们的分享以外,我们还邀请了深度使用 OceanBase 的用户来分享业务应用的解决方案与精辟见解。
万家数科数据库专家马琳
在万家数科数据库专家马琳的分享中,万家数科在零售业务信息化领域扮演着重要角色,深刻阐述如何有效运用 OceanBase 数据库增强运营效率与业务流程优化。以下是对万家数科如何应对行业挑战、实施技术创新及促进企业数字化转型的亮点概述。
核心优化策略与成效:
- 系统并行挑战的破局之道:针对零售业中多系统并行引发的技术异构、数据标准化难题及接口不一等挑战,万家数科依托 OceanBase 的高性能与高扩展性,实施了系统升级与优化。这不仅强化了系统的稳定运行与弹性扩展能力,还确保了数据一致性与处理性能的大幅提升,为零售企业构建起坚固的数字化基石。
- 数据库迁移的精益实践:通过智能运用先进存储技术与 OMS 工具,万家数科实现了成本与效率的双赢。其读写分离策略与逐步式数据切割方法,在保证业务连续性的前提下,高效完成了数据库迁移,解决了 MySQL 架构迁移中的难点,展现了技术创新在实际应用中的巨大价值。
- 大数据迁移的实战智慧:在企业级大数据迁移项目中,万家数科克服了数据兼容性、处理复杂度及调度延迟等障碍,借助 Flink 技术显著增强了数据处理的实时性和效率。此迁移不仅提升了系统性能,还有效控制了硬件成本,为企业的长期发展注入了更强的业务稳定性和灵活性。
- OceanBase 生态的业务效能提升:深入挖掘 OceanBase 生态系统潜力,万家数科通过 OCP 和 ODC 等工具优化了业务操作流程,实现了问题的快速定位与解决,以及数据库操作的智能化优化,极大提高了业务高峰期的处理能力。
云集数据库专家曾祥勇
云集数据库专家曾祥勇深入分析了云集作为社交电商巨头的技术战略与实践,特别是在数据库管理和云迁移方面的独到见解。成立于 2015 年的云集,凭借其创新的社交电商模式,于 2019 年成功登陆美国股市,并专注于为 B 端客户提供精选健康与美妆产品,利用先进的数据库技术和大数据分析提升用户体验。
技术革新与用户体验提升:
- 面向 C 端的数据库优化:为了确保用户在“双十一”等大促或秒杀期间的流畅体验,云集持续对数据库系统进行迭代升级,转型采用分布式数据库架构以替代单一服务器模式。增强在极端流量下的高稳定性和可扩展能力,同时探索 HTAP 能力,以简化架构并提升效率。
- 云迁移与数据库策略调整:面对业务发展的需求,公司经历了多轮云平台迁移的探索,最终决定采用分布式数据库 OceanBase 作为核心支撑策略,这一抉择超越了单纯的成本效益分析,更加侧重于系统横向扩展能力和高度可用性的战略需求,确保技术架构的前瞻性和灵活性。
核心技术挑战与解决方案:
- OceanBase 的深度应用:面对高可用性与合规性的双重考验,OceanBase 展现了其在解决字符集兼容性、同步限制等问题上的强大能力,通过持续的系统调优和流程优化,助力云集构建了一个既符合国家安全标准又具备高性能、低成本的数据库环境,强化了企业的多活部署能力。
- 数据库迁移实践与策略:曾祥勇强调了业务连续性和无痛迁移的必要性,推荐利用专业工具(如 OMS)来精细化管理迁移流程,确保数据的准确无误转移。特别指出字符集兼容性问题的预先解决是迁移成功的关键,通过详尽规划与测试,避免了数据乱码和丢失的风险。
- 迁移后的优化与成效:迁移至 OceanBase 后,云集不仅在成本控制上取得显著成效,通过数据压缩技术有效缓解了大数据存储压力,而且提升了系统的高可用性和等保合规性,解决了内存泄露等技术挑战,实现了 HTAP 混合应用场景,进一步优化了用户体验和运营效率。
OceanBase 智能体进化,从搜索引擎到大模型融合的高效辅助
在当今智能技术飞速发展的时代,用户对智能体的需求早已超越了基本的信息搜索功能。尤其是在 OceanBase 社区中,涵盖了论坛、钉钉群、GitHub 等多个平台,原有的基于搜索的智能体“研发小蜜”因用户搜索技能要求高、答案汇总不便而使用率降低。针对这一痛点,OceanBase 高级技术专家蔡飞志及其团队开始从 0 开始构建基于 RAG 的智能问答助手,为社区和用户提供更加自主、高效的辅助体验。
OceanBase 高级技术专家蔡飞志
在探索实践的过程中,不可避免遇到了一些挑战;用户搜索能力要求过高,且难以精准匹配答案;直接应用大模型面临领域信息时效性、特定领域覆盖不足及不可控推理等问题。
面对技术应用的局限,OceanBase 团队在深入探索多种智能解决方案后,决定选择基于 RAG 的智能助手;并将大型语言模型与 OceanBase 数据库中的向量检索能力进行巧妙的融合。在实践的过程中,OceanBase 的向量功能扮演了关键角色,通过高效地将知识库内容转化为向量形式存储,提高了查询速度与精确度。与此同时,大型语言模型依据从优化的数据库中检索到信息,生成既准确又贴近需求的回答。这一融合不仅解决了信息时效性、数据局限性及误答率高的问题,还增强了答案的可追溯性。
在实践中,蔡飞志总结了一套系统性的方法论,涵盖了从 0 到 1 搭建智能体:
- Agent 框架甄选:评估并选择适合大语言模型应用的框架,如 ORM、Dify 等,通过框架深入了解生态并挖掘数据库的潜能。
- 知识库构建:利用高质量的文档资源(如 GitHub 文档),不过需要注意内容的准确性和拆分质量。
- 语言模型嵌入:采用嵌入适合的中文语料,如 BGE-M3 等进行文本向量化。
- 向量数据库的选型:选用如 OceanBase 这类运维成本低、生态系统完善且支持实时更新的向量数据库,以保障高效率的信息检索与管理。
- 展示与接入:设计并实施多端接口策略,确保用户能通过钉钉、微信、论坛、Web UI 等多种渠道无缝接入智能体服务,提升用户体验的广泛性和便捷性。
- 除此之外,也总结了从 1 到 N 的实战技巧:
- 意图判断与分类:确保智能体只回答相关问题,并根据问题类型查询对应知识库。
- OCR 与诊断工具集成:利用 OCR 处理图像信息,结合诊断工具提高问题定位和解决能力。
- 数据库运维考量:利用 OceanBase 自身成熟的运维监控体系,支持智能体的稳定运行和扩展。
在最后,蔡飞志也向大家分享了一个好消息,OceanBase 向量数据库代码已经开源,预计在 9 月底通过 4.3.3 版本正式发布,到时可自由使用和修改。同时,也会计划将智能体搭建的代码开源,最新版本会在 10 月 23 日“2024 OceanBase 年度发布会——AI 动手实验室”亮相,届时不仅能够近距离感受 OceanBase 如何利用 AI 技术重塑数据库运维的智慧化场景,还有机会亲自上手实验,透过动手实操,深刻体验智能科技为数据库管理带来的无限可能。
obdiag SIG 组,加速诊断效能,高效提升技术能力与用户体验
百丽 DBA 黄尖分享了在 OceanBase obdiag SIG 组的技术进展和体会感悟,特别是如何运用先进科技加速诊断与解决问题的效能,凸显 SIG 组在工具演进中的关键角色。
百丽 DBA 黄尖
obdiag 的核心价值与功能:obdiag 是一款适用于 OceanBase 数据库的黑屏诊断工具,极大程度简化一线运维与开发者的诊断流程,大幅缩短手动排查时间,增强问题定位精度,提升运维与开发者的工作效率。它的功能模块包括一键集群巡检、一键诊断信息收集、一键诊断分析、一键根因分析,每一环节都旨在加速问题识别与解决过程,让运维工作更加高效流畅。
解决锁冲突的高效手段:在遇到锁冲突时,obdiag 能迅速定位冲突源,明确展示锁持有者和相关事务 ID,为快速决策提供依据。通过分析提出策略性解决方案,优化事务处理顺序以缓解冲突,减少盲目尝试和长时间等待。此外,obdiag 还具备追溯历史锁冲突的能力,为预防未来同类问题提供数据支持和学习案例。
优化 SQL 执行计划的智能化辅助:obdiag 帮助收集 SQL 执行详情,对比分析执行路径,识别性能瓶颈,并提出具体优化 SQL 或索引策略的建议,直接促进数据库性能和应用响应速度。
obdiag SIG 组的用户导向与持续创新:作为 obdiag SIG 组的一员,黄尖亲历了 obdiag SIG 在提升工具功能、推动社区发展方面不懈努力的过程,不仅解决了根因分析的锁冲突场景中会话 ID 获取不全的问题,还创新性地推出了 obdiag display 的共建,集成多命令,降低用户使用门槛。obdiag SIG 的目标很明确,构建一个完善的 OceanBase 诊断生态系统,既服务于现有用户,也鼓励更多人加入到这一开放源码项目中,共同探索、共同成长。
超越地域限制,OceanBase 一云多 Region 原生分布式数据库实践
在当今全球化的数字时代,企业对于数据的高可用性和跨地域访问需求日益增长。OceanBase 原生分布式数据库,正以创新技术突破地域壁垒,为企业提供跨越多 Region 的数据管理解决方案。
OceanBase 解决方案架构师何志勇
在讨论如何实现跨越地域的数据高可用时,OceanBase 解决方案架构师何志勇指出两大核心策略:
- 利用数据库内建功能:包括主从复制或读写分离机制,但这种方法可能引发数据一致性挑战、运维成本增加及业务逻辑复杂化。
- 数据库外产品集成:通过中间件和工具辅助数据同步,同样面临一致性与管理复杂度问题。
OceanBase 凭借一体化设计,为多 Region 部署带来有效改变。该架构不仅实现了无缝扩展,还具备多数据库兼容性、多租户管理、高效负载均衡能力,显著降低了运维成本和复杂性。OceanBase 的多负载处理能力,特别是存储引擎的行列混存架构设计,能够很好的支持 TP 和 AP 负载,同时展现出强大的部署灵活性和资源优化能力,支持跨云、跨地域的灵活配置。
针对 TP 与 AP 混合场景,何志勇分享了 OceanBase 如何通过动态调整行存与列存模式,结合租户隔离和 OMS 同步与校验机制,确保数据一致性和处理效率,满足不同业务场景的需求。通过实际案例,他阐述了 OceanBase 在应对大流量并发,海量数据存储时的卓越表现,比如帮助某企业从 HBase 迁移至 OceanBase 后,不仅显著提升了存储与查询性能,还优化了复杂业务如高德地图的 3 地多活架构下的数据处理,缩短了用户响应时间。
OceanBase 的广泛应用进一步验证了其解决方案的普适价值。从高德地图及多个行业领先企业的合作案例表明,OceanBase 能够有效整合并优化多系统架构,例如,与老乡鸡的合作通过 OceanBase 整合了多系统架构,极大提升了数据处理效率;另一案例则展示了 OceanBase 如何助力一家企业应对高并发及复杂数据分析,而理想汽车的应用则体现了 OceanBase 在多云环境中的数据流动与存储管理灵活性,进一步证明了 OceanBase 在帮助企业应对大数据挑战、加速数字化转型方面的强大潜力。
Ask Me Anything!
活动现场,为了让 OceanBase 与参会者之间有更加轻松、开放的交流氛围,以及广阔的话题,高质量的探讨。特别设置 “Ask Me Anything”环节。现场 OceanBase CTO 杨传辉与 OceanBase 开源生态总经理封仲淹在现场一一进行了详尽解答,促进深度对话与思想交流。
OceanBase CTO 杨传辉
OceanBase 开源生态总经理封仲淹
在异地多活部署与 OceanBase 支持方面,关于 OceanBase 异地多活架构的实现,杨传辉介绍道,OceanBase 满足从基础到复杂多活场景的需求,例如多基础设施多 IDC 之间的主备库、集群的两地三中心、三地五中心等方案,对于同城或邻近地域的多活策略设计极为友好。当然还有最复杂的单元化方案,将应用、数据库、中间件等在一个城市内部闭环做高可用,需要业务架构做整体设计以适配这种高级别的容灾机制。
在数据库与大数据关系上,封仲淹在讨论数据库与大数据的融合趋势时强调,两者虽各有侧重,但联系日益紧密。数据库擅长处理结构化数据和实时查询,而大数据技术则在处理大规模、多样化的数据集以及高容错和批处理方面展现出优势。随着分布式数据库的处理能力越来越强以及分布式数据库对大数据湖仓的支持, 两者的边界开始模糊, 也促进了两者技术的深度融合与应用创新。
谈及分布式数据库技术的融合发展和分布式数据库技术发展动力,两位专家均表示,这一领域正不断吸纳云计算、大数据等前沿技术成果,在拓宽业务适用范围,提升数据处理效能与系统灵活性。这一趋势不仅反映了市场需求的多元化,也是信息技术不断融合与创新的直接体现,同时也预示着分布式数据库技术正迈向一个更高层次的发展阶段。
期待下次再见
“OceanBase 城市交流会”深圳站圆满结束,现场热情的氛围和活跃的讨论更是让大家留下了深刻的印象。接下来,我们将继续走向五湖四海,与更多用户面对面交流心得体会,解答大家的问题。我们也将与更多的企业和数据库领域专家合作,为大家带来更多深度思考,分享 OceanBase 在行业实践中最前沿的技术应用 ~😊
希望我们在下一次“OceanBase 城市交流会”中,能与大家再次碰面!❤️