RAGFlow:基于OCR和文档解析的下一代 RAG 引擎

news2025/2/23 3:11:54

一、引言

在人工智能的浪潮中,检索增强生成(Retrieval-Augmented Generation,简称RAG)技术以其独特的优势成为了研究和应用的热点。RAG技术通过结合大型语言模型(LLMs)的强大生成能力和高效的信息检索系统,为用户提供了一种全新的交互体验。然而,随着技术的深入应用,一系列挑战也逐渐浮现。

首先,现有的RAG系统在处理海量数据时面临着效率和准确性的双重压力。尽管LLMs能够生成流畅的文本,但在面对复杂、非结构化的数据时,它们往往难以准确把握和召回关键信息。此外,RAG系统在数据管理和理解方面也存在局限,这导致了所谓的“垃圾输入,垃圾输出”(GIGOut)问题,即如果输入数据质量不高,那么生成的答案也很难达到预期的准确性

正是在这种背景下,RAGFlow 应运而生。作为一款端到端的RAG解决方案,RAGFlow 旨在通过深度文档理解技术,解决现有RAG技术在数据处理和生成答案方面的挑战。它不仅能够处理多种格式的文档,还能够智能地识别文档中的结构和内容,从而确保数据的高质量输入。RAGFlow 的设计哲学是“高质量输入,高质量输出”,它通过提供可解释性和可控性的生成结果,让用户能够信任并依赖于系统提供的答案

2024年4月1日,RAGFlow宣布正式开源,这一消息在技术界引起了轰动。开源当天,RAGFlow 在 GitHub 上迅速获得了数千的关注,不到一周时间,已吸收2900颗星,这不仅体现了社区对 RAGFlow 的高度认可,也显示出大家对这一新技术的热情。

随着 RAGFlow 的开源,它不仅为技术社区带来了新的活力,也为解决RAG技术面临的困难提供了新的思路和工具。RAGFlow的出现,标志着我们在构建更加智能、高效和可靠的RAG系统的道路上迈出了坚实的一步。

二、RAGFlow 的核心功能

  • 深度文档理解:"Quality in, quality out",RAGFlow 基于深度文档理解,能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文(token)的场景下快速完成大海捞针测试。对于用户上传的文档,它需要自动识别文档的布局,包括标题、段落、换行等,还包含难度很大的图片和表格。对于表格来说,不仅仅要识别出文档中存在表格,还会针对表格的布局做进一步识别,包括内部每一个单元格,多行文字是否需要合并成一个单元格等。并且表格的内容还会结合表头信息处理,确保以合适的形式送到数据库,从而完成 RAG 针对这些细节数字的“大海捞针”。

  • 可控可解释的文本切片:RAGFlow 提供多种文本模板,用户可以根据需求选择合适的模板,确保结果的可控性和可解释性。因此 RAGFlow 在处理文档时,给了不少的选择:Q&A,Resume,Paper,Manual,Table,Book,Law,通用... 。当然,这些分类还在不断继续扩展中,处理过程还有待完善。后续还会抽象出更多共通的东西,使各种定制化的处理更加容易。

  • 降低幻觉:RAGFlow 是一个完整的 RAG 系统,而目前开源的 RAG,大都忽视了 RAG 本身的最大优势之一:可以让 LLM 以可控的方式回答问题,或者换种说法:有理有据、消除幻觉。我们都知道,随着模型能力的不同,LLM 多少都会有概率会出现幻觉,在这种情况下, 一款 RAG 产品应该随时随地给用户以参考,让用户随时查看 LLM 是基于哪些原文来生成答案的,这需要同时生成原文的引用链接,并允许用户的鼠标 hover 上去即可调出原文的内容,甚至包含图表。如果还不能确定,再点一下便能定位到原文。RAGFlow 的文本切片过程可视化,支持手动调整,答案提供关键引用的快照并支持追根溯源,从而降低幻觉的风险。

  • 兼容各类异构数据源:RAGFlow 支持 支持丰富的文件类型,包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。对于无序文本数据,RAGFlow 可以自动提取其中的关键信息并转化为结构化表示;而对于结构化数据,它则能灵活切入,挖掘内在的语义联系。最终将这两种不同来源的数据统一进行索引和检索,为用户提供一站式的数据处理和问答体验。

  • 自动化 RAG 工作流:RAGFlow 支持全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统;大语言模型 LLM 以及向量模型均支持配置,用户可以根据实际需求自主选择。;基于多路召回、融合重排序,能够权衡上下文语义和关键词匹配两个维度,实现高效的相关性计算;提供易用的 API,可以轻松集成到各类企业系统,无论是对个人用户还是企业开发者,都极大方便了二次开发和系统集成工作。

三、技术架构

3.1、RAGFlow 系统架构

RAGFlow 系统是一个高效、智能的信息处理平台,它通过一系列精心设计的组件,实现了对复杂查询的快速响应和精准处理。这个系统的核心组件包括:

  • 文档解析器:这是 RAGFlow 系统的“大脑”,负责将各种格式的文档进行解析,从中提取出文本、图像和表格等关键内容。无论是PDF、Word文档还是Excel表格,文档解析器都能够准确捕捉信息,为后续的处理打下基础。

  • 查询分析器:这个组件是 RAGFlow 系统的“神经系统”,它对用户的查询进行深入分析,识别并提取出查询中的关键信息。通过这种分析,系统能够更准确地理解用户的需求,为检索工作提供精确的指导。

  • 检索:这是 RAGFlow 系统的“搜索引擎”,它使用查询分析器提供的关键信息,从海量文档中快速检索出与之相关的信息。检索组件的强大能力保证了用户能够及时获得所需的数据。

  • 重排:这个组件是 RAGFlow 系统的“过滤器”,它对检索到的信息进行排序和过滤,确保最终呈现给用户的信息是最相关、最有价值的。通过这种方式,系统能够去除冗余和不相关的数据,提高信息的准确性和可用性。

  • LLM:作为 RAGFlow 系统的“语言生成器”,LLM(大型语言模型)负责将排序后的信息整合并生成最终的答案或输出。LLM的强大生成能力不仅能够确保答案的准确性,还能够使答案表达得更加自然和流畅。

这些组件共同构成了RAGFlow系统的强大架构,使得它能够高效地处理用户的查询,快速地从文档中检索信息,并生成准确、有用的答案。这个系统不仅提高了信息处理的效率,也极大地提升了用户的使用体验。

RAG 系统的架构是一个精密而高效的工作流程,它通过一系列精心设计的组件,确保了用户查询的准确处理和高质量答案的生成。这个系统的工作流程可以概括为以下几个步骤:

  • 首先,当用户输入一个查询时,查询分析器便开始工作。它对用户的查询进行深入分析,从中提取出关键信息,这些信息是后续检索工作的基础。

  • 接下来,检索模块根据查询分析器提供的关键信息,在大量的文档资源中寻找与之相关的数据。这一步骤是在整个系统中非常关键的一环,因为它直接决定了后续答案的相关性和准确性。

  • 然后,重排模块对检索到的信息进行进一步的排序和过滤。这一步骤确保了最终呈现给用户的信息是经过优化的,去除了不相关或冗余的内容,使得答案更加精确和有价值。

  • 最后,LLM(大型语言模型)根据重排模块提供的信息,生成最终的答案或输出。LLM的强大生成能力使得答案不仅准确,而且表达流畅自然,就像一个知识丰富的助手在回答用户的问题一样。

通过这样的工作流程,RAG系统架构能够高效地处理用户的查询,从文档中提取有价值的信息,并生成准确、有用的答案。这种系统不仅提高了信息检索的效率,也极大地提升了用户体验。

3.2、DeepDoc:深度文档理解的基石

DeepDoc 是 RAGFlow 的核心组件,它利用视觉信息和解析技术,对文档进行深度理解,提取文本、表格和图像等信息。DeepDoc 的功能模块包括:

  • OCR 技术:支持多种语言和字体,并能够处理复杂的文档布局和图像质量。

  • 布局识别(布局分析识别)技术RAGFlow 使用 Yolov8 进行 OCR/布局识别/TSR(表格结构识别),识别文档的布局结构,例如标题、段落、表格、图像等。

  • 表格结构识别 (TSR):识别表格的结构,例如行列、表头、单元格合并等,并将其转换为自然语言句子。

  • 文档解析:支持解析 PDF、DOCX、EXCEL 和 PPT 等多种文档格式,并提取文本块、表格和图像等信息。

  • 简历解析:将简历中的非结构化文本解析为结构化数据,例如姓名、联系方式、工作经历、教育背景等。

3.3、LLM 和嵌入模型在 RAGFlow 中的作用

在 RAGFlow 中,LLM(Large Language Models,大型语言模型)和嵌入模型(Embedding Models)扮演着至关重要的角色,它们共同协作以实现高效的信息检索和生成任务。

LLM是RAGFlow中的核心组件之一,负责理解和生成自然语言。在RAGFlow中,LLM的主要作用包括:

  • 理解用户查询: LLM能够理解用户的自然语言查询,并将其转化为可执行的指令或问题。

  • 生成回答: 基于用户查询和检索到的信息,LLM能够生成流畅、连贯且相关性强的回答。

  • 提供可控性: LLM可以根据用户的指示生成特定风格或格式的回答,确保生成内容的可控性和准确性。

  • 跨语言能力: 对于多语言环境下的RAG任务,LLM需要具备跨语言理解和生成的能力,以便在不同语言之间进行有效的信息检索和转换。

嵌入模型在RAGFlow中主要用于将文本数据转换为向量表示,这对于信息检索和相似性比较至关重要。嵌入模型的主要作用包括:

  • 文本向量化: 嵌入模型将文本(如文档、段落、句子等)转换为数值向量,这些向量能够表示文本的语义信息。

  • 相似性比较: 通过计算向量之间的相似度,嵌入模型可以帮助 RAGFlow 快速找到与用户查询最相关的信息。

  • 数据检索: 嵌入模型使得RAGFlow能够在大规模数据集中高效地执行检索任务,尤其是在处理非结构化数据时,如文档和图片。

  • 多模态能力: 对于包含图表、图片等非文本元素的文档,嵌入模型可以辅助提取和理解这些元素的语义信息,增强RAGFlow的多模态处理能力。

在 RAGFlow 中,LLM 和嵌入模型的结合使用,使得系统不仅能够理解复杂的自然语言查询,还能够在海量数据中快速准确地检索到相关信息,并生成高质量的回答。这种协同工作机制大大提高了RAGFlow在知识库问答、企业数据集成和多模态信息处理等场景下的应用潜力和效率。

3.4、文本分块过程中的可视化和人工干预

RAGFlow在处理文档时,特别强调了智能文档处理的可视化和可解释性。这意味着用户不仅可以获得由系统处理后的结果,还能够清晰地看到文档是如何被分块和解析的。这样的设计使得用户可以对AI的处理结果进行核查和必要的干预,确保最终输出的准确性和可靠性。

在文本分块过程中,RAGFlow首先会对用户上传的文档进行结构识别,这包括但不限于标题、段落、换行等。对于更为复杂的元素,如图片和表格,RAGFlow也会进行详细的布局识别和结构分析。例如,在处理表格时,系统不仅会识别出表格的存在,还会进一步识别表格内部的每一个单元格,以及多行文字是否需要合并成一个单元格等。这些信息都会被合理地处理并结合表头信息,以确保数据的正确性和完整性。

RAGFlow的可视化功能允许用户查看文档解析的具体结果。用户可以看到文档被分割成了多少块,各种图表是如何处理的。如果系统识别的结果与用户的预期有所出入,用户可以进行适当的干预。这种干预可能包括调整分块的方式、合并或分割某些部分,以及修改表格的识别结果等。RAGFlow提供了直观的用户界面,使得用户可以轻松地进行这些操作。

此外,RAGFlow还提供了一种机制,允许用户通过点击来定位到原文,对比处理结果和原文的差异。这种对比功能不仅可以帮助用户确认AI的处理是否准确,还可以让用户对处理过程有更多的了解和控制。这种可视化和可解释性的设计,大大提高了用户对AI处理结果的信任度,同时也使得RAGFlow成为一个更加强大和灵活的工具。

四、设置和运行 RAGFlow

RAGFlow 是一个基于深度文档理解的开源 RAG(检索增强生成)引擎,旨在为企业提供一个简化的 RAG 工作流程。以下是设置和运行 RAGFlow 的详细指南:

4.1、系统要求

在开始安装 RAGFlow 之前,请确保您的系统满足以下基本要求:

  • CPU 核心数:至少 2 核

  • 内存大小:至少 8 GB

4.2、安装 Docker

RAGFlow 需要 Docker 来运行。如果您的本地计算机(Windows、Mac 或 Linux)尚未安装 Docker,请访问 Docker 官网进行安装。

4.3、启动 RAGFlow 服务器

  1. 调整系统设置:确保 vm.max_map_count 的值大于或等于 262144。您可以通过运行以下命令来检查和设置该值:

# 要检查 vm.max_map_count 的值:
sysctl vm.max_map_count

# 如果不是,请将 vm.max_map_count 重置为至少 262144 的值。
sudo sysctl -w vm.max_map_count=262144

为了使更改永久生效,请在 /etc/sysctl.conf 文件中添加或更新 vm.max_map_count=262144

1、克隆 RAGFlow 存储库

git clone https://github.com/infiniflow/ragflow.git

2、克隆 RAGFlow 存储库:

git clone https://github.com/infiniflow/ragflow.git

3、构建 Docker 镜像并启动服务器

cd ragflow/docker
docker compose up -d

  核心映像大小约为 9 GB,加载可能需要一些时间。

4、检查服务器状态

docker logs -f ragflow-server

  如果系统成功启动,您将看到确认消息。

    ____                 ______ __
   / __ \ ____ _ ____ _ / ____// /____  _      __
  / /_/ // __ `// __ `// /_   / // __ \| | /| / /
 / _, _// /_/ // /_/ // __/  / // /_/ /| |/ |/ /
/_/ |_| \__,_/ \__, //_/    /_/ \____/ |__/|__/
              /____/

 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:9380
 * Running on http://172.22.0.5:9380
 INFO:werkzeug:Press CTRL+C to quit

4.4、配置选项

  1. 选择 LLM 工厂:在 service_conf.yaml 文件中的 user_default_llm 部分选择所需的 LLM 工厂。

  2. API 密钥设置:使用相应的 API 密钥更新 service_conf.yaml 文件中的 API_KEY 字段。更多信息请参阅 /docs/llm_api_key_setup.md

  3. 要更新默认 HTTP 服务端口 (80),请转到 docker-compose.yml 并将 80:80 更改为 <YOUR_SERVING_PORT>:80

所有系统配置的更新需要重新启动系统才能生效:docker-compose up -d

4.5、访问 RAGFlow 界面

一旦服务器启动并运行,您可以通过浏览器访问 RAGFlow 界面。在默认配置下,您可以省略默认 HTTP 服务端口 80。只需在浏览器中输入 RAGFlow 服务器的 IP 地址即可。

通过上述步骤,您可以成功设置和运行 RAGFlow。确保遵循所有配置指南,并在启动服务器后检查其状态以确认一切正常。通过选择适当的 LLM 工厂和设置 API 密钥,您可以确保 RAGFlow 与您的业务需求无缝集成。最后,通过简单的浏览器操作,您就可以开始使用 RAGFlow 强大的文档理解和问答功能了。

五、RAGFlow 未来规划

RAGFlow 作为一款先进的检索增强生成引擎,其未来发展规划主要围绕以下几个核心方向:

  1. 增强多语言支持能力

  1. RAGFlow 将致力于提升其对不同语言的支持能力,使其能够更好地服务于全球化的市场。这意味着 RAGFlow 将开发和集成更多语言的文档结构识别模型,从而能够准确理解和处理各种语言的非结构化数据。这不仅包括常见的英语、中文等,还将扩展到其他语种,以满足不同地区用户的需求。

  1. 提升本地大型语言模型(LLM)的性能

  1. 为了提高 RAGFlow 在处理非结构化数据时的准确性和效率,未来将对本地的大型语言模型进行优化和升级。这可能包括改进模型的训练数据、调整模型结构以及采用新的算法和技术,以提高模型的理解和生成能力。通过这些改进,RAGFlow 将能够更准确地理解和生成复杂的语言内容,为用户提供更加丰富和精准的信息。

  1. 扩展网络爬虫功能

  1. RAGFlow 计划扩展其网络爬虫的功能,以便能够从更广泛的来源获取数据。这包括接入企业的各类数据源,如 MySQL 的 binlog、数据湖的 ETL 以及外部的爬虫等。通过这些数据源的集成,RAGFlow 将能够更全面地收集和分析信息,为用户提供更全面的知识库和更准确的检索结果。

  1. 适应更多复杂场景

  1. RAGFlow 的设计目标之一是让其能够适应更多的复杂场景,尤其是企业级(B 端)的应用场景。为此,RAGFlow 将开发更多的定制化模板和处理流程,以满足不同行业和岗位对文档处理和信息检索的特殊需求。这可能涉及到对特定行业术语的理解、对复杂文档结构的处理等。

  1. 提供更灵活的企业级数据接入

  1. RAGFlow 将推出面向企业级数据接入的低代码平台,使得企业能够更容易地将内部数据和文档整合到 RAGFlow 系统中。这将极大地提高企业使用 RAGFlow 的便利性和效率,同时也为企业提供了更多的灵活性和自主性。

  1. 高级内容生成

  1. 除了问答对话之外,RAGFlow 还将提供高级内容生成的功能,如长文生成等。这将使得 RAGFlow 不仅能够回答用户的问题,还能够创作文章、报告等内容,为用户提供更加全面的服务。

通过这些未来规划,RAGFlow 旨在成为一个更加强大、灵活且易于使用的系统,能够满足不同用户在各种场景下的需求,特别是在企业级应用中发挥重要作用,可以期待一下。

六、总结

在对 RAGFlow 的探索中,我们可以清晰地看到其在RAG(Retrieval-Augmented Generation)领域中的重要地位和显著优势。RAGFlow作为一款下一代开源RAG引擎,不仅在问答对话方面表现出色,还具备高级内容生成的能力,例如长文生成等。这使得RAGFlow能够为用户提供更为全面和深入的服务,满足不同场景下的需求,尤其在企业级应用中发挥着重要作用。

RAGFlow 的核心功能和技术架构,包括其系统架构、DeepDoc深度文档理解模块、LLM和嵌入模型的应用,以及文本分块过程中的可视化和人工干预等,共同构成了一个强大、灵活且易于使用的系统。这些特点不仅提升了用户体验,也为开发者提供了更多的创新空间。

开源项目如 RAGFlow 在推动技术创新方面扮演着至关重要的角色。它们促进了知识的共享和技术的民主化,为全球开发者社区提供了一个共同成长和协作的平台。通过开源,RAGFlow鼓励更多的开发者参与到项目中来,共同解决问题,分享最佳实践,从而加速了创新的步伐。

最终,RAGFlow 的成功不仅体现在其技术成就上,更在于其对整个RAG领域乃至人工智能技术发展的贡献。它不仅推动了相关技术的创新和应用,也为未来的技术进步和产业发展奠定了坚实的基础。随着RAGFlow的不断发展和完善,我们有理由相信,它将继续在推动人工智能技术进步和促进社会数字化转型方面发挥重要作用。

七、参考文献

[1]. DeepDoc: https://huggingface.co/InfiniFlow/deepdoc

[2]. RAGFlow GitHub: https://github.com/infiniflow/ragflow

[3]. RAGFlow Demo: https://demo.ragflow.io/

[4]. Infinity : https://github.com/infiniflow/infinity

[5]. RAGFlow YC News: https://news.ycombinator.com/item?id=39896923

[6]. DTrOCR: Decoder-only Transformer for Optical Character Recognition: https://arxiv.org/pdf/2308.15996v1.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1586179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

消息队列之-----------------zookeeper机制

目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 5.1统一命名服务 5.2统一配置管理 5.3统一集群管理 5.4服务器动态上下线 5.5软负载均衡 六、ZooKeeper的选举机制 6.1第一次启动选举机制 6.2非…

怎么区分开关电源的PFM与PWM模式?

原文来自微信公众号&#xff1a;工程师看海&#xff0c;与我联系&#xff1a;chunhou0820 看海原创视频教程&#xff1a;《运放秘籍》 大家好&#xff0c;我是工程师看海。 DCDC开关电源有两种常见的工作模式&#xff0c;就是我们常听说的PWM模式和PFM模式&#xff0c;一种是普…

算法训练营第二十三天(二叉树完结)

算法训练营第二十三天&#xff08;二叉树完结&#xff09; 669. 修剪二叉搜索树 力扣题目链接(opens new window) 题目 给定一个二叉搜索树&#xff0c;同时给定最小边界L 和最大边界 R。通过修剪二叉搜索树&#xff0c;使得所有节点的值在[L, R]中 (R>L) 。你可能需要改…

2024年第十七届 认证杯 网络挑战赛 (A题)| 保暖纤维的保暖能力 |数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题。 让我们来看看认证杯 网络挑战赛 (A题&#xff09;&#xff01…

两数相加(leetcode)

给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数都不会以 0 …

基于Java的图书借阅网站, java+springboot+vue开发的图书借阅管理系统 - 毕业设计 - 课程设计

基于Java的图书借阅网站&#xff0c; javaspringbootvue开发的图书借阅管理系统 - 毕业设计 - 课程设计 文章目录 基于Java的图书借阅网站&#xff0c; javaspringbootvue开发的图书借阅管理系统 - 毕业设计 - 课程设计一、功能介绍二、代码结构三、部署运行1、后端运行步骤2、…

社会工程学——setoolkit的简单使用(克隆钓鱼网站)

Social Engineer Toolkit&#xff08;SET&#xff09;是一个开源的社会工程学攻击工具包&#xff0c;旨在模拟和执行多种社会工程学攻击&#xff0c;例如钓鱼、恶意软件传播和其他形式的社会工程学攻击。SET由David Kennedy&#xff08;也被称为"ReL1K"&#xff09;开…

ubuntu20.04下搜狗输入法的安装

1、安装 fcitx 输入法的框架 sudo apt install fcitx-bin sudo apt-get install fcitx-table 2、Ubuntu下的默认浏览器火狐搜索 搜狗输入法 搜狗输入法linux-首页 &#xff08;下载x86_64) 3、安装依赖 sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-modu…

取数游戏(dfs)

前言&#xff1a; 该题取自洛谷P1123&#xff0c;题主用的dfs&#xff08;深度优先搜索&#xff09; 题目描述&#xff1a; 数据范围&#xff1a; 思路&#xff1a; 思路见代码&#xff0c;注释的很清晰嗷 AC代码&#xff1a; #include <iostream> #include <alg…

【学习笔记】R语言入门与数据分析1

数据分析 数据分析的过程&#xff1a; 数据采集 数据存储 数据分析 数据挖掘 数据可视化 进行决策 数据挖掘 数据量大 复杂度高&#xff0c;容忍一定的误差限 追求相关性而非因果性 数据可视化 直观明了 R语言介绍 R是免费的&#xff08;开源软件、扩展性好&#xff09;…

PlanUML和Mermaid哪个好?

引言 在当今信息化快速发展的时代&#xff0c;数据可视化和图表工具不仅对于程序员&#xff0c;也对于非技术背景的人士至关重要。绘图工具可以帮助我们更好地理解和表达复杂的概念或数据流。PlantUML和Mermaid是两款被广泛使用的绘图语言&#xff0c;它们都能够通过简洁的文本…

4.11学习总结

一.IO流 一.java中IO的初步了解 (一).概念: Java中I/O操作主要是指使用Java进行输入&#xff0c;输出操作. Java所有的I/O机制都是基于数据流进行输入输出&#xff0c;这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中表示数据…

基于Python豆瓣电影数据可视化分析系统的设计与实现

大数据可视化项目——基于Python豆瓣电影数据可视化分析系统的设计与实现 2024年4月最新编写的新项目 项目介绍 本项目旨在通过对豆瓣电影数据进行综合分析与可视化展示&#xff0c;构建一个基于Python的大数据可视化系统。通过数据爬取收集、清洗、分析豆瓣电影数据&#xff…

【SpringBoot】SpringBoot项目快速搭建

本文将介绍Springboot项目的快速搭建 快速创建SpringBoot项目 打开IDEA在File->New->Project中新建项目 点击左侧的Spring Initializr 输入以下信息&#xff1a; Name 项目名称Group 根据公司域名来&#xff0c;或者默认com.example【倒序域名】Package Name 包名&am…

【java探索之旅】走进循环结构 深入解析while、for和do while的用法

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java编程秘籍 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、循环结构1.1 while循环1.2 while代码示例1.3 break1.4 continue 二、for循环2.1 基…

蓝桥杯第十一届c++大学B组详解

目录 1.字符串排序 2.门牌制作 3.即约分数 4.蛇型填数 5.跑步锻炼 6.七段码 7.成绩统计 8.回文日期 9.字串分值和 10.平面切分 1.字符串排序 题目解析&#xff1a;这个题目真没搞懂。有会的大佬教我一下谢谢。 2.门牌制作 题目解析&#xff1a;出过超级多这类题目&am…

Java springboot+vue宠物爱心组织管理系统附赠万字文档

项目演示视频: &#xff08;有文档&#xff09;Java springboot宠物爱心组织管理系统 项目介绍: &#xff08;有文档&#xff09;Java springboot宠物爱心组织管理系统 技术&#xff1a; 基于springboot Vue 的宠物爱心组织管理系统&#xff08;宠物爱心组织管理系统&#xf…

12-pyspark的RDD算子注意事项总结

目录 相近算子异同总结相近变换算子异同foreach和foreachPartitionfold和reducecoalesce和repatition 相近动作算子异同cache和persist 算子注意事项需要注意的变换算子需要注意的动作算子 PySpark实战笔记系列第三篇 10-用PySpark建立第一个Spark RDD(PySpark实战笔记系列第…

【记录】Prompt模板|作为甲方怎么清晰专业地描述自己的需求(又名“乙方,给你的甲方扔个GPT解放自己吧”)

这篇Prompt摘抄并修改自朋友送给我的书的第49页5.2.3让ChatGPT构建提示&#xff0c;质量挺不错&#xff0c;支持一下她的博客&#xff1a;【好书推荐2】AI提示工程实战&#xff1a;从零开始利用提示工程学习应用大语言模型。 书长这样&#xff1a; 不啰嗦了&#xff0c;正文如…

代码解读:使用Stable Diffusion完成相似图像生成任务

Diffusion models代码解读&#xff1a;入门与实战 前言&#xff1a;作为内容生产重要的一部分&#xff0c;生成相似图像是一项有意义的工作&#xff0c;例如很多内容创作分享平台单纯依赖用户贡献的图片已经不够了&#xff0c;最省力的方法就是利用已有的图片生成相似的图片作为…