【全队项目】智能学术海报生成系统PosterGenius(项目介绍)

news2025/3/29 7:58:21

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏:🏀大模型实战训练营_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 前言

2. 项目进度

3. 项目介绍

3.1 学术海报是什么

3.2 传统学术海报制作的工具 

3.2 基于LLM生成论文Poster技术的必要性与可行性分析

3.3 市场调研及前沿科学领域研究调研

3.4 项目介绍

3.4.1 项目名称和商标

3.4.2 模型微调&提示词调优使用的数据集

4. 项目任务和目标

4.1 论文分部分概述(Introduction,method等)生成

4.1.1 任务要点

4.1.2 相关技术

4.1.3 量化指标

4.2 Poster 格式(layout)生成

4.2.1 任务要点

4.2.2 相关技术

4.2.3 参考模型(非本项目模型,仅做参考)

4.2.4 量化指标

4.3 Poster 背景图片个性化生成

4.3.1 任务要点

4.3.2 相关技术

4.3.3 方案设计

4.3.4 量化指标

4.4 论文概述与Poster图片的匹配

4.4.1 任务要点

4.4.2 相关技术与量化指标

4.5 前后端图形化展示

4.5.1 前端工作内容

4.5.2 后端工作内容

4.5.3 量化指标

5. 总结


1. 前言

        【大模型实战训练营】专栏的建立得益于山东大学软件学院2025年的创新实训课程。在创新实训中,我们小组所选择的研究课题是【基于Deepseek、Janus等大模型的智能学术海报生成系统】,因此应山东大学戴鸿君教授要求,创建本专栏将我们的研究成果和研究全过程公开展示。

2. 项目进度

PosterGenius项目开发进度
项目开发活动时间状态
项目介绍2025.3.22

3. 项目介绍

3.1 学术海报是什么

        要明白什么是学术海报,我们先要明白海报的概念。海报是一种宣传的形式,用于向公众展示自己的商品或者是服务等。而学术海报则是向广大与会者或读者介绍自己的学术工作,帮助大家快速理解你工作的内容、步骤与意义。如下图所示:

3.2 传统学术海报制作的工具 

        PhotoShop和PPT就是最常见的两种传统制作海报的工具。Photoshop的优点在于插入的图片在导出之后能够调整分辨率,从而更加清晰,但缺点在于Photoshop需要电脑足够的内存,并且对于大部分的小伙伴来说PS上手难度较高,对于诸多操作还需要重新学习,因此在制作海报的过程中可能会耽误总体进度。PPT是目前大家所使用的主流制作软件,其优点在于普及度高,大家在使用的过程中较为方便、快捷。但缺点在于PPT无法在导出时调整图片分辨率,即使可以调整但步骤非常繁琐。但根据小科的制作经验来看,PPT做出来的海报完全能够满足使用需求,除特殊情况下大家可以放心使用。

        但是所有传统海报制作工具都存在一个难以避免的弊端——制作费时费力,且难以转交。从某种角度来说,制作学术海报是一个劳动密集型的工作,因为并没有很精密的技术要求。但由于其他人又难以快速对你的论文有深入的理解,因此这一无聊的工作又无法轻易转交给其他人。

3.2 基于LLM生成论文Poster技术的必要性与可行性分析

        科学海报是用来以图形的形式有效地展示科学论文的贡献。然而,创建一个设计良好的海报,有效地总结了一篇论文的核心是劳动密集型和耗时的。一个系统可以自动设计并生成良好的论文海报从而将减少科研工作者的工作量,并帮助读者直观地了解论文的大纲。 这就是为什么我们团队想要制作这样一款智能化软件。

        目前关于海报生成系统的研究,相当有限,主要原因是缺乏公开可用的数据集。但是有幸在2024年,一篇CVPR论文的研究团队,他们整理了SciPostLayout数据集,其中包括7855个科学海报和用于版面分析和生成的手动版面注释还包含100篇与海报配对的科学论文。同时数据集中的所有海报和论文都是根据CC-BY许可证,并公开提供。这就为我们工作的开展提供了必要条件。下图便是论文中做出贡献的前沿工作者们:

3.3 市场调研及前沿科学领域研究调研

       虽然通过利用ML模型自动化这项任务已经显示出希望,但对科学海报的研究由于任务的高度复杂性和多模态性,真正有成果的仍然很少。虽然以前的研究已经建立了数据集来评估科学论文的海报生成系统,但这些数据集要么不是公开的,要么数据许可证不清楚,这使得该研究领域缺乏黄金标准基准。导致无论是市场上实地化的产品,还是科学界前沿的研究员们都没有真正在这一领域开展工作。这个领域仍然是一个空白领域,等待大家研究探索。

3.4 项目介绍

3.4.1 项目名称和商标

        我们的项目叫做PosterGenius——智能学术海报生成系统。旨在基于Deepseek、Janus等开源大模型,辅助以RAG数据增强模块、多LLM讨论纠正模块、CLIP+T2I循环矫正模块、Prompt提示词调优、本部部署+微调等技术真正实现高质量的学术海报生成系统。

        下图为本项目的log(本专栏虽然公开,但是未经允许严禁盗用log或公开商用代码):

3.4.2 模型微调&提示词调优使用的数据集

        数据集主要来源于huggingface中开源数据集——scipostlayout。该数据集包含7855个带有手动布局注释的科学海报。数据集中包含的所有海报都在CC-BY许可证1下。下图显示SciPostLayout的海报和注释示例。

        SciPostLayout可以用于评估布局分析和生成系统,方法与现有其他领域的数据集相同。 但是SciPostLayout的布局分析和生成都比其他领域的其他数据集更具挑战性,因为图和表格等元素的位置不同。此外,我们手动收集了与海报相关的100篇论文,以利用SciPostLayout从科学论文中生成布局。

4. 项目任务和目标

论文Poster生成这个问题分为五个子任务:

  1. 论文分部分概述(Introduction,method等)生成。
  2. Poster 格式(layout)生成。
  3. Poster 背景图片个性化调整。
  4. 论文概述与Poster图片的匹配。
  5. 前后端图形化展示。

4.1 论文分部分概述(Introduction,method等)生成

4.1.1 任务要点

采用多智能体辩论技术完成。

  • 任务要点1:从PDF论文中提取文本

  • 任务要点2:调用多模型API生成摘要

  • 任务要点3:优化摘要内容并保存结果。

4.1.2 相关技术

        涉及PDF解析工具(如PyMuPDF)、多模型API调用(如ChatGPT、DeepSeek)、以及多轮辩论优化机制。

4.1.3 量化指标

        任务选取了至少100篇PDF论文作为输入数据,每篇论文平均大小为5MB,文本提取完整率达到98%;调用API的成功率不低于99%,响应时间控制在3秒以内;生成的摘要点数量为每篇论文5-10个,格式标准化处理准确率为100%;通过2轮辩论优化,最终摘要的语义一致性评分达到4/5(人工评估),覆盖论文核心内容的90%以上;JSON文件保存成功率为100%,系统资源占用控制在CPU使用率≤80%、内存使用≤2GB,单篇论文处理总时间不超过30秒。

4.2 Poster 格式(layout)生成

4.2.1 任务要点

  • 任务要点1:根据概述内容生成个性化排版

例如:有的文章有三个method方法,则method部分需要三个layout框。 

4.2.2 相关技术

  1. 通过Deepseek生成论文相关Prompt,去约束LayoutGeneratio model。
  2. 通过Deepseek生成论文的summary,然后让Deepseek再生成对应的Prompt,去约束LayoutGeneratio model。

4.2.3 参考模型(非本项目模型,仅做参考)

4.2.4 量化指标

        SciPostLayout测试集上的布局分析性能到达下面要求:

4.3 Poster 背景图片个性化生成

4.3.1 任务要点

        在构建一个自动化论文海报生成助手,用户可上传 PDF 格式的论文,系统将自动解析内容并生成符合用户自定义风格的论文海报。海报不仅要总结论文的核心内容,还需图文并茂,增强视觉吸引力。为了提升海报风格的多样性和内容质量,我们利用其自我反思和多模态评估的特性,优化文本描述与图像匹配的效果。

4.3.2 相关技术

大语言模型(deepseek

  1. 负责解析论文内容,生成摘要和核心要点
  2. 通过 Prompt Engineering 控制输出风格
  3. 利用自我反思机制优化文本摘要,使其更加精准和可

多模态模型(CLIP & T2I

  1. CLIP:用于文本-图像对齐,计算海报中的图像与文本描述的相似度,过滤出符合风格需求的图像
  2. 文本生成图像模型(T2I):根据论文内容(description list)自动生成或检索相关的配图

自我反思与迭代优化

  1. 通过 LLMs 进行多轮文本优化,提升海报文本质量
  2. 利用 CLIP 进行图像筛选,确保选取最相关的图片
  3. 结合用户反馈进行风格调整

4.3.3 方案设计

论文解析

  1. 提取论文的摘要、方法、实验结果等关键信息
  2. 生成不同风格的文本描述(学术风、科普风等)

图像匹配

  1. 若论文包含原始图片,进行智能筛选和增强
  2. 若缺少配图,利用 CLIP 进行图像检索,或者利用 T2I 生成相关图片

海报生成

  1. 采用模板填充方式,结合文本+图片自动排版
  2. 通过 LLM 进行风格优化,确保内容通俗易懂

 用户交互

  1. 提供多种风格选项(简约、科技感、炫酷等)
  2. 允许用户对自动生成的海报进行微调

4.3.4 量化指标

        文本摘要质量 BLEU、ROUGE 评分,可以使用 nltk 库中的 bleu_score 模块来计算 BLEU 分数,或者可以使用 rouge 库来计算 ROUGE 分数。 文本-图像匹配度 CLIP 相似度分数 >60%。处理一篇论文的平均时间 <50s

4.4 论文概述与Poster图片的匹配

4.4.1 任务要点

        内容语义对齐:将论文各章节(Introduction/Method/Results)中的文字描述与对应图表/示意图精准关联。确保Poster中的图文组合与论文内容逻辑一致(如Method文字段落旁放置对应算法流程图)。

4.4.2 相关技术与量化指标

  1. 粗粒度判断:BLIP-2区域定位文本中关键词对应的图片的小标题。局部对齐IOU ≥0.6
  2. 细粒度判断:CLIP多模态编码计算上下文文本描述与图片的相似度,判断选择那些图片。匹配准确率(Top-3召回率 ≥65%)

4.5 前后端图形化展示

4.5.1 前端工作内容

用户界面设计与实现:

  1. PDF上传界面开发
  2. 支持拖拽上传、文件选择、格式校验(仅允许PDF文件)
  3. 展示上传进度条、文件列表及上传状态(成功/失败)
  4. 错误提示(如文件过大、格式错误)
  5. 海报编辑界面开发
  6. 实时保存草稿功能(本地缓存或自动同步后端)
  7. 实时预览功能
  8. 展示海报生成效果,支持样式调整(颜色、字体、布局等)

用户交互逻辑:

  1. 事件处理
  2. 实现按钮点击事件(如“生成海报”“保存草稿”“导出PDF”)
  3. 处理表单提交逻辑(用户参数输入、配置选择)
  4. 状态反馈
  5. 加载状态提示(如上传中、AI处理中、生成中等)
  6. 错误反馈(网络异常、模型处理失败)

组件集成与优化:

  1. PDF解析组件
  2. 基于 pdf.js 改造的文本/图表提取组件
  3. 解析结果可视化展示(如摘要、关键图表预览)
  4. 海报渲染引擎
  5. 支持导出高分辨率海报图片(PNG/PDF格式)

数据与后端交互:

  1. 上传PDF文件至后端
  2. 数据处理
  3. 解析后端返回的AI生成结果(如图片URL、错误码)
  4. 本地缓存用户草稿及历史任务记录

4.5.2 后端工作内容

AI模型对接:

  1. 模型接口封装
  2. 调用模型 解析PDF内容,提取标题、摘要、图表数据
  3. 调用模型 生成海报布局及视觉效果(基于用户参数)
  4. 处理模型返回结果(如图片存储路径、错误日志)

核心接口开发:

  1. 文件上传接口(支持大文件分片上传)
  1. 任务提交/查询/取消接口
  2. 海报生成接口(接收用户参数,触发AI处理)

4.5.3 量化指标

        论文PDF解析准确率≥ 65%,能够准确提取出论文中的标题、方法、结果等关键信息。单任务生成时间≤ 50秒,从上传PDF到生成最终海报的时间

5. 总结

 【如果想学习更多深度学习文章,可以订阅一下热门专栏】

  • 《PyTorch科研加速指南:即插即用式模块开发》_十二月的猫的博客-CSDN博客
  • 《深度学习理论直觉三十讲》_十二月的猫的博客-CSDN博客
  • 《AI认知筑基三十讲》_十二月的猫的博客-CSDN博客

如果想要学习更多pyTorch/python编程的知识,大家可以点个关注并订阅,持续学习、天天进步你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2321182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【线程安全问题的原因和方法】【java形式】【图片详解】

在本章节中采用实例图片的方式&#xff0c;以一个学习者的姿态进行描述问题解决问题&#xff0c;更加清晰明了&#xff0c;以及过程中会发问的问题都会一一进行呈现 目录 线程安全演示线程不安全情况图片解释&#xff1a; 将上述代码进行修改【从并行转化成穿行的方式】不会出…

解决IDEA中maven找不到依赖项的问题

直接去官网找到对应的依赖项jar包&#xff0c;并且下载到本地&#xff0c;然后安装到本地厂库中。 Maven官网&#xff1a;https://mvnrepository.com/ 一、使用mvn install:install-file命令 Maven提供了install:install-file插件&#xff0c;用于手动将jar包安装到本地仓库…

pyside6的QGraphicsView体系,当鼠标位于不同的物体,显示不同的右键菜单

代码&#xff1a; # 设置样本图片的QGraphicsView模型 from PySide6.QtCore import Qt, QRectF, QObject from PySide6.QtGui import QPainter, QPen, QColor, QAction, QMouseEvent from PySide6.QtWidgets import QGraphicsView, QGraphicsScene, QGraphicsPixmapItem, QGra…

Python自动化测试 之 DrissionPage 的下载、安装、基本使用详解

Python自动化测试 之 DrissionPage 使用详解 &#x1f3e1;前言&#xff1a;一、☀️DrissionPage的基本概述二、 &#x1f5fa;️环境安装2.1 ✅️️运行环境2.2 ✅️️一键安装 三、&#x1f5fa;️快速入门3.1 页面类&#x1f6f0;️ChromiumPage&#x1f6eb; SessionPage&…

Java替换jar包中class文件

在更新java应用版本的运维工作中&#xff0c;由于一些原因&#xff0c;开发没办法给到完整的jar包&#xff0c;这个时候&#xff0c;就可以只将修改后的某个Java类的class文件替换掉原来iar包中的class文件&#xff0c;重新启动服务即可&#xff1a; 1、将jar包和将要替换的cl…

AI Tokenization

AI Tokenization 人工智能分词初步了解 类似现在这个&#xff0c;一格子 一格子&#xff0c;拼接出来的&#xff0c;一行或者一句&#xff0c;像不像&#xff0c;我们人类思考的时候组装出来的话&#xff0c;并用嘴说出来了呢。

关于大数据的基础知识(四)——大数据的意义与趋势

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于大数据的基础知识&#xff08;四&a…

某视频的解密下载

下面讲一下怎么爬取视频&#xff0c;这个还是比小白的稍微有一点绕的 首先打开网址&#xff1a;aHR0cDovL3d3dy5wZWFydmlkZW8uY29tL3BvcHVsYXJfNA 首页 看一下&#xff1a; 有一个标题和一个href&#xff0c;href只是一个片段&#xff0c;待会肯定要拼接&#xff0c; 先找一…

Day20-前端Web案例——部门管理

目录 部门管理1. 前后端分离开发2. 准备工作2.1 创建Vue项目2.2 安装依赖2.3 精简项目 3. 页面布局3.1 介绍3.2 整体布局3.3 左侧菜单 4. Vue Router4.1 介绍4.2 入门4.3 案例4.4 首页制作 5. 部门管理5.1部门列表5.1.1. 基本布局5.1.2 加载数据5.1.3 程序优化 5.2 新增部门5.3…

从切图仔到鸿蒙开发01-文本样式

从切图仔到鸿蒙开发01-文本样式 本系列教程适合 HarmonyOS 初学者&#xff0c;为那些熟悉用 HTML 与 CSS 语法的 Web 前端开发者准备的。 本系列教程会将 HTML/CSS 代码片段替换为等价的 HarmonyOS/ArkUI 代码。 页面结构 HTML 与 ArkUI 在 Web 开发中&#xff0c;HTML 文档结…

菱形虚拟继承的原理

一 &#xff1a;菱形继承的问题 普通的菱形继承存在数据冗余和二义性的问题 &#xff0c;如下代码&#xff1a; class Person { public:string _name; //姓名 };class Student : public Person { protected:int _num; //学号 };class Teacher : public Person { protected:int…

【数据结构】C语言实现树和森林的遍历

C语言实现树和森林的遍历 导读一、树的遍历二、森林的遍历2.1 为什么森林没有后序遍历?2.2 森林中存不存在层序遍历?三、C语言实现3.1 准备工作3.2 数据结构的选择3.3 树与森林的创建3.4 树与森林的遍历3.4.1 先根遍历3.4.2 后根遍历3.4.3 森林的遍历3.5 树与森林的销毁3.6 算…

第四天 开始Unity Shader的学习之旅之Unity中的基础光照

Unity Shader的学习笔记 第四天 开始Unity Shader的学习之旅之Unity中的基础光照 文章目录 Unity Shader的学习笔记前言一、我们是如何看到这个世界的1. 光源2.吸收和散射3.着色 二、标准光照模型1. 自发光2. 高光反射① Phong模型② Blinn-Phong模型 3.漫反射4.环境光 总结 前…

基于SpringBoot的“社区居民诊疗健康管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“社区居民诊疗健康管理系统”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统模块功能结构图 局部E-R图 系统首…

Java-空链基础入门

经过调研和细致观察&#xff0c;我们发现空链对于初次接触或是对Stream和Optional不太熟悉的人来说&#xff0c;确实存在一定的上手难度&#xff0c;宛如开启了“地狱模式”。为了降低这一门槛&#xff0c;我们决定通过一系列由简入深的案例演示&#xff0c;来逐步引导大家掌握…

【江协科技STM32】Unix时间戳BKP备份寄存器RTC实时时钟(学习笔记)

Unix时间戳 Unix 时间戳&#xff08;Unix Timestamp&#xff09;定义为从UTC/GMT的1970年1月1日0时0分0秒开始所经过的秒数&#xff0c;不考虑闰秒时间戳存储在一个秒计数器中&#xff0c;秒计数器为32位/64位的整型变量世界上所有时区的秒计数器相同&#xff0c;不同时区通过…

3.17-3.23 Web3 游戏周报:Pixudi 双榜领跑,The Forgotten Runiverse 登陆三大主机平台

回顾上周的区块链游戏概况&#xff0c;查看 Footprint Analytics 与 ABGA 最新发布的数据报告。 【3.17–3.23】Web3 游戏行业动态 Ronin 将与 Alpha Growth 等合作推出 1300 万美元增长计划&#xff0c;以向 DeFi 扩张Notcoin 开发工作室 Open Builders 宣布推出 Not Games …

AppInventor2生成3位数的水仙花数

生成3位水仙花数&#xff08;每位数字的立方之和刚好等于这个数字&#xff09;的代码&#xff0c;如下&#xff1a; 来源&#xff1a;【生成Python】AppInventor2中文网已支持代码块转换Python源码&#xff01; - App Inventor 2 中文网 - 清泛IT社区&#xff0c;为创新赋能&…

【聚类算法解析系列02】经典聚类算法(上)——K-Means与层次聚类

【聚类算法解析系列02】经典聚类算法&#xff08;上&#xff09;——K-Means与层次聚类 引言&#xff1a;算法背后的认知革命 K-Means与层次聚类&#xff0c;这两个诞生于1960年代的算法&#xff0c;至今仍是工业界使用率最高的聚类工具。它们分别代表了两种根本性的世界观&am…

[Effective C++]条款22:将成员变量声明为private

. 在C中&#xff0c;将成员变量声明为private而不是public&#xff0c;主要是为了遵循面向对象编程&#xff08;OOP&#xff09;的封装原则。他有助于隐藏对象的内部实现细节&#xff0c;提供更好地控制&#xff0c;安全性和可维护性。 1、数据隐藏与封装 将成员变量声明为pr…