第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片

news2025/1/31 11:30:42

人工智能时代,最需要学习的编程语言是:python 。笔者是个 python 小白,昨天花了两个小时,第一次成功运行起来 python 项目 。

项目是 powerpoint-extractor ,可以将 ppt 文件中的图片提取出来,并输出到固定的目录。

1 安装 python 环境

首先打开终端,打开后输入 python3 。确定电脑上是否已安装 python3,如果输入 python 是查看 mac 上的自带版本。

命令:python3【直接回车】

出现下面是页面,表示已经安装python3 【退出时可输入:exit()然后点回车】

若没有安装,安装 python3 如下两种方式:

  1. 第一种方法 brew 安装 python3 :brew install python3
  2. 第二种方法 官网 Python Releases for macOS ,根据自己的需求下载自己需要的版本下载 。

2 项目 powerpoint-extractor

通过 git 命令 clone 该项目 :

git clone git@github.com:2TallTyler/powerpoint-extractor.git

因为项目依赖 python-pptx 组件,通过清华的镜像执行如下的命令:

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple python-pptx

执行完成之后,可以通过 pip3 list 命令查看已安装包列表 :

3 PyCharm 配置

通过 PyCharm 打开该项目 :

上图,我们发现 python 解释器并没有配置好 ,py 脚本显示 import 包失败

点击添加 python 解释器按钮,勾选继承全局包,并确认好 python3 的执行目录是否正确,点击 OK 即可完成配置。

点开 extract.py ,核心代码非常容易理解:

for eachfile in glob.glob(self.input_dir + os.sep + "*.pptx"):
    ppt = Presentation(eachfile)
    print("* " + eachfile)
    presentation_count += 1
    self.cur_image_index = 1
​
    name = self.generate_image_name_part(eachfile)
​
    # 遍历每张幻灯片
    for page, slide in enumerate(ppt.slides):
        # 将幻灯片上的所有文本收集到一个字符串中,以换行符分隔
        text = ''
        for shape in slide.shapes:
            if shape.has_text_frame and shape.text.strip():
                text += os.linesep
                text += shape.text
​
        # 收集每张幻灯片中的图像
        self.cur_slide_images = []
​
        # 保存幻灯片中的图像
        for shape in slide.shapes:
            self.drill_for_images(shape, page + 1, name)
​
        # 将页码、收集到的文本和演讲者备注作为新行写入CSV文件
        image_list = ''
        if len(self.cur_slide_images) > 0:
            image_list = ','.join(self.cur_slide_images)  # 将图像列表转换为逗号分隔的字符串
​
        # 将信息写入CSV文件
        writer.writerow([eachfile, page + 1, text, slide.notes_slide.notes_text_frame.text, image_list])

这段代码执行了以下操作:

  • 对于每个 PowerPoint 文件,它加载演示文稿并逐一遍历每张幻灯片。
  • 对于每张幻灯片,它收集文本和图像信息,并将其格式化为 CSV 文件的一行。
  • CSV 文件的每一行包括文件名、页码、幻灯片文本、幻灯片的演讲者备注以及图像列表。

4 运行项目

将测试 ppt 拷贝到 input 目录,点击 run 。

当执行完成后,ppt 中有的图片拷贝到 images 目录,同时生成了一个 text.csv 。


当然,我们也可以通过如下的命令直接执行:


关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码免费领取保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1555821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp开发微信小程序设置分包,简单易学

文章目录 前言一、在 manifest.json文件中的源码试图中配置二、配置pages.json 前言 我们使用uniapp开发微信小程序的时候,当我们的包体积过大的时候,无法真机模拟。 因为小程序单个包只支持2MB(现已支持预览4MB),所以…

内网靶机~~dc-2

一、信息收集 1.端口扫描: nmap -sV -p 1-10000 10.1.1.4 2.CMS识别 3.目录扫描: dirsearch http://10.1.1.4/ 4.FLAG1 似乎让我们用cewl生成密码字典,并爆破登录。 cewl -w rewl_passwd.txt http://dc-2/index.php/flag/ 总结&#xff…

Tomcat启动闪退问题解决方法

在使用Tomcat作为Java Web应用服务器的过程中,有时候会遇到Tomcat启动后闪退的问题,给开发和运维工作带来了困扰。本文将针对Tomcat启动闪退问题,列出可能的原因和解决方法,帮助大家快速解决这一常见的技术难题。 可能的原因及解…

【unity】解决unity编译器安装中文汉化包失败

如果有的同学中文包安装失败,我们找到相应的编译器版本,点击在资源管理器中显示按钮, 我们点击当前目录的上一级,进入编译器目录。 找到modules.json文件双击打开 我们找到简体中文,复制downloadUrl后面的值到浏览…

[C++初阶] 爱上C++ : 与C++的第一次约会

🔥个人主页:guoguoqiang 🔥专栏:我与C的爱恋 本篇内容带大家浅浅的了解一下C中的命名空间。 在c中,名称(name)可以是符号常量、变量、函数、结构、枚举、类和对象等等。工程越大,名称…

VBA_MF系列技术资料1-415

MF系列VBA技术资料1-415 为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的经验总结了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01-0…

一次性了解C语言中文件和文件操作

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 文件及文件操作 前言1. 文件分类1.1 文本文件1.2 二进制文件1.3 文本文件和二进制文件的区别 2…

Docker镜像逆向生成Dockerfile

你是否曾经遇到过一个想要使用的 Docker 镜像,但却无法修改以适应你的特定需求?或者你可能发现了一个喜欢的 Docker 镜像,但想要了解它是如何构建的?在这两种情况下,将 Docker 镜像逆向生成一个 Dockerfile 可以使用一…

基于jsp+mysql+Spring的SpringBoot招聘网站项目

基于jspmysqlSpring的SpringBoot招聘网站项目(完整源码sql)主要实现了管理员登录,简历管理,问答管理,职位管理,用户管理,职位申请进度更新,查看简历 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀…

Science Robotics 逼真面部表情的机器人

人类可以产生数千种不同的面部表情来传达无数微妙的情绪状态,这种能力是人类社会互动中最有效和最有效的界面之一。在 2019 年冠状病毒病流行期间,口罩使社交互动变得尴尬,因为它们掩盖了面部表情。同时,当摄像机打开时&#xff0…

蓝桥杯单片机---第十届省赛题目解析

文章目录 比赛题目一、代码相关定义、声明1.头文件声明2.变量声明 二、主要函数1.main函数2.按键扫描3.数码管显示4.LED显示5.定时器中断 三、次要函数1.初始化函数Init2.按键函数Key3.LED函数Led4.数码管函数Seg5.iic函数中6.onewire函数中 总结 比赛题目 这里因为我没有这个题…

TouchGFX之图像

touchgfx提供的几种图像控件 1.Image(图像) TouchGFX中的图像会绘制关联图像文件中的像素数据。 使用图像文件前,必须将其导入到项目中。 图像大小是由关联的图像文件定义的,不能在运行时改动。 如果需要将图像显示为不同大小&…

C++链表(上)

【1】概念:链表是一种物理存储结构上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。 (图片为转载) 优点:链表的插入操作更快( O(1) ),无需预先分配内存空间 …

基于JSPM的美食推荐管理系统

背景 互联网的迅猛扩张彻底转变了全球各类组织的运营模式。自20世纪90年代起,中国各级政府和企事业单位便开始探索运用网络系统来处理管理事务。然而,早期的网络覆盖不广、用户接受度不高、相关网络法规不健全以及技术发展不成熟等因素,都曾…

蒙特卡诺法计算不规则图形的面积

结课大作业题目自拟: 利用蒙特卡诺法计算不规则图形的面积,由于题目自拟,所以选择用椭圆来表示待测面积的不规则图形。 代码实现: %%先绘制一个椭圆 a5;%长轴 b2;%短轴 f(x,y) x.^2/a^2 y.^2/b^2-1;%椭圆方程 fimplicit(f,Lin…

Golang线上内存爆掉问题排查(pprof)

Golang线上内存爆掉问题排查(pprof) 1 问题描述 某天,售后同事反馈,我们服务宕掉了,客户无法预览我们的图片了。 我们预览图片是读取存储在我们S3服务的数据,然后返回给前端页面展示。因为客户存在几百M的…

《HelloGitHub》第 96 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 …

在遭受攻击时如何有效监测服务器流量峰值——实战指南

引言 在网络安全领域,分布式拒绝服务攻击(DDoS)是一种常见的针对服务器及网络资源的恶意行为,它通过短时间内发送大量无效请求,导致服务器不堪重负而无法正常服务合法用户。当服务器遭受攻击时,快速识别并…

kubernetes(K8S)学习(五):K8S进阶(Lifecycle......偏理论)

K8S进阶(Lifecycle......偏理论) 一、Pod进阶学习之路1.1 Lifecycle1.2 重启策略1.3 静态Pod1.4 健康检查1.5 ConfigMap1.6 Secret1.7 指定Pod所运行的Node 二、Controller进阶学习之路2.1 Job & CronJob2.2 StatefulSet2.3 DaemonSet2.4 Horizontal…

拖拉拽做游戏?轻松打造个人掌机世界 | 开源日报 No.176

chrismaltby/gb-studio Stars: 7.8k License: MIT gb-studio 是一个快速、易于使用的拖放式复古游戏创建器,适用于您最喜爱的掌上游戏机系统。 该项目主要功能、关键特性和核心优势包括: 快速且易于使用使用 Electron 游戏构建应用程序和基于 C 的 GBD…