将光谱数据图片转换成数值格式

news2024/9/24 1:25:00

文章目录

  • 任务
  • 所需工具
  • 步骤一:安装必要的Python库
  • 步骤二:图像OCR识别
  • 步骤三:提取光谱数值并存储
  • 完整代码

任务

现测量收集到一批目标色彩样本的光谱响应数据截图(图片保存在spectrum_screenshots文件夹内,截图样例见图1)。其中,一个样本的光数据是从波长360纳米(nm)到750纳米分别测量得到的对应光强度值(实数)。
图1所示光谱数据为:7.319(360nm),7.339(370nm),6.860(380nm),…,80.(750nm);Checksum值(所有波长上光谱强度值的和)为790.337。
要求:将486张光谱数据图片转成数值格式
在这里插入图片描述

所需工具

Python: 编程语言
cnocr: 一个中文OCR工具,用于从图片中提取文本
PIL (Python Imaging Library): 用于打开和处理图片
openpyxl: 用于在Excel中创建和编辑工作表

步骤一:安装必要的Python库

在开始之前,确保你已经安装了所有必要的Python库。你可以通过以下命令安装这些库:

pip install cnocr pillow openpyxl

步骤二:图像OCR识别

我们将使用cnocr库从光谱数据图片中提取文本。由于OCR提取出的文本格式可能不一致,我们需要对其进行清理和格式化。以下是处理这些文本的代码:

import os
import re
import cnocr
from PIL import Image
from openpyxl import Workbook

def remove_spaces_around_decimal(input_str):
    result = []
    l=len(input_str)
    for i in range(1,l-1):
        if input_str[i] == ' ' and input_str[i-1]=='.':
            continue
        if input_str[i] == ' ' and input_str[i + 1] == '.':
            continue
        if input_str[i] == '.' and input_str[i + 1] == '.':
            continue
        if (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i + 1] == '.':
            continue
        if (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i - 1] == '.':
            continue
        result.append(input_str[i])
    return ''.join(result)

这个函数主要用来清理OCR识别出的文本,去除多余的空格和不必要的字符,确保后续的正则表达式能准确提取数值。

步骤三:提取光谱数值并存储

我们将光谱数据图片文件夹中的每张图片转换为对应的数值格式,并将其保存到Excel文件中。以下是实现这一任务的完整代码:

def extract_float_numbers_from_images(directory):
    # 初始化 cnocr
    ocr = cnocr.CnOcr()

    # 创建一个 Excel 工作簿
    wb = Workbook()
    ws = wb.active

    # 添加列标题
    columns = ["Filename", "360nm", "370nm", "380nm", "390nm", "400nm", "410nm", "420nm", "430nm","440nm","450nm", "460nm", "470nm", "480nm",
               "490nm", "500nm", "510nm", "520nm", "530nm", "540nm","550nm", "560nm", "570nm", "580nm", "590nm", "600nm", "610nm", "620nm",
               "630nm", "640nm", "650nm", "660nm", "670nm", "680nm", "690nm", "700nm", "710nm", "720nm", "730nm", "740nm", "750nm", "Checksum"]
    ws.append(columns)

    # 使用正则表达式匹配文件名中的数字部分
    pattern = r'\d+'

    # 遍历指定目录下的所有文件
    for filename in os.listdir(directory):
        # 仅处理 JPEG 格式的文件
        if filename.endswith(".jpg"):
            # 从文件名中提取数字部分
            match = re.match(pattern, filename)
            if match:
                file_number = match.group()
                file_path = os.path.join(directory, filename)

                # 使用 cnocr 提取文本
                text = ocr.ocr(Image.open(file_path))

                # 合并提取的文本
                extracted_text = ''
                for line in text:
                    if 'text' in line:
                        extracted_text += (line['text']+' ')

                extracted_text = remove_spaces_around_decimal(extracted_text)
                # 使用正则表达式匹配浮点数的模式
                float_numbers = re.findall(r'\d+\.\d+', extracted_text)

                # 创建一个列表,用于存储每行的数据
                row_data = [filename] + float_numbers

                # 如果提取的浮点数数量少于所需的列数,则补充空白
                while len(row_data) < len(columns):
                    row_data.append("")

                # 将文件名和提取的浮点数写入 Excel 表格
                ws.append(row_data)

    # 保存 Excel 文件
    excel_filename = "extracted_float_numbers.xlsx"
    wb.save(excel_filename)
    print(f"Float numbers extracted from images and saved to {excel_filename}")

运行程序
将代码保存为一个Python脚本文件,并在命令行中运行:

python your_script_name.py

效果:
在这里插入图片描述

利用OCR技术从图片中提取光谱数据,并将其转换为数值格式存储在Excel中。这种方法可以用于各种场景下的数据提取和处理。

完整代码

import os
import re
import cnocr
from PIL import Image
from openpyxl import Workbook

#由于使用cnocr识别出的字符串存在很多格式上的问题
#我在多次写入表格查看以及输出对照数据之后,写了一个处理这些错误格式的函数,经过函数处理之后得到的字符串基本上都可以完美的经过正则表达式的处理得到41个浮点数
def remove_spaces_around_decimal(input_str):
    result = []
    l=len(input_str)
    for i in range(1,l-1):
        if input_str[i] == ' ' and input_str[i-1]=='.':
            continue
        if input_str[i] == ' ' and input_str[i + 1] == '.':
            continue
        if input_str[i] == '.' and input_str[i + 1] == '.':
            continue
        if (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i + 1] == '.':
            continue
        if (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i - 1] == '.':
            continue
        result.append(input_str[i])
    return ''.join(result)
def extract_float_numbers_from_images(directory):
    # 初始化 cnocr
    ocr = cnocr.CnOcr()

    # 创建一个 Excel 工作簿
    wb = Workbook()
    ws = wb.active

    # 添加列标题
    columns = ["Filename", "360nm", "370nm", "380nm", "390nm", "400nm", "410nm", "420nm", "430nm","440nm","450nm", "460nm", "470nm", "480nm",
               "490nm", "500nm", "510nm", "520nm", "530nm", "540nm","550nm", "560nm", "570nm", "580nm", "590nm", "600nm", "610nm", "620nm",
               "630nm", "640nm", "650nm", "660nm", "670nm", "680nm", "690nm", "700nm", "710nm", "720nm", "730nm", "740nm", "750nm", "Checksum"]
    ws.append(columns)

    # 使用正则表达式匹配文件名中的数字部分
    pattern = r'\d+'

    # 遍历指定目录下的所有文件
    for filename in os.listdir(directory):
        # 仅处理 JPEG 格式的文件
        if filename.endswith(".jpg"):
            # 从文件名中提取数字部分
            match = re.match(pattern, filename)
            if match:
                file_number = match.group()
                file_path = os.path.join(directory, filename)

                # 使用 cnocr 提取文本
                text = ocr.ocr(Image.open(file_path))

                # 合并提取的文本
                extracted_text = ''
                for line in text:
                    if 'text' in line:
                        extracted_text += (line['text']+' ')


                extracted_text = remove_spaces_around_decimal(extracted_text)
                # 使用正则表达式匹配浮点数的模式
                float_numbers = re.findall(r'\d+\.\d+', extracted_text)

                # 创建一个列表,用于存储每行的数据
                row_data = [filename] + float_numbers

                # 如果提取的浮点数数量少于所需的列数,则补充空白
                while len(row_data) < len(columns):
                    row_data.append("")

                # 将文件名和提取的浮点数写入 Excel 表格
                ws.append(row_data)

    # 保存 Excel 文件
    excel_filename = "extracted_float_numbers.xlsx"
    wb.save(excel_filename)
    print(f"Float numbers extracted from images and saved to {excel_filename}")

# 调用函数并传入图片所在的目录路径
extract_float_numbers_from_images(r'G:\spectrum_screenshots')


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057042.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PyQt5中如何只使用一个dateEdit控件实现自动选择日期区间功能

wxpython设计GUI&#xff1a;选中wxFormBuilder工具wxCalendarCtrl控件&#xff0c;实现自动选择日期功能 wxPython设计界面转PyQt5设计界面&#xff0c;相同的界面功能&#xff0c;通过移植wxPython源代码实现PyQt5相同界面功能&#xff0c;在实现上述链接提到的自动选择日期…

Windows电脑设置开启自启动Java程序,并且不出现黑窗口

第一步&#xff1a;创建需要运行的批处理文件&#xff08;.bat 文件&#xff09; 在jar文件同级目录下新建文本输入以下内容&#xff0c;其中tunnel-monitoring-server.jar改为自己的程序名称&#xff0c;保存文件后缀改为bat。如下图1&#xff1a; echo off java -jar tunne…

开源的Umi-OCR 文字识别工具

开源的Umi-OCR 文字识别工具&#xff1a;OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片&#xff0c;PDF文档识别&#xff0c;排除水印/页眉页脚&#xff0c;扫描/生成二维码。内置多国语言库。 可以将图片PDF识别文字&#xff0c;并可以保存…

python | 字符串编码问题怎么破

python字符串常见两种类型&#xff1a;str和 bytes类型 str表示Unicode字符&#xff0c;bytes表示二进制数据 两者之间转换使用&#xff1a;encode()和decode()方法 一、enocde()和decode()方法 &#xff08;一&#xff09;encode()方法 encode()—编码&#xff0c;语法&…

软件测试之常见逻辑思维题

一个岔路口分别通向诚实国和说谎国。来了两个人&#xff0c;已知一个是诚实国的&#xff0c;另一个是说谎国的。诚实国永远说实话&#xff0c;说谎国永远说谎话。现在你要去说谎国&#xff0c;但不知道应该走哪条路&#xff0c;需要问这两个人。请问应该怎么问&#xff1f; 如…

[HDCTF 2023]Welcome To HDCTF 2023

方法一&#xff1a;找个炸弹死掉&#xff0c;flag就出现 方法二&#xff1a;查看页面源码&#xff0c;发现底部assets/js/game.js 复制后访问看到jsfuck编码 复制到控制台查看flag

上海交大周冰心博士:锚定稀缺生物数据挑战,图神经网络重塑蛋白质理解与生成

8 月 12 日&#xff0c;上海交通大学 AI for Bioengineering 暑期学校正式开幕&#xff0c;吸引了来自国内外 30 余所高校和 27 家企业的百余名业内人士。在为期 3 天的学习交流中&#xff0c;多位行业专家、企业界代表及优秀青年学者&#xff0c;围绕 AI 与生物工程的融合与创…

【前缀和算法】--- 一维和二维前缀和模板

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; 算法Journey 本文开始,博主开始讲解有关前缀和的算法&#xff0c;本篇博客我们先来了解一下有关前缀和的两个模板。 &#x1f3e0; 一维前缀和模板 &…

CPU内部单总线数据通路各阶段的微操作序列利控制信号

1.内部总线与系统总线 内部总线是指同一部件&#xff0c;如CPU内部连接各寄存器及运算部件之间的总线&#xff1b; 系统总线是指同一台计算机系统的各部件&#xff0c;如CPU、内存、通道和各类/0接口间互相连接的总线。 2.寄存器之间数据传送 比如把PC内容送至MAR&#xff…

利用多Lora节省大模型部署成本|得物技术

一、背景 近期&#xff0c;我们在大模型集群的部署过程中遇到了一些挑战。公司有多个业务场景&#xff0c;每个场景都基于自身的数据进行微调&#xff0c;训练出相应的大模型并上线。然而&#xff0c;这些场景的调用量并不高&#xff0c;同时大模型的部署成本较为昂贵&#xf…

从0到1!如何利用GPT创作高质量的儿童绘本故事?(附提示词)

儿童绘本故事需要有趣、富有教育意义&#xff0c;并且简单易懂。利用GPT来创作这样的故事&#xff0c;可以让创意过程变得轻松且高效。以下是一份详细教程&#xff0c;帮助你用GPT创作出吸引孩子们的高质量绘本故事。 1. 明确故事目标和受众 在开始创作之前&#xff0c;明确故事…

Synchronized重量级锁原理和实战(五)

在JVM中,每个对象都关联这一个监视器,这里的对象包含可Object实例和Class实例.监视器是一个同步工具,相当于一个凭证,拿到这个凭证就可以进入临界区执行操作,没有拿到凭证就只能阻塞等待.重量级锁通过监视器的方式保证了任何时间内只允许一个线程通过监视器保护的临界区代码. …

Linux基础环境开发工具gcc/g++ make/Makefile

1.Linux编译器-gcc/g使用 1. 预处理&#xff08;进行宏替换) 预处理功能主要包括宏定义,文件包含,条件编译,去注释等。 预处理指令是以#号开头的代码行。 实例: gcc –E hello.c –o hello.i 选项“-E”,该选项的作用是让 gcc 在预处理结束后停止编译过程。 选项“-o”是指目标…

第2章-01-网站中的资源介绍

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲。 🎉欢迎 👍点赞✍评论⭐收…

代码随想录算法训练营第二十一天| 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 题目&#xff1a; 给你二叉搜索树的根节点 root &#xff0c;同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树&#xff0c;使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对结构 (即&#xff0c;如果没有被移除&…

类与对象(中(2))

开头 大家好啊&#xff0c;上一期内容我们介绍了类与对象中六大默认成员函数中的两种--->构造函数与析构函数&#xff0c;相信大家多少都形成了自己的独到见解。那么今天&#xff0c;我将继续就拷贝构造函数与运算符重载函数来展开讲解&#xff0c;话不多说&#xff0c;我们…

在 Vue.js 中使用 Ant Design 实现表格开关功能:详细教程

个人名片 &#x1f393;作者简介&#xff1a;java领域优质创作者 &#x1f310;个人主页&#xff1a;码农阿豪 &#x1f4de;工作室&#xff1a;新空间代码工作室&#xff08;提供各种软件服务&#xff09; &#x1f48c;个人邮箱&#xff1a;[2435024119qq.com] &#x1f4f1…

秃姐学AI系列之:池化层 + 代码实现

目录 池化层 二维最大池化层 Max Pooling 池化层超参数 平均池化层 Mean Pooling 总结 代码实现 池化层 卷积对位置非常敏感的&#xff0c;但是我们在实际应用中我们需要一定程度的平移不变性。比如照明、物体位置、比例、外观等因素会导致图片发生变化。所以卷积对未…

【WebSocket】websocket学习【二】

1.需求&#xff1a;通过websocket实现在线聊天室 2.流程分析 3.消息格式 客户端 --> 服务端 {"toName":"张三","message":"你好"}服务端 --> 客户端 系统消息格式&#xff1a;{"system":true,"fromName"…

pygame开发课程系列(5): 游戏逻辑

第五章 游戏逻辑 在本章中&#xff0c;我们将探讨游戏开发中的核心逻辑&#xff0c;包括碰撞检测、分数系统和游戏状态管理。这些元素不仅是游戏功能的关键&#xff0c;还能显著提升游戏的趣味性和挑战性。 5.1 碰撞检测 碰撞检测是游戏开发中的一个重要方面&#xff0c;它用…