人工智能数据集处理——数据获取

news2024/11/15 13:39:28

目录

1、从csv和txt文件中读取数据

pandas中可使用read_csv读取csv或txt文件中的数据

  使用read_csv()函数读取phones.csv文件中的数据,并指定编码格式为gbk

使用head()方法指定获取phones.csv文件中前3行的数据

使用read_csv() 函数读取 itheima_books.txt文件中的数据,并指定编码格式为utf8

2、从Excel文件中读取数据

pandas中可使用read_excel读取Excel文件中的数据

使用read_excel() 函数读取Athletes_info.xlsx 文件,显示前5行

3、从JSON文件读取数据

pandas中可使用read_json()读取json文件中的数据

使用read_json() 函数读取 Animal_species.json 文件中的数据,并指定编码格式为utf8

4、从HTML文件读取数据

5、从数据库获取数据

6、从word文件读取数据  用python-dox库

python—docx库的基本使用

使用python-docx库读取'集合介绍.docx'文件中的段落内容

​编辑

 使用python-docx库读取'集合介绍.docx'文件中的表格内容

7、从pdf文件读取数据  用pdfplumber库

使用pdfplumber库读取"集合简介.pdf"文件中所有的文本数据

只提取pdf文件中的表格数据

# 可以通过page类对象中的extract_tables()方法实现


1、从csv和txt文件中读取数据

pandas中可使用read_csv读取csv或txt文件中的数据

read_csv(filepath_or_buffer,sep=',',delimiter=None,header='infer',

    names=None,index_col=None,usecols=None,squeeze=False,prefix=None,

    mangle+dupe_cols=True,encoding=None...)

    

filepath_or_buffer:  文件路径

sep:  分隔符,默认为“,”。

header : 表示将指定文件中的哪一行数据作为 DataFrame 类对象的列索引,默认为0。即将第一行数据作为列索引。

names: 表示 DataFrame 类对象的列索引列表,若文件中没有列标题,则 names 参数的值为 None。

encoding:表示指定的编码格式。


  使用read_csv()函数读取phones.csv文件中的数据,并指定编码格式为gbk
import pandas as pd

import numpy as np



evaluation_data = pd.read_csv('C:/py数据/第4章数据获取/phones.csv', encoding='gbk')

print(evaluation_data)

使用head()方法指定获取phones.csv文件中前3行的数据
print('\n前3行的数据\n', evaluation_data.head(3))

使用read_csv() 函数读取 itheima_books.txt文件中的数据,并指定编码格式为utf8
import pandas as pd

txt_data = pd.read_csv('C:/py数据/第4章数据获取/itheima_books.txt', encoding='utf8')

print(txt_data)

2、从Excel文件中读取数据

pandas中可使用read_excel读取Excel文件中的数据

使用read_excel() 函数读取Athletes_info.xlsx 文件,显示前5行
import pandas as pd

excel_data = pd.read_excel('C:/py数据/第4章数据获取/Athletes_info.xlsx')

print(excel_data.head(5))

3、从JSON文件读取数据

pandas中可使用read_json()读取json文件中的数据

使用read_json() 函数读取 Animal_species.json 文件中的数据,并指定编码格式为utf8
import pandas as pd

json_data=pd.read_json('C:/py数据/第4章数据获取/Animal_species.json',encoding='utf8')

print(json_data)

4、从HTML文件读取数据

import requests

# 获取数据

html_data = requests.get('https://www.tiobe.com/tiobe-index/')

# 读取网页中所有表格数据

html_table_data = pd.read_html(html_data.content, encoding='utf-8')

# 获取索引为3的前5行表格数据

print(html_table_data[3].head(5))

5、从数据库获取数据

import pandas as pd

from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/ttsx')

# 如果出现警告可使用如下(需使用pip安装mysql-connector-python)

# engine = create_engine('mysql+mysqlconnector://root:123456@127.0.0.1:3306/ttsx')

# 通过数据表名读取数据库的数据

category_data = pd.read_sql('C:/py数据/第4章数据获取/goodscategory', engine)

# 也可以通过SQL语句读取数据库的数据

# sql = "select * from goodscategory"

# category = pd.read_sql(sql,engine)

print(category_data)

6、从word文件读取数据  用python-dox

# Document类

# Paragraph类

# Table类

python—docx库的基本使用

使用python-docx库读取'集合介绍.docx'文件中的段落内容
步骤:
1、创建Document类对象
2、通过paragraphs属性获取段落对象
3、通过段落对象的text属性获取段落中的字符串
from docx import Document

# 创建Document类对象
docx = Document('C:/py数据/第4章数据获取/集合介绍.docx')
# 获取段落对象
paragraphs = docx.paragraphs
for i in paragraphs:
    print(i.text)

 使用python-docx库读取'集合介绍.docx'文件中的表格内容


​​步骤:
1、创建Document类对象
2、根据表格对象的rows属性获取行数据对象
3、通过单元格对象的cell()方法获取每个单元格对象
4、通过单元格对象的text属性获取对应的字符串

from docx import Document

# 创建Document类对象
docx = Document('C:/py数据/第4章数据获取/集合介绍.docx')
# 获取段落对象
tables = docx.tables
for table in tables:
    for row in table.rows:  # 获取行数据对象
        row_conent = []  # 用于保存数据的列表
        for cell in row.cells[:]:  # 获取单元格对象
            row_conent.append(cell.text)  # 获取单元格中的字符串
        print(row_conent)  # 以列表的形式显示每一行数据

7、从pdf文件读取数据  用pdfplumber

# pdf类
# page类

使用pdfplumber库读取pdf文件大致步骤:
1、加载pdf文件,生成pdf类对象
2、遍历获取page类对象的文本或表格
3、提取page类对象的文本或表格数据

使用pdfplumber库读取"集合简介.pdf"文件中所有的文本数据

步骤:
1、创建pdfplumber.pdf对象
2、通过page属性获取每页的实例对象
3、使用extract_text()方法提取页面中所有的文本数据和表格数据

import pdfplumber

with pdfplumber.open('C:/py数据/第4章数据获取/集合介绍.pdf') as pdf:
    print(pdf.pages[0].extract_text())

只提取pdf文件中的表格数据
# 可以通过page类对象中的extract_tables()方法实现
import pdfplumber

with pdfplumber.open('C:/py数据/第4章数据获取/集合介绍.pdf') as pdf:
    for page in pdf.pages:
        for table in page.extract_table():
            print(table)

从输出结果可以看出,程序读取了pdf文件中的表格数据,但返回的表格数据中包含空字符和None
使用fillter()函数和正则表达式可以去除这些无关的空字符和None

import pdfplumber, re

with pdfplumber.open('C:/py数据/第4章数据获取/集合介绍.pdf') as pdf:
    for page in pdf.pages:
        for table in page.extract_tables():
            for data in table:
                # 过滤数据中的None
                clean_data = list(filter(None, data))
                # 过滤数据中的换行符
                print([re.sub('\n', '', value) for value in clean_data])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/677438.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Redis】2、Redis 的 Java 客户端(Jedis 和 SpringDataRedis)

目录 零、Redis 的 Java 客户端有哪些?二、Jedis 客户端(1) 引依赖(2) 连接 Redis 服务并测试(3) Redis 连接池 三、SpringDataRedis 介绍四、SpringBoot 中集成 SpringDataRedis(1) 引入依赖(2) 配置文件中书写相关配置(3) RedisTemplate 的默认序列化方式(4) 自定…

高校学生考勤系统

摘 要 在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括高校学生考勤系统的网络应用,在外国高校学生考勤系统已经是很普遍的方式,不过国内的高校学生考勤可能还处于起步阶段。高校学生考勤系统具有管理…

Linux网络-数据链路层,MAC帧解析,ARP协议

目录 数据链路层VS网络层 以太网概念 以太网的帧格式(报文格式)(也可以称之为MAC帧) MAC地址的概念 MAC帧格式 局域网通信原理 MTU MTU说明 MTU对IP协议的影响 MTU对UDP协议的影响 MTU对TCP协议的影响 ARP协议 ARP协…

【算法题解】41. 二叉树的中序遍历

这是一道 简单 题 https://leetcode.cn/problems/binary-tree-inorder-traversal/ 题目 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2] 示例 2: 输入&#…

[易语言][部署]使用易语言部署paddleocr的onnx模型api接口推理直接调用

易语言如何部署paddleocr模型,如今paddleocr模型广泛被使用各种编程,为了能在易语言上使用因此开发一个通用接口,开发基本思路如下: 可见我们并没有使用什么通信协议或者命令行之类的方法,这种直接封装接口比其他方法更…

TCP 学习笔记

Win R 打开控制台输入CMD 打开小黑窗, 输入ipconfig 查询本机地址 “外网IP是全世界唯一的IP地址,仅分配给一个网络设备。而内网IP是由路由器分配给每一部内部使用的IP地址,而内网的所有用户都是通过同一个外网IP地址进行上网的,而内网的IP地址每个人的都不一样…

(四)WPF - 布局

一、布局过程 WPF 布局包括两个阶段:一个测量阶段和排列阶段 在测量阶段,容器遍历所有子元素,并询问子元素它们所期望的尺寸。在排列阶段,容器在合适的位置放置子元素。(每个元素都被其父元素告知它自己的尺寸是多少…

【软件设计师暴击考点】下午题高频考点暴击系列

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:软件…

电脑选购必备的六大技巧

目录 1、CPU方面 2、显卡方面 3、电脑主板方面 4、内存和硬盘方面 5、电脑机箱和电源方面 6、装机过程要全程参与 今天小编给大家分享电脑选购组装必备的六大技巧,希望对大家实际选购、组装电脑提供一些帮助! 买电脑要注意哪些问题 1、CPU方面 C…

Qt Model-View架构领悟

1.架构的选择 1.1是否需要委托 模型视图架构图如下所示,模型视图架构源于MVC模式:模型(Model)是应用对象,表示数据;视图(View)是模型的用户界面,用以显示数据&#xff…

springboot基础(78):Freemarker模板生成word文档

文章目录 前言如何使用Freemakrer生成word文档1. 制作模板2. 编写工具类 遇到的问题下载失败如何只生成文件不下载 前言 利用Freemarker模板生成word文档。示例,将左侧的模板生成为右侧的文档并下载。 如何使用Freemakrer生成word文档 1. 制作模板 1.编辑一份a…

实现注册与登录(企业级)

目录 实现注册超级管理员功能(持久层) 一、判定系统是否已经绑定超级管理员 二、编写保存用户记录的代码 三、编写查询用户ID的代码 实现注册超级管理员功能(业务层) 一、获取OpenId 二、编写注册新用户的业务代码 掌握 R…

tuple 和数组区别

元组(tuple)和数组(array)都是 Python 中用于存储多个值的数据结构,但它们在实现和使用上有一些区别。 元组是不可变的,而数组是可变的。即元组一旦创建,其内容就不能被修改,而数组…

高数笔记1(第一章函数 极限 连续 第一节函数第二节极限-极限的概念与性质)

目录 第一章 函数 极限 连续第一节 函数第二节 极限一、极限的概念与性质数列的极限例1例2 函数的极限极限的性质(保号性重点 有界性)例12例13例14 函数极限与数列极限的关系例15 第一章 函数 极限 连续 第一节 函数 判断有界要用函数的绝对值&#xff…

Toolformer:可以教会自己使用工具的语言模型

Toolformer:可以教会自己使用工具的语言模型 摘要Introduction现有大模型的局限处理办法本文的idea Approach样例化API调用执行API调用筛选API调用模型微调 实验局限 论文地址点这里 摘要 语言模型(LMs)呈现了令人深刻的仅使用少量的范例或…

2022(一等奖)D1649基于多源卫星遥感的干旱区农作物耗水精细模拟

作品介绍 1 研究背景及目标 1.1 研究区概况 本次研究的研究区位于甘肃省张掖市内。张掖市位于甘肃省西部,河西走廊中段,属干旱和半干旱两种气候类型,其特点是夏季短而酷热,冬季长而严寒,干旱少雨,且降水分…

MySQL-SQL存储过程/触发器详解(下)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

ubuntu20.4服务器搭建ftp并连接(阿里云服务器)

首先在控制台添加ftp防火墙规则: 然后进入服务器安装ftp(安装vsftpd): sudo apt update sudo apt install vsftpd使用以下命令检查其状态: sudo service vsftpd status如果FTP服务器未运行,请使用以下命令启动它&am…

强化学习:时序差分算法 TD-learning

例子引入 首先,我们考虑简单的平均估计计算: w E [ X ] wE[X] wE[X],根据 RM算法 计算过程如下: 接着上面的例子,我们现在考虑一个较为复杂的问题,估计函数 v ( X ) v(X) v(X) 的平均值,根据 …

3.数据模型

文章目录 前言1.对象(Object)1.1 标准对象1.2 自定义对象1.2.1 创建一个property(房产)自定义对象1.2.2创建一个Favorite(收藏夹)自定义对象1.2.3 创建对象的注意事项 1.3 字段1.3.1 为property object创建…