Pandas处理时间序列之光谱分析与聚类

news2024/11/26 0:35:47
import matplotlib.pylab as plt
%matplotlib inline
import numpy as np
from numpy import fft
import pandas as pd

一、光谱分析

• 将时间序列分解为许多正弦或余弦函数的总和
• 这些函数的系数应该具有不相关的值
• 对正弦函数进行回归

光谱分析应用场景

基于光谱的拟合

基于光谱的拟合是一种常见的分析方法,它通过将实际观测到的光谱数据与已知的光谱模型进行比较和匹配,来获得对未知样品的估计或预测。该方法可以用于光谱分析、化学定量分析、物质识别等领域

示例

#傅里叶外推算法
def fourierExtrapolation(x, n_predict):
    n = x.size
    n_harm = 5                     # 设置了模型中的谐波数量,即傅里叶级数中所包含的谐波数量
    t = np.arange(0, n)
    p = np.polyfit(t, x, 1)         # 利用线性回归找到了序列 x 中的线性趋势
    x_notrend = x - p[0] * t        # 通过减去线性趋势,将原始数据 x 去趋势化
    x_freqdom = fft.fft(x_notrend)  # 对去趋势化后的数据进行傅里叶变换,将数据从时域转换到频域
    f = fft.fftfreq(n)              # 生成频率数组,用于表示傅里叶变换结果中每个频率对应的频率值
    indexes = list(range(n))
    # 对频率数组进行排序,以便从低到高选择频率成分
    indexes.sort(key = lambda i: np.absolute(f[i]))
 
    t = np.arange(0, n + n_predict)
    restored_sig = np.zeros(t.size)
    for i in indexes[:1 + n_harm * 2]:
        ampli = np.absolute(x_freqdom[i]) / n   # 振幅
        phase = np.angle(x_freqdom[i])          # 相位2
        restored_sig += ampli * np.cos(2 * np.pi * f[i] * t + phase)
    return restored_sig + p[0] * t


# 利用傅立叶变换原理,通过拟合周期函数来预测时间序列的未来值
x = np.array([669, 592, 664, 1005, 699, 401, 646, 472, 598, 681, 1126, 1260, 562, 491, 714, 530, 521, 687, 776, 802, 499, 536, 871, 801, 965, 768, 381, 497, 458, 699, 549, 427, 358, 219, 635, 756, 775, 969, 598, 630, 649, 722, 835, 812, 724, 966, 778, 584, 697, 737, 777, 1059, 1218, 848, 713, 884, 879, 1056, 1273, 1848, 780, 1206, 1404, 1444, 1412, 1493, 1576, 1178, 836, 1087, 1101, 1082, 775, 698, 620, 651, 731, 906, 958, 1039, 1105, 620, 576, 707, 888, 1052, 1072, 1357, 768, 986, 816, 889, 973, 983, 1351, 1266, 1053, 1879, 2085, 2419, 1880, 2045, 2212, 1491, 1378, 1524, 1231, 1577, 2459, 1848, 1506, 1589, 1386, 1111, 1180, 1075, 1595, 1309, 2092, 1846, 2321, 2036, 3587, 1637, 1416, 1432, 1110, 1135, 1233, 1439, 894, 628, 967, 1176, 1069, 1193, 1771, 1199, 888, 1155, 1254, 1403, 1502, 1692, 1187, 1110, 1382, 1808, 2039, 1810, 1819, 1408, 803, 1568, 1227, 1270, 1268, 1535, 873, 1006, 1328, 1733, 1352, 1906, 2029, 1734, 1314, 1810, 1540, 1958, 1420, 1530, 1126, 721, 771, 874, 997, 1186, 1415, 973, 1146, 1147, 1079, 3854, 3407, 2257, 1200, 734, 1051, 1030, 1370, 2422, 1531, 1062, 530, 1030, 1061, 1249, 2080, 2251, 1190, 756, 1161, 1053, 1063, 932, 1604, 1130, 744, 930, 948, 1107, 1161, 1194, 1366, 1155, 785, 602, 903, 1142, 1410, 1256, 742, 985, 1037, 1067, 1196, 1412, 1127, 779, 911, 989, 946, 888, 1349, 1124, 761, 994, 1068, 971, 1157, 1558, 1223, 782, 2790, 1835, 1444, 1098, 1399, 1255, 950, 1110, 1345, 1224, 1092, 1446, 1210, 1122, 1259, 1181, 1035, 1325, 1481, 1278, 769, 911, 876, 877, 950, 1383, 980, 705, 888, 877, 638, 1065, 1142, 1090, 1316, 1270, 1048, 1256, 1009, 1175, 1176, 870, 856, 860])#原始时间序列数据
n_predict = 100 # 未来进行预测的数据点数目
extrapolation = fourierExtrapolation(x, n_predict) # 调用fourierExtrapolation函数,使用原始数据和预测数据点数目作为参数,得到外推的结果
# 使用Matplotlib库绘制了两条曲线,一条代表原始数据x,另一条代表外推的结果extrapolation
plt.plot(np.arange(0, x.size), x, 'b', label = 'x', linewidth = 3)
plt.plot(np.arange(0, extrapolation.size), extrapolation, 'r', label = 'extrapolation')
plt.legend()# 添加图例以便区分曲线

# 通过Fourier外推方法对航空乘客数量的时间序列数据进行预测,并将原始数据和预测结果可视化
air_passengers = pd.read_csv('/home/mw/input/demo2813/AirPassengers.csv') # 读取了包含航空乘客数量的时间序列数据的CSV文件
x = np.array(air_passengers['#Passengers'].values) # 将CSV文件中的乘客数量数据提取出来并转换为Numpy数组,存储在变量x中
n_predict = 300 # 定义外推预测的数据点数目
extrapolation = fourierExtrapolation(x, n_predict) # 调用fourierExtrapolation函数,使用变量x和n_predict作为参数,得到外推的结果
plt.plot(np.arange(0, x.size), x, 'b', label = 'x', linewidth = 3) # 绘制原始数据x的曲线,颜色为蓝色
plt.plot(np.arange(0, extrapolation.size), extrapolation, 'r', label = 'extrapolation') # 绘制外推结果extrapolation的曲线,颜色为红色
plt.legend() # 添加图例,用于区分原始数据和外推结果的曲线

!pip install pandas-datareader -i https://pypi.tuna.tsinghua.edu.cn/simple

!pip install tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple

二、聚类和分类

距离度量

在机器学习和数据挖掘中,分类和聚类是两种常见的任务。虽然它们的目标和方法有所不同,但两者都经常涉及到数据点之间的距离度量。距离度量标准的选择对于分类和聚类的效果至关重要,因为它决定了数据点之间的相似性或差异性的计算方式

应用

基于DTW的聚类
基于DTW的最近邻分类法

import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 15, 6
from pandas_datareader.data import DataReader
from datetime import datetime
from scipy.cluster.hierarchy import dendrogram, linkage
from pandas_datareader.data import DataReader
from datetime import datetime
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import pairwise_distances
from math import sqrt
from scipy.spatial.distance import squareform
from tqdm import tqdm


#读取文件
words = pd.read_csv('/home/mw/input/demo2813/50words_TEST.csv')


#从数据框 words 中提取除第一列之外的所有数据,将其转换为矩阵形式,存储在名为 test 的变量中
test = words.ix[:, 1:].as_matrix()

'''
/opt/conda/lib/python3.6/site-packages/ipykernel_launcher.py:2: DeprecationWarning: 
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  
/opt/conda/lib/python3.6/site-packages/ipykernel_launcher.py:2: FutureWarning: Method .as_matrix will be removed in a future version. Use .values instead.
'''


test.shape
# (454, 270)


a = lambda x, y: x[0] + y[0]


# 计算两个序列之间的动态时间规整(DTW)距离的函数
# DWT是用于衡量两个序列之间相似度的方法,它可以处理序列在时间轴上的扭曲和偏移
def DTWDistance(s1, s2):
    # 将输入序列转换为NumPy数组
    s1, s2 = np.array(s1), np.array(s2)
    n, m = len(s1), len(s2)
    
    # 初始化DTW矩阵
    DTW = np.full((n+1, m+1), float('inf'))
    DTW[0, 0] = 0
    
    # 计算DTW距离
    for i in range(1, n+1):
        for j in range(1, m+1):
            dist = (s1[i-1] - s2[j-1]) ** 2
            DTW[i, j] = dist + min(DTW[i-1, j], DTW[i, j-1], DTW[i-1, j-1])
    
    return np.sqrt(DTW[n, m])


# 使用动态时间规整(DTW)距离来计算测试数据集中每对样本之间的距离
# size = test.shape[0]
# distance_matrix = np.zeros((size, size))

# for i in tqdm(range(size), desc="计算DTW距离"):
#     for j in range(i, size):
#         distance_matrix[i, j] = DTWDistance(test[i], test[j])
#         distance_matrix[j, i] = distance_matrix[i, j]


# 返回distance_matrix的行列数
# distance_matrix.shape


# 使用 linkage 函数来对距离矩阵 p 进行层次聚类,聚类方法是 Ward 方法
# z = linkage(distance_matrix, 'ward')


# z


# np.savetxt('linkage_matrix.txt', z)

'''
--------------------------------------------------------------------------------------------------------------------------
注释到这
将下面读取已经在project目录里预存好的数据的代码取消注释
'''


from scipy.cluster.hierarchy import dendrogram
# 加载链接矩阵
z = np.loadtxt('linkage_matrix.txt')  #读取预存数据
dendrogram(z)
plt.title('层次聚类树状图')
plt.xlabel('样本索引')
plt.ylabel('聚类距离')
plt.show()

#显示前几行数据
words.head()
4-0.89094-0.86099-0.82438-0.78214-0.73573-0.68691-0.63754-0.58937-0.54342...-0.86309-0.86791-0.87271-0.87846-0.88592-0.89619-0.90783-0.91942-0.93018-0.93939
012-0.78346-0.68562-0.58409-0.47946-0.37398-0.27008-0.17225-0.087463-0.019191...-0.88318-0.89189-0.90290-0.91427-0.92668-0.93966-0.95244-0.96623-0.9805-0.99178
113-1.32560-1.28430-1.21970-1.15670-1.09980-1.04960-1.01550-0.996720-0.985040...-0.83499-0.86204-0.88559-0.90454-0.93353-0.99135-1.06910-1.13680-1.1980-1.27000
223-1.09370-1.04200-0.99840-0.95997-0.93997-0.93764-0.92649-0.857090-0.693320...-0.72810-0.74512-0.76376-0.78068-0.80593-0.84350-0.89531-0.96052-1.0509-1.12830
34-0.90138-0.85228-0.80196-0.74932-0.69298-0.63316-0.57038-0.506920-0.446040...-0.95452-0.97322-0.98984-1.00520-1.01880-1.02960-1.03700-1.04110-1.0418-1.04030
413-1.24470-1.22000-1.16940-1.09130-0.98968-0.86828-0.73462-0.595370-0.457100...-0.59899-0.69078-0.78410-0.87322-0.95100-1.01550-1.07050-1.12200-1.1728-1.21670
# 创建名为 type 的新列,并将数据框 words 中第一列的数据复制到这个新列中
words['type']  = words.ix[:, 1]

'''
/opt/conda/lib/python3.6/site-packages/ipykernel_launcher.py:2: DeprecationWarning: 
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
'''


# 筛选出 words 数据框中 type 列的取值小于5的行,并将这些行存储在新的数据框 w 中
w = words[words['type'] < 5]


#数据框的行列数
w.shape
# (454, 272)


# 绘制数据框 w 中第一行从第二列开始的所有数据的图表
w.ix[0, 1:].plot()

# 绘制数据框 w 中第三行从第二列开始的所有数据的图表
w.ix[2, 1:].plot()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows 修改 Alt+Tab 键 切换 新版 Microsoft Edge 单个标签页/窗口

Windows 10 修改 AltTab 键 切换 新版 Microsoft Edge 单个标签页/窗口 解决方案&#xff1a;在 Windows 设置 的搜索框中 搜索 alt&#xff0c;选择 选择按下 AltTab 时显示的窗口和选项卡&#xff0c;将 按 Alt Tab 将显示 选为 仅打开的窗口 详细过程&#xff1a; 在 Win…

打造高效3D打印利器:STEP转STL格式转换器

随着3D打印技术的日益普及&#xff0c;越来越多的设计师和工程师开始使用三维建模软件来创建复杂的产品模型。然而&#xff0c;不同的软件往往采用不同的文件格式&#xff0c;这给模型的共享和打印带来了诸多不便。本文将重点介绍STEP格式转STL格式的转换器&#xff0c;帮助大家…

【图论】(三)图论的并查集问题

图论的并查集问题 并查集理论基础并查集理论路径压缩代码模板模拟过程 找亲戚寻找存在的路径冗余连接冗余连接II 并查集理论基础 参考学习视频&#xff1a; 图论——并查集(详细版) 并查集理论 并查集主要用于处理一些不相交集合的合并问题&#xff08;连通性问题&#xff0…

汽车网络安全 -- 后量子密码时代还远吗?

目录 1.量子计算对密码学的威胁 1.1 传统密码学速览 1.2 量子计算对密码学的威胁 2.后量子密码学 2.1 量子计算原理 2.2 后量子密码学 3.未来汽车网络安全面临的威胁 3.1 量子计算对汽车的威胁 3.2 TC4xx对于PQC算法的支持 国庆抽空回顾了下Hitex组织的《Designing wi…

西门子S7-1200选型指南之概述

S7-1200 控制器概述 S7-1200 虽然只是中小型控制器&#xff0c;但是功能很全面。它具有较高性能&#xff0c;并且具有很强的扩展能力&#xff0c;通信能力多种多样&#xff0c;本体即具有各种常见工艺功能&#xff0c;此外也具备西门子常见的诊断功能&#xff0c;下面将分几部…

vue3 + vite + cesium项目

GitHub - tingyuxuan2302/cesium-vue3-vite: 项目基于 vue3 vite cesium&#xff0c;已实现常见三维动画场&#xff0c;欢迎有兴趣的同学加入共建&#xff0c;官网服务器相对拉胯&#xff0c;请耐心等候...https://github.com/tingyuxuan2302/cesium-vue3-vite/tree/github

计算机网络:数据链路层 —— 数据链路层的三个重要问题

文章目录 数据链路层的重要问题封装成帧封装过程帧的数据载荷 透明传输实现透明传输 差错检测传输差错误码&#xff08;比特差错&#xff09;分组丢失分组失序分组重复 奇偶校验循环冗余校验生成多项式方法流程 纠错码 数据链路层的重要问题 封装成帧 在计算机网络中&#xf…

基于Java+SpringBoot+Uniapp的博客系统设计与实现

项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念&#xff0c;提供了一套默认的配置&#xff0c;让开发者可以更专注于业务逻辑而不是配置文件。Spring Boot 通过自动化配置和约…

Jenkins整合Docker实现CICD自动化部署(若依项目)

前期准备 提前准备好jenkins环境 并且jenkins能使用docker命令&#xff0c;并且已经配置好了jdk、node、maven环境&#xff0c;我之前写了安装jenkins的博客&#xff0c;里面讲得比较详细&#xff0c;推荐用我这种方式安装 docker安装jenkins&#xff0c;并配置jdk、node和m…

【分布式架构】分布式事务理论与实践

一、分布式事务理论 1. ACID理论 场景&#xff1a;单机架构中保证事务的理论 2. CAP理论 场景&#xff1a;分布式架构中保证事务的理论 概念 一致性&#xff1a;数据在不同的节点每一时刻都是一致的可用性&#xff1a;一部分的节点出现异常&#xff0c;但是系统仍然可用分…

【3dgs】3DGS与NeRF对比

以下是 3DGS&#xff08;3D Geometry Sensing&#xff09;与 NeRF&#xff08;Neural Radiance Fields&#xff09;对比表格&#xff1a; 更加详细的资料&#xff0c;轻参考&#xff1a; NERF/3DGS 对比维度3DGS (3D Geometry Sensing)NeRF (Neural Radiance Fields)基本原理…

【Linux进程信号】Linux信号产生机制详解:掌握系统通信的关键

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;Linux “ 登神长阶 ” &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀Linux进程信号 &#x1f4d2;1. 信号入门&#x1f4dc;2. 信号捕捉初识&#x1f4da;3. 信号…

Windows应急响蓝安服面试

Windows应急响应 蓝队溯源流程 学习Windows应急首先要站在攻击者的角度去学习一些权限维持和权限提升的方法.,文章中的方法其实和内网攻防笔记有类似l红队教你怎么利用 蓝队教你怎么排查 攻防一体,应急响应排查这些项目就可以 端口/服务/进程/后门文件都是为了权限维持,得到s…

linux安装hadoop

目录 jdk安装配置 hadoop安装 hadoop配置 配置ssh免密登录 启动hadoop 实现文件上传下载 eclipse安装配置 jdk安装配置 1、删除centos自带的jdk yum list installed | grep java yum remove *openjdk* 2、下载jdk安装包 wget --no-check-certificate https://repo.h…

InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

InternVid 是一个开源的大规模视频-文本数据集&#xff0c;旨在促进视频理解和生成任务的发展&#xff0c;由上海人工智能实验室与南京大学、中国科学院等单位联合发布&#xff0c;相关的工作已经被ICLR2024接收。它包含超过 700 万个视频&#xff0c;总时长近 76 万小时&#…

位操作位操作位操作

呵呵哈哈哈哈哈哈哈哈哈和哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

MySQL—视图

前言&#xff1a; 视图是一个虚拟的表&#xff0c;是基于一个或多个基本表或其他视图的查询结果集。视图本身不占据物理储存空间&#xff0c;仅仅只是一个查询的逻辑表示&#xff0c;物理上依赖于数据表的数据。 视图具有简单&#xff0c;安全&#xff0c;逻辑数据独立&#…

CST软件优化超表面--- 偏振片- 线圆极化转换,天线阵任务,远场算轴比AR

本期我们继续看线极化转圆极化。本案例是个三层结构&#xff0c;比单层的偏振片有更宽的频率和更少的反射。我们将利用CST的天线阵列任务中的单元任务&#xff0c;加上优化器优化&#xff0c;使偏振片在多个入射角、多个频率&#xff0c;S11反射都够小&#xff0c;AR都够圆。 …

Spark-RDD的宽窄依赖以及Shuffle优化

目录 RDD宽窄依赖的区别 DAG有向无环图 窄依赖 宽依赖 shuffle过程 Shuffle介绍 Spark优化-避免shuffle RDD宽窄依赖的区别 窄依赖 每个父RDD的一个Partition最多被子RDD的一个Partition所使用 mapflatMapfilter宽依赖 一个父RDD的Partition会被多个子RDD的Partition所使…

LCD补充

LCD补充 目录 LCD补充 tip:随着我们学的越来越多&#xff0c;代码长度越来越长&#xff0c;编译越来越慢&#xff0c;有没有超过内存是我们比较关心的一件事&#xff0c;通过以下方法可以实时看到写的代码的大小 回顾LCD LCD补充功能 -- 1、有关在LCD上显示动图&#xff…