2. 量化多因子数据清洗——去极值、标准化、正交化、中性化

news2025/1/10 7:43:23

一、去极值

1. MAD

MAD(mean absolute deviation)又称为绝对值差中位数法,是一种先需计算所有因子与平均值之间的距离总和来检测离群值的方法.

def extreme_MAD(rawdata, n):

    median = rawdata.quantile(0.5)  # 找出中位数

    new_median = (abs((rawdata - median)).quantile(0.5))  # 偏差值的中位数

    dt_up = median + n * new_median  # 上限

    dt_down = median - n * new_median  # 下限

    return rawdata.clip(dt_down, dt_up, axis=1)  # 超出上下限的值,赋值为上下限

data7 = filter_extreme_MAD(data6.T,7).T

print(data7)

注:根据dataframe的数据格式,看是否倒置后运算

2. 3σ

3σ法又称为标准差法。标准差本身可以体现因子的离散程度,是基于因子的平均值 Xmean而定的。

def extreme_3sigma(rawdata):

    dt_up = rawdata.mean() + 3 * rawdata.std()

    dt_down = rawdata.mean() - 3 * rawdata.std()

    rawdata = rawdata.clip(dt_down, dt_up, axis=1)

    return rawdata

data8 = extreme_3sigma(data6.T).T

print(data8)

注:根据dataframe的数据格式,看是否倒置后运算

3.  百分位法

将因子值进行升序的排序,对排位百分位高于97.5%或排位百分位低于2.5%的因子值,进行类似于 MAD 、 3σ 的方法进行调整。

def filter_extreme_percentile(series,min = 0.10,max = 0.90): #百分位法

  series = series.sort_values()

  q = series.quantile([min,max])

  return np.clip(series,q.iloc[0],q.iloc[1])

def extreme_percentile(rawdata, min=0.025, max=0.975):

    p = rawdata.quantile([min, max])  # 得到上下限的值

    return rawdata.clip(p.loc[min, :], p.loc[max, :], axis=1)
注:根据dataframe的数据格式,看是否倒置后运算

二、标准化

  1. 离差标准化(也称线性归一化)

d = (t - t.min( )) / (t.max() - t.min())

注:根据dataframe的数据格式, 看是否倒置后运算

2. 标准差标准化

 

d = (t - t.mean())/t.std()

注:根据dataframe的数据格式, 看是否倒置后运算

三、正交化

传统方法的缺陷是:如果因子间存在较强的相关性,通过上述加权方式,最终会导致因子对于某种风格的因子重复暴露。使得整个组合的表现严重偏向于该因子,削弱其他因子的效果。

正交化目的是消除因子间的相关性,并保持因子对于收益的解释度不变。

首先进行标准化,使其在同一量纲上可比。

def  orth(x):

           M = (x.shape[0] - 1) * np.cov(x.T.astype(float))  # 矩阵

            D, U = np.linalg.eig(M)  # 获取特征值和特征向量

            U = np.mat(U)  # 转换为np中的矩阵

            d = np.mat(np.diag(D ** (-0.5)))  # 对特征根元素开(-0.5)指数

            S = U * d * U.T  # 获取过渡矩阵S

            factors_orthogonal_mat = np.mat(x) * S  # 获取对称正交矩阵

            x = pd.DataFrame(factors_orthogonal_mat, columns=x.columns, index=x.index)

     return x

使用截面数据,使用完后检验其相关性是否变小

rawdata.corr()

orth(x).corr()

四、中性化

 传统方法的缺陷是对于因子暴露在不同行业、市值上的分布不均匀,比如在小市值医药股上数值偏高,其他偏低,导致可比性下降。

如果是基本面分析需要针对不同的行业进行对比,而中性化直接通过回归取残差来避免类似问题。

中性化的方式是对因子暴露值和市值、行业做线性回归,最后用剩下的残差替代因子值。这个残差肯定是跟市值和行业无关的。

(1)为股票池添加上行业标记,0、1标记

        dummy = pd.read_csv('industry_dummy.csv', index_col=0)

import numpy as np

import pandas as pd

import math

from statsmodels import regression

import statsmodels.api as sm

#factor: 以code为index, 因子值为value的series

y = factors

#市值中性化

#mkt_ca: 以股票为index, 市值为value的series

x = mkt_cap.apply(lambda x:math.log(x))

#行业中性化

x = dummy

result = sm.OLS(y.astype(float),x.astype(float)).fit()

output = result.resid

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/602534.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mybatais-plus超详细教程

文章目录 前言什么是Mybatis-plus特性引入依赖配置日志Service CRUD 接口SaveSaveOrUpdateRemoveUpdateGetListPageCount Chainqueryupdate Mapper CRUD 接口InsertDeleteUpdateSelect 赠送 前言 在学习Mybatis-plus之前,这里默认大家都已经对mybatis使用有了一定的…

召回评价指标NDCG、MAP

【MAP】 1、AP A P ∑ i 1 n r e l ( i ) p i AP \sum_{i1}^{n}\frac{rel(i)}{p_i} APi1∑n​pi​rel(i)​ 其中 n 表示候选序列长度, p i p_i pi​表示第 i 个 item 的位置 本质是对每个位置item的分数加一个基于位置的筛选.简单粗暴,直接除以位置…

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

前言 上一章中我们介绍了NeRF原理、传统体渲染方法以及两者之间的联系,本章中我们将讲解colmap的安装以及使用,部分nerf_pl源码,同时在开发过程中,由于部分操作python/torch不支持,我们需要自己造轮子,且在…

37 KVM管理设备-管理设备直通

文章目录 37 KVM管理设备-管理设备直通37.1 PCI直通37.2 SR-IOV直通37.2.1 概述37.2.2 操作方法37.2.2.1 开启网卡的SR-IOV模式37.2.2.2 获取PF和VF的PCI BDF信息37.2.2.3 识别和管理PF/VF对应关系37.2.2.4 挂载SR-IOV网卡到虚拟机中 37.2.3 HPRE加速器SR-IOV直通 37 KVM管理设…

IOS上架流程详解,包含审核避坑指南!

准备 开发者账号完工的项目 上架步骤 一、创建App ID二、创建证书请求文件 (CSR文件)三、创建发布证书 (CER)四、创建Provisioning Profiles配置文件 (PP文件)五、在App Store创建应用六、打包上架 一、…

又一运维利器:资源监控微应用

过去几个月,优维在新的资源监控微应用相关能力的研发上投入大量的时间与精力。 上周三,优维专门召开了一场资源监控微应用发布会,介绍了优维的监控微应用的功能亮点和后续规划。 下面就跟着鹿小U一起来具体了解一下。 01 过去&#xff0c…

需求不完备测试解决方案——分布式微服务架构测试实践

1痛点和研究背景 目前随着分布式核心下移和小型机下线的趋势,主流系统架构已逐步演变为CCETDSQL。而在这一演进过程中也陆续暴露出来一些痛点难点问题,需要我们着力解决。为此,我们聚焦于分布式架构下需求、架构、数据这三个方面的痛点问题探…

【Linux驱动】VScode 环境简单配置

在开始编写驱动之前,我们需要保证良好的编码环境,这里编写代码所使用的编辑器是VScode,如果进行环境配置,可能会提示很多错误,比如头文件找不到、内核函数的定义无法跳转等等。 VScode 在这里只作为编辑器使用&#x…

Springboot配置Yml多环境

文章目录 学习链接前言pom.xmlapplication.ymlapplication-dev.yml 开发环境配置application-prod.yml 线上环境配置logback.xml 日志配置 学习链接 easypan Spring Boot手把手教学(2):使用yml多环境配置和创建多环境profile打包 springboot 配置多环境使用yml配置…

自动化测试介绍和分类,看这一篇就够了

自动化测试介绍及分类 什么是自动化测试? 自动化测试是软件测试活动中一个重要的分支和组成部分,即利用工具或脚本达到测试目的,没有人工或者极少人工参与的软件测试活动称为自动化测试. 自动化测试的优势有哪些? 方便进行回归测试,当软件的版本发布比较频繁的时候,自动化…

平台工程是 DevOps 的未来

Gartner 预测到 2026 年时,将有 80% 的软件工程组织会建立平台团队 DevOps 与平台工程 DevOps 是一种文化和理念。平台工程,是我们实现**“谁构建、谁运行”**的唯一方式。这是 DevOps 的核心初衷,也是后来企业级规模和云原生时代的实现基础…

游泳健身馆预约小程序开发 助力门店拓客引流

暑假快要到了,很多游泳健身馆都想方设法来招揽顾客,其实无论是派发传单还是媒体投放,都不如开发一款游泳健身类预约小程序来的好。因为有了健身游泳小程序系统不仅能够起到很好的推广宣传效果,对于日后的经营发展也有诸多好处。 …

javaEE在2023年5月21知识复盘(一)

今天讲述了doget()、doPost()方法,介绍了里面参数req,resp的一些实用方法 getParameter()获取请求参数 getParameterValues() 返回参数数组 【post方式】 设置编码格式 req-> setCharacterEncoding() resp->SetContent-Type(“text/html;charsetutf-8”) 获取…

SpringBoot + minio实现文件切片极速上传技术(敢说全网整合完整度前三)

一. 概述 提示:请不要多个博客来回跳着看,此文章之详细绝无仅有,融合多家之长,如果遇见报错,请仔细捋一遍文章,不要忽略!我在写的时候因为许多文章不全面,来回跳遇见许多坑&#xf…

Java 集合,你肯定也会被问到这些

作为一位小菜 ”一面面试官“,面试过程中,我肯定会问 Java 集合的内容,同时作为求职者,也肯定会被问到集合,所以整理下 Java 集合面试题 说说常见的集合有哪些吧? HashMap说一下,其中的Key需要重…

傻子都能学会的LNMP部署

LNMP 一、安装 Nginx 服务1、安装依赖包2、创建运行用户3、编译安装4、优化路径5、添加 Nginx 系统服务 二、安装 MySQL 服务】1、安装Mysql环境依赖包2、创建运行用户3、编译安装4、修改mysql 配置文件5、更改mysql安装目录和配置文件的属主属组6、设置路径环境变量7、初始化数…

接口测试测什么?一个简单问题把我难住了

那么设计测试用例时我们主要考虑如下几个方面: 一、功能测试 接口的功能是否正确实现了 接口是否按照设计文档中来实现(比如username参数写为了user,那么这就不符合,因为接口文档在整个开发中都需要使用,所以接口实…

MEX 文件 ‘lsd.mexw64‘ 无效: 找不到指定的模块。问题解决方法

问题描述 在跑MATLAB和C混合编程的一个算法时,出现了如下错误: MEX 文件 C:\Project\final code\reference code\lsd.mexw64 无效: 找不到指定的模块。 如下图所示: 原因分析 根据资料[1]的说法,*.mexw64文件无效可能的原因是缺…

GitLab从旧服务器迁移到新服务器(空间不足,gitlab安装报错)

注意事项:迁移前首先要保证新旧服务器上的GitLab版本号一致,而且gitlab的包要符合安装的系统gitlab安装,系统与安装包不一致导致的安装错误。 1.查看当前GitLab版本 cat /opt/gitlab/embedded/service/gitlab-rails/VERSION显示为 12.5.5。…

Linux之Ubuntu 22.04实现微信双开

Linux之Ubuntu 22.04实现微信双开 基于deepin-wine仓库安装第一个微信添加仓库安装对应软件包com.qq.weixin.deepin 微信的安装存在的问题补充 Linux下使用模拟器进行微信多开(可取?)下载Linux模拟器下载完成打开: 安装第二个微信…