scanpy赋值问题

news2025/1/20 19:56:32

今天发现一个很奇怪的bug


import numpy as np
import pandas as pd
import anndata as ad
from scipy.sparse import csr_matrix
print(ad.__version__)

counts = csr_matrix(np.random.poisson(1, size=(100, 2000)), dtype=np.float32)
adata1 = ad.AnnData(counts)
print(adata1)

def f(adata):
    
    adata = adata[:,0:1] # 
    print(adata.shape)
    
f(adata1)
print(adata1.shape)

结果如下
在这里插入图片描述
可以看到在函数中,这个adata的结果是变化了,但是并没有改变外部adata的值


import numpy as np
import pandas as pd
import anndata as ad
from scipy.sparse import csr_matrix
print(ad.__version__)

counts = csr_matrix(np.random.poisson(1, size=(100, 2000)), dtype=np.float32)
adata1 = ad.AnnData(counts)
print(adata1.X[0:2,0:10])

def f(adata):
    
    adata = adata[:,0:1] # 
    print(adata.shape)
    
f(adata1)
print(adata1.shape)
print(adata1.X[0:2,0:10])

在这里插入图片描述

但是如果一开始我不在函数中操作,而是主程序中,这个结果


import numpy as np
import pandas as pd
import anndata as ad
from scipy.sparse import csr_matrix
print(ad.__version__)

counts = csr_matrix(np.random.poisson(1, size=(100, 2000)), dtype=np.float32)
adata1 = ad.AnnData(counts)
print(adata1.X.shape)

    
adata1 = adata1[:,0:1]
print(adata1.shape)

结果如下
在这里插入图片描述
这个现象只能解释为adata= adata1[:,0:1]是一个复制的行为,只不过同名了,所以adata的饮用变了,如果

adata2 = adata1[:,0:1],

可以想象,这个结果不会对adata1结果有影响

这仅仅是一个简简单单的例子,下面有一个更奇怪的测试

import scanpy as sc 

adata= sc.read("/Users/yxk/Desktop/test_dataset/pbmc/pbmc.h5ad")
adata.obs["BATCH"] = adata.obs["batch"].copy()
adata.obs["label"]=adata.obs["celltype"].astype("category").cat.codes 
n_classes= len(adata.obs["label"].value_counts())
print(adata)

adata1= adata[adata.obs["batch"]=="pbmc_3p"].copy()
adata2= adata[adata.obs["batch"]=="pbmc_5p"].copy()
#print(adata1.X)
#print(adata2.X)

## 如果用这种方式,我的结果是这样的
def preprocessNew(
               adata_A_input, 
               ):
    '''
    Performing preprocess for a pair of datasets.
    To integrate multiple datasets, use function preprocess_multiple_anndata in utils.py
    '''
    adata_A = adata_A_input

    print("Finding highly variable genes...")
    #sc.pp.highly_variable_genes(adata_A, flavor='seurat_v3', n_top_genes=2000)
    #hvg_A = adata_A.var[adata_A.var.highly_variable == True].sort_values(by="highly_variable_rank").index
    
    print("Normalizing and scaling...")
    sc.pp.normalize_total(adata_A, target_sum=1e4)
    sc.pp.log1p(adata_A)
    sc.pp.highly_variable_genes(adata_A,n_top_genes=2000)
    hvg_A = list(adata1.var_names[adata1.var.highly_variable])
    adata_A = adata_A[:, hvg_A]
    sc.pp.scale(adata_A, max_value=10)
    print(adata_A.X[0:1,0:100])
    print(adata_A.X.shape)
    # 为啥这些结果是这样的

preprocessNew(adata1)
print(adata1.X.shape)

在这里插入图片描述可以看到adata的结果是没有改变的,还是33694维,但是我在函数中,明明是选择了高变基因的

但是如果采用下面的代码

import scanpy as sc 

adata= sc.read("/Users/yxk/Desktop/test_dataset/pbmc/pbmc.h5ad")
adata.obs["BATCH"] = adata.obs["batch"].copy()
adata.obs["label"]=adata.obs["celltype"].astype("category").cat.codes 
n_classes= len(adata.obs["label"].value_counts())
print(adata)

adata1= adata[adata.obs["batch"]=="pbmc_3p"].copy()
adata2= adata[adata.obs["batch"]=="pbmc_5p"].copy()
#print(adata1.X)
#print(adata2.X)

def preprocessNew(
               adata_A_input, 
               ):
    '''
    Performing preprocess for a pair of datasets.
    To integrate multiple datasets, use function preprocess_multiple_anndata in utils.py
    '''
    adata_A = adata_A_input

    print("Finding highly variable genes...")
    #sc.pp.highly_variable_genes(adata_A, flavor='seurat_v3', n_top_genes=2000)
    #hvg_A = adata_A.var[adata_A.var.highly_variable == True].sort_values(by="highly_variable_rank").index

    print("Normalizing and scaling...")
    sc.pp.normalize_total(adata_A, target_sum=1e4)
    sc.pp.log1p(adata_A)
    sc.pp.highly_variable_genes(adata_A,n_top_genes=2000,subset=True)
    #adata_A = adata_A[:, hvg_A]
    sc.pp.scale(adata_A, max_value=10)
    print(adata_A.X[0:1,0:100])
preprocessNew(adata1)
print(adata1.X.shape)
print(adata1.X[0:1,0:100])
## 但是线则这个问题为啥不是

结果如下
在这里插入图片描述
这里可以看到,我最终的adata1的维度是改变了,这里需要注意

这里使用
sc.pp.highly_variable_genes(adata1,n_top_genes=2000,subset=True),就是对adata的引用改动了,最终导致最开始的atata出现了变化,反正最好还是用scanpy的内置函数了,一旦在函数里赋值就要注意局部对象的问题

import scanpy as sc 

adata= sc.read("/Users/yxk/Desktop/test_dataset/pbmc/pbmc.h5ad")
adata.obs["BATCH"] = adata.obs["batch"].copy()
adata.obs["label"]=adata.obs["celltype"].astype("category").cat.codes 
n_classes= len(adata.obs["label"].value_counts())
print(adata)
adata1= adata[adata.obs["batch"]=="pbmc_3p"].copy()
#adata2= adata[adata.obs["batch"]=="pbmc_5p"].copy()
#print(adata1.X)
#print(adata2.X)
print("Normalizing and scaling...")
sc.pp.normalize_total(adata1, target_sum=1e4)
sc.pp.log1p(adata1)
sc.pp.highly_variable_genes(adata1,n_top_genes=2000,subset=True)
sc.pp.scale(adata1, max_value=10)
print(adata1.X[0:1,0:100])
print(adata1.X.shape)
print(adata1.X[0:1,0:100])
## 但是线则这个问题为啥不是

如果采用了preprocessNew的函数,那么本质上只对adata做了如下变化

import scanpy as sc 

adata= sc.read("/Users/yxk/Desktop/test_dataset/pbmc/pbmc.h5ad")
adata.obs["BATCH"] = adata.obs["batch"].copy()
adata.obs["label"]=adata.obs["celltype"].astype("category").cat.codes 
n_classes= len(adata.obs["label"].value_counts())
print(adata)

adata1= adata[adata.obs["batch"]=="pbmc_3p"].copy()
#adata2= adata[adata.obs["batch"]=="pbmc_5p"].copy()
#print(adata1.X)
#print(adata2.X)

## 如果用这种方式,我的结果是这样的
def preprocessNew(
               adata_A_input, 
               ):
    '''
    Performing preprocess for a pair of datasets.
    To integrate multiple datasets, use function preprocess_multiple_anndata in utils.py
    '''
    adata_A = adata_A_input

    print("Finding highly variable genes...")
    #sc.pp.highly_variable_genes(adata_A, flavor='seurat_v3', n_top_genes=2000)
    #hvg_A = adata_A.var[adata_A.var.highly_variable == True].sort_values(by="highly_variable_rank").index
    
    print("Normalizing and scaling...")
    sc.pp.normalize_total(adata_A, target_sum=1e4)
    sc.pp.log1p(adata_A)
    sc.pp.highly_variable_genes(adata_A,n_top_genes=2000)
    hvg_A = list(adata1.var_names[adata1.var.highly_variable])
    adata_A = adata_A[:, hvg_A]
    sc.pp.scale(adata_A, max_value=10)
    print(adata_A.X[0:1,0:100])
    print(adata_A.X.shape)
    # 为啥这些结果是这样的

preprocessNew(adata1)
print(adata1.X.shape)
print(adata1.X[0:1,0:100])

结果如下
在这里插入图片描述reproduce result

import scanpy as sc 

adata= sc.read("/Users/yxk/Desktop/test_dataset/pbmc/pbmc.h5ad")
adata.obs["BATCH"] = adata.obs["batch"].copy()
adata.obs["label"]=adata.obs["celltype"].astype("category").cat.codes 
n_classes= len(adata.obs["label"].value_counts())
print(adata)

adata2= adata[adata.obs["batch"]=="pbmc_3p"].copy()

#print(adata1.X)
#print(adata2.X)

## 如果用这种方式,我的结果是这样的

print("Normalizing and scaling...")
sc.pp.normalize_total(adata2, target_sum=1e4)
sc.pp.log1p(adata2) # 真正对adata1只有这么多的操作

# 为啥这些结果是这样的
print(adata2.X.shape)
print(adata2.X[0:1,0:100])

在这里插入图片描述

from sklearn.metrics import mean_squared_error
mean_squared_error(adata1.X.toarray(),adata2.X.toarray())

结果如下
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1165524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于深度学习的视频多目标跟踪实现 计算机竞赛

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的视频多目标跟踪实现 …

网络安全演练(一句话木马)

在享受互联网带来的便利的同时,也充满了各种网络安全风险,本文通过搭建实验环境,演示一句话木马获取主机权限。 演示环境 服务端:安装LAMP环境,部署web网站,上传一句话木马文件 客户端:安装A…

基于springboot实现在线考试平台项目【项目源码+论文说明】计算机毕业设计

基于springboot实现在线考试演示 摘要 网络的广泛应用给生活带来了十分的便利。所以把在线考试管理与现在网络相结合,利用java技术建设在线考试系统,实现在线考试的信息化。则对于进一步提高在线考试管理发展,丰富在线考试管理经验能起到不少…

【Linux】Nignx的入门使用负载均衡动静分离(前后端项目部署)---超详细

一,Nignx入门 1.1 Nignx是什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它使用事件驱动的异步框架,可同时处理大量请求,支持负载均衡、反向代理、HTTP缓存等常见Web服务场景。Nginx可以作为一个前端的Web服务器,也可…

【密评】商用密码应用安全性评估从业人员考核题库(十八)

商用密码应用安全性评估从业人员考核题库(十八) 国密局给的参考题库5000道只是基础题,后续更新完5000还会继续更其他高质量题库,持续学习,共同进步。 4251 判断题 对同一数据分别使用MD5和SHA1算法计算杂凑值&#xf…

centos7部署nginx

CentOS7安装Nginx-1.16.1稳定版 小白教程,一看就会,一做就成。 1.安装依赖环境 yum -y install gcc gcc-c automake pcre pcre-devel zlib zlib-devel openssl openssl-devel 2.下载安装包(不能联网的不行),可以留言…

Snagit 2024.0.1(mac截屏软件)

【捕获你的屏幕创意:Snagit 2024】 在视觉创意领域,你需要一款能够助你表达独特想法的工具,那就是Snagit 2024。这款软件将为你提供强大的图像处理和捕捉功能,帮助你实现你的创意构想。 Snagit 2024是一款功能强大的图像处理软件…

【npm run dev 报错:error:0308010C:digital envelope routines::unsupported】

问题原因: nodejs版本太高(nodejs v17版本发布了openSSL3.0对短发和密钥大小增加了更为严格的限制,nodejs v17之前版本没有影响,但之后的版本会出现这个错误,物品的node版本是20.9.0) 解决方式&#xff1…

测试老鸟,Python接口自动化测试框架搭建-全过程,看这篇就够了...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、接口测试自动化…

uniapp 省市区三级联动选择器

还有半个小时下班,总想着发点光亮照耀他人。IT技术这东西,尤其是UI方面的东西,于用户体验至关重要,想想最近使用uni-data-picker的丑陋页面,自己重构了这个功能,新加实现,效果图如下&#xff0c…

2023.10.31 关于 Spring 的基本概念

目录 Spring 容器 对象生命周期 IoC Spring IoC DI Spring Spring 的全称为 Spring Framework,是一个开源的 Java 应用程序框架它提供了一种综合的编程和配置模型,用于构建现代化企业级的应用程序 一句话概括 Spring 是包含了众多工具方法的 IoC …

Redis-持久化+主从架构

文章目录 Redis的持久化RDB模式异步持久化的实现AOF模式总结 Redis的主从架构1.端口以及文件调试测试2.主从配置3.数据同步原理(第一次同步为全局同步)4.增量同步5.主从配置优化6.问:master主机怎么判断从机slave是不是第一次同步数据? Redis…

Modelsim 使用教程(4)—— Working With Multiple Libraries

一、概述 在文中,我们将练习使用多个库。在实际的项目开发过程中,我们可能有多个库来组织设计,从第三方源代码访问IP,或者在仿真之间共享公共部分。我们将通过创建一个包含计数器设计单元的资源库来开始本文。接下来,我…

美团面试:Redis 除了缓存还能做什么?可以做消息队列吗?

这是一道面试中常见的 Redis 基础面试题,主要考察求职者对于 Redis 应用场景的了解。 即使不准备面试也建议看看,实际开发中也能够用到。 内容概览: Redis 除了做缓存,还能做什么? 分布式锁:通过 Redis 来做分布式锁是一种比较常见的方式。通常情况下,我们都是基于 Re…

VBA之正则表达式(44)-- 拆分商品和规格

实例需求:商品组清单保存在A列中,现需要将其拆分为商品名称,保存在从B列开始的后续单元格中,部分商品包含规格,并且多种规格属性使用了逗号分隔,因此无法直接使用Excel分列功能完成数据拆分。 示例代码如下…

BUUCTF 数据包中的线索 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 公安机关近期截获到某网络犯罪团伙在线交流的数据包,但无法分析出具体的交流内容,聪明的你能帮公安机关找到线索吗? 密文: 下载附件,解压得到一个.pcapng文…

基于SSM的同学录网站

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

【星海出品】VUE(一)

Windows安装nvm控制器 Windows里找都PowerShell。右击点击管理员运行。 1.安装choco Set-ExecutionPolicy Bypass -Scope Process -Force; iex ((New-Object System.Net.WebClient).DownloadString(https://chocolatey.org/install.ps1))2.安装NVM choco install nvm 3.查看可…

【HTML】播放器如何自动播放【已解决】

自动播放器策略 先了解浏览器的自动播放器策略 始终允许静音自动播放在以下情况,带声音的自动播放才会被允许 2.1 用户已经与当前域进行交互 2.2 在桌面上,用户的媒体参与指数阈值(MEI)已被越过,这意味着用户以前播放带有声音的视频。 2.3 …

一座 “数智桥梁”,华为助力“天堑变通途”

《水调歌头游泳》中的一句话,“一桥飞架南北,天堑变通途”,广为人们所熟知,其中展现出的,是中国人对美好出行的无限向往。 天堑变通途从来不易。 中国是当今世界上交通运输最繁忙、最快捷的国家之一,交通行…