scanpy sc.pp.normalize_per_cell bug

news2026/2/12 13:53:39

今天遇到一个很奇怪的bug, 当今天跑covid_atlas数据集的时候，在123服务器总是报错，但是我记得在122服务器上是跑过没问题的

最终的测试结果如下

import scanpy as sc 
import numpy as np 
from QUEST import QUEST
from QUEST.utils import get_free_gpu
import torch 


dataset_path ="/home/DATA1/zhangjingxiao/yxk/datasets/covid_atlas/covid_atlas_raw.h5ad"
adata=sc.read(dataset_path)
print("....................................data preprocessing.............................................")
sc.pp.filter_genes(adata, min_counts=1)
sc.pp.filter_cells(adata, min_counts=1)
sc.pp.normalize_per_cell(adata,counts_per_cell_after=1e4)
adata.obs['size_factors'] = adata.obs.n_counts / np.median(adata.obs.n_counts)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata,n_top_genes=1000,subset=True,inplace=True)#
sc.pp.scale(adata,max_value=10.0)
sc.tl.pca(adata)


# if torch.cuda.is_available():
#     free_gpu_id = get_free_gpu()
#     device = torch.device("cuda:"+str(free_gpu_id))
# else:
#     device = torch.device("cpu")
# #print(free_gpu_id)
# #torch.cuda.set_device(free_gpu_id)
# #device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# quest=QUEST(adata,batch_name="BATCH",hidden_size=[64,32],num_epochs=10,batch_size = 256,save_dir="./Log/",device = device)
# quest.train()

# adata0=quest.adata
# print(adata0)
# adata0.obsm["X_emb"]= adata.obsm["X_QUEST"].copy()
# sc.pp.neighbors(adata0, use_rep="X_QUEST")
# sc.tl.umap(adata0)
# #sc.tl.louvain(adata0,resolution=1.0)
# sc.pl.umap(adata0, color=["celltype","BATCH"],show=False)

在这里插入图片描述

test dataset1

import scanpy as sc 
import torch 
import numpy as np
from scipy.sparse import issparse
import matplotlib.pyplot as plt
from QUEST.utils import seed_torch
from QUEST import QUEST
from QUEST.preprocess import read_dataset,normalize
from QUEST.utils import evaluation_batch_mixing

dataset="covid_atlas"
datatype="multi" #

dataset_path ="/home/DATA1/zhangjingxiao/yxk/datasets/covid_atlas/covid_atlas_raw.h5ad"
adata=sc.read(dataset_path)
#adata = sc.read("/DATA2/zhangjingxiao/yxk/dataset/covid_atlas/adata_clean.h5ad")
adata.obs["BATCH"] = adata.obs["sampleID"].copy()
sc.pp.normalize_total(adata,target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata,n_top_genes=1000,subset=True)
sc.pp.scale(adata)
sc.tl.pca(adata)

print("calculate PCA done....")

结果如下
在这里插入图片描述

test dataset2

测试
sc.pp.filter_genes(adata, min_counts=1)
sc.pp.filter_cells(adata, min_counts=1)

import scanpy as sc 
import torch 
import numpy as np
from scipy.sparse import issparse
import matplotlib.pyplot as plt
from QUEST.utils import seed_torch
from QUEST import QUEST
from QUEST.preprocess import read_dataset,normalize
from QUEST.utils import evaluation_batch_mixing

dataset="covid_atlas"
datatype="multi" #

dataset_path ="/home/DATA1/zhangjingxiao/yxk/datasets/covid_atlas/covid_atlas_raw.h5ad"
adata=sc.read(dataset_path)
#adata = sc.read("/DATA2/zhangjingxiao/yxk/dataset/covid_atlas/adata_clean.h5ad")
adata.obs["BATCH"] = adata.obs["sampleID"].copy()
sc.pp.filter_genes(adata, min_counts=1)
sc.pp.filter_cells(adata, min_counts=1)

sc.pp.normalize_total(adata,target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata,n_top_genes=1000,subset=True)
sc.pp.scale(adata)
sc.tl.pca(adata)

print("calculate PCA done....")

在这里插入图片描述

test dataset3（(sc.pp.normalize_per_cell_)）

import scanpy as sc 
import torch 
import numpy as np
from scipy.sparse import issparse
import matplotlib.pyplot as plt
from QUEST.utils import seed_torch
from QUEST import QUEST
from QUEST.preprocess import read_dataset,normalize
from QUEST.utils import evaluation_batch_mixing

dataset="covid_atlas"
datatype="multi" #

dataset_path ="/home/DATA1/zhangjingxiao/yxk/datasets/covid_atlas/covid_atlas_raw.h5ad"
adata=sc.read(dataset_path)
#adata = sc.read("/DATA2/zhangjingxiao/yxk/dataset/covid_atlas/adata_clean.h5ad")
adata.obs["BATCH"] = adata.obs["sampleID"].copy()
sc.pp.filter_genes(adata, min_counts=1)
sc.pp.filter_cells(adata, min_counts=1)

sc.pp.normalize_per_cell(adata,counts_per_cell_after=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata,n_top_genes=1000,subset=True)
sc.pp.scale(adata)
sc.tl.pca(adata)

print("calculate PCA done....")

结果如下
在这里插入图片描述
总而言之，最终的问题在于

sc.pp.normalize_total(adata,target_sum=1e4)

与

sc.pp.normalize_per_cell(adata,counts_per_cell_after=1e4)

其中使用

sc.pp.normalize_total(adata,target_sum=1e4)

不报错，但是使用

sc.pp.normalize_per_cell(adata,counts_per_cell_after=1e4)

就会报错，值得注意

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/726078.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

scanpy sc.pp.normalize_per_cell bug

test dataset1

test dataset2

test dataset3（(sc.pp.normalize_per_cell_)）

相关文章

【MySQL】简介 MySQL 事务

推特开始限制用户可以阅读的推文数量

docker的联合文件系统 UnionFS《深入docker底层原理》

结束 guard else 只能使用 return ?

软件设计模式与体系结构-设计模式-行为型软件设计模式-中介者模式

从0开始，手写Redis

LVS和keepalived群集

Android JetPack深入分析DataBinding源码

华为6605AC控制器大型组网wlan pool技术应用（自动漫游）

win10通过conda安装pytorch gpu

Leetcode - 352周赛详解

git 分支管理

省电，AMD 提交 Linux 新技术 FreeSync Panel Replay

关于https的加密流程简介（图解）

第163天：应急响应-后门攻击检测指南Rookit内存马权限维持WINLinux

Qt之QMainWindow 自定义标题栏

MySQL：数据的增删改查

Dubbo sentinel 哨兵熔断慢调用比例、异常比例、异常数

git bash 命令行反应慢、卡顿

Spring Security OAuth2.0(4):Spring Security集成SpringBoot