哈佛大学单细胞课程|笔记汇总 (五)

news2024/9/22 7:25:26

哈佛大学单细胞课程|笔记汇总 (四)

(五)Count Normalization and Principal Component Analysis

获得高质量的单细胞后,单细胞RNA-seq(scRNA-seq)分析工作流程的下一步就是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞亚群。为了进行聚类,我们确定了在细胞之间表达差异最大的基因。

数值标准化

标准化最重要的目的就是使表达水平在细胞之间和/或细胞内更具有可比性。那么在标准化中主要需要处理的因素包括:

测序深度:考虑测序深度是比较细胞之间基因表达的必要条件。在下面的示例中,每个基因在细胞2中的表达似乎都增加了一倍,但这是细胞2具有两倍测序深度的结果。

图片

因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化 (什么?你做的差异基因方法不合适?)。

基因长度:需要基因长度来比较同一细胞内不同基因之间的表达。基因长度越长比对到的reads理论上会越多。如下图所示:低表达的较长基因测序到的reads数与较高表达的短基因相差不大。

图片

  • 如果进行的是5’末端或3’末端测序,则不需要考虑基因长度的影响;

  • 如果使用全长测序则需要考虑。

主成分分析(PCA)

PCA是对数据降维的技术,可以用来展示样品差异和相似性,这里推荐一个学习视频:StatQuest's video(https://www.youtube.com/watch?v=_UVHneBUBW0)

下面是PCA的示例模拟过程,帮助理解:

如果你已经定量了两个样本(或细胞)中四个基因的表达,则可以绘制这些基因的表达值,其中一个样本在x轴上表示,另一个样本在y轴上表示,如下所示:

图片

我们可以沿代表最大变化的方向在数据上画一条线,在此示例中为对角线,数据中变化第一大的变量。数据集中的最大变异是在组成两个端点的基因。我们还看到基因在该线的上方和下方有些不同。我们可以在该条线的中点绘制另一条与其垂直的线,代表数据中变化第二大的变量。

图片

末端附近的基因 (B, C)是变异最大的基因。这些基因在数学上对线的方向影响最大。

图片

例如,基因C值的微小变化将极大地改变较长线的方向,而基因A或基因D的微小变化对其几乎没有影响。

图片

我们还可以旋转整个图,保证线条方向是从左到右和从上到下。现在,可以将这些线视为代表变化的轴。这些轴本质上是“主成分”,其中PC1代表数据的最大差异,PC2代表数据的第二大差异。

图片

如果有N个细胞,以此类推。。。(PCA主成分分析实战和可视化 | 附R代码和测试数据)

确定PCs后,则需要对每个PC进行评分,按照以下步骤对所有样本PC对(sample-PC pairs)计算分数:

(1)首先,根据基因对每个PC的影响程度,为其分配“影响力”评分。对给定PC没有任何影响的基因得分接近零,而具有更大影响力的基因得分更高。PC线末端的基因将产生更大的影响,因此它们将获得更大的分数,但两端的符号相反。

图片

(2)确定影响分数后,使用以下公式计算每个样本的分数:

Sample1 PC1 score = (read count * influence) + ... for all genes

以我们的2个样本示例,以下是分数的计算方式:

## Sample1
PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7

## Sample2
PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

(3)一旦为各个样本的所有PC计算了这些分数,就可以将其绘制在简单的散点图上。下面是示例图:

图片

对于具有大量样本或细胞的数据集,通常会绘制每个样本/细胞的PC1和PC2分数。由于这些PC解释了数据集中最大的变化,因此更相似的样本/细胞将在PC1和PC2聚在一起。请参见下面的示例:

图片

Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb

对于我们的单细胞数据,我们最终会选择10-100 PC去对细胞进行聚类分析,而不是全部基因

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1990316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代理IP如何助力社交媒体数据挖掘

目录 引言 一、 社交媒体数据挖掘的挑战 1、访问限制 2、反爬虫技术 3、数据隐私和合规性 4、数据的多样性和复杂性 5、技术门槛 二、解决方案:代理IP 1、绕过IP封锁 2、管理访问频率 3、保护用户隐私 4、提高数据获取的成功率 三、代理IP平台:站大爷 1、高效性…

商标担保注册出现的常见问题!

最近有个网友联系到普推知产商标老杨,问一个商标名称注册担保事项,检索信息给详细分析下,这个商标名称他以前申请注册过,也做过驳回复审,还是不予注册。 如果相同的名称现在去申请注册,当然会直接驳回&…

模型太大加载不畅?不兼容?3D模型轻量化帮您瘦身减负

在当今的数字时代,3D模型已成为游戏开发、建筑设计、虚拟现实及增强现实等多个行业不可或缺的基石。它们不仅为这些领域带来了前所未有的视觉盛宴和沉浸式体验,还极大地推动了行业的创新与发展。然而,随着模型设计日益复杂,其文件…

Mysql执行计划(下)

1、执行计划概念 执行计划是什么:使用EXPLAIN关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的。 作用:分析你的查询语句或是表结构的性能瓶颈 语法:Explain SQL语句 执行计划输出内容介绍&#xf…

华为毕昇打印机:智能生态引领打印机市场新变革

在全球打印机市场中,华为作为通信和消费电子领域的领军企业,其新品打印机的发布无疑为行业带来了新的活力。华为毕昇打印机的推出,预示着华为将以其独特的智能生态理念,重塑打印机行业的格局。 首先,华为毕昇打印机的…

【书生大模型实战营第三期 | 基础岛第3关-浦语提示词工程实践】

学习心得:浦语提示词工程实践 摘要 本文是对《浦语提示词工程实践》课程的学习心得,旨在总结课程的核心内容,包括环境配置、模型部署、提示工程的基本原则和LangGPT结构化提示词的使用方法。通过学习,我深刻理解了在人工智能领域…

Linux系统之ncdu命令的基本使用

Linux系统之ncdu命令的基本使用 一、ncdu命令命令介绍1.1 ncdu简介1.2 ncdu特点 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查系统镜像源3.4 更新软件列表 四、安装ncdu工具4.1 安装ncdu软件4.2 n…

Stable Diffusion 使用详解(7)---AI 摄影

目录 背景 底模的选择 例子 majicMix GirlFriendMix( Lora) 对比效果 LEOSAMs MoonFilm ADetailer 使用 说明 例子 问题 处理方式 效果 背景 魔法师使用魔法作的画有时候太过完美,以至于有点脱离真实摄影的感觉,我们…

SQL注入之oracle,mongodDB注入

简要学习各种数据库的注入特点 access与其他数据库的区别 1.access网站的数据在网站目录下,以mdb形式存储。每个网站之间的数据库相互独立。这在一定程度上避免了跨库注入! 2.access功能比较少,比如没有文件读写,没有记录信息表i…

优化版轻量级自适应商城卡密发卡平台源码 全开源、商业友好 重塑高效发卡体验

引领数字商品交易新风尚,我们自豪地推出这款精心优化后的轻量级自适应商城卡密发卡平台源码。这款源码不仅继承了原版的精髓,更通过深度二次开发,彻底修复了原有bug,并剔除了所有冗余文件与代码,确保系统运行更加流畅&…

【强化学习的数学原理】课程笔记--6(Actor-Critic方法)

目录 Actor-Critic 方法QAC 算法Advantage Actor-Critic 算法Baseline invariance Off-policy Actor-Critic重要性采样 Deterministic Policy Gradient (DPG) 系列笔记: 【强化学习的数学原理】课程笔记–1(基本概念,贝尔曼公式) …

java学习day016

API 1.Number 数字格式化 : # 任意数字,0-9任意单个数字 , 千分位 . 小数点 0 补位 //四位小数 DecimalFormat df new DecimalFormat("###,###.####"); System.out.println(df.format(1234567.312));//1,234,567.312 //四位小数,不够补0 df new Deci…

CPU内部结构窥探·「7」--ARMv8架构中的缓存机制

浅析ARMv8架构中的缓存机制 在现代计算机体系结构中,缓存(Cache)是提高系统性能的关键组件之一。对于ARMv8架构来说,缓存的设计和管理至关重要。本文将详细介绍ARMv8架构中的缓存机制,包括其结构、工作原理、缓存一致…

高精度加法c++

题目描述 计算ab的值,a,b皆为不超过240位的正整数。 输入 两个正整数,每行一个 输出 一个数,代表两个整数的和 样例输入 111111111111111111111111111111111111 222222222222222222222222222222222222 样例输出 3333333333333333333…

渗透--ubuntuan安装nginx、php部署 -- sql注入

ubuntuan安装nginx以及php部署 ​ 1.安装依赖包 方法一: rootzbn-virtual-machine:~# apt-get install gcc libpcre3 libpcre3-dev zliblg zliblg-dev openssl libssl-dev方法二: rootzbn:/# apt install gcc rootzbn:/# apt install libpcre3 libpcre3…

2017-架构师案例(九)

某软件企业受该省教育部门委托建设高校数字化教育教学资源共享平台,实现以众筹众创的方式组织省内普通高校联合开展教育教学资源内容建设,实现全省优质教学资源整合和共享。该资源共享平台的主要功能模块包括: (1)统一身份认证模块:提供统一的认证入口&…

微信小程序--详情实现日期选择期(年月日)

案例&#xff1a; html: <view class"huanhang"><view class"fontBold">发起时间&#xff1a;</view><view class"fontBold"> <picker class"getBusTime" mode"date" data-namesa"staDa…

aop时什么,用时统计怎么开发

spring aop,作用&#xff1a;可以对service层代码进行监听&#xff0c;统计每个方法用时 aop是什么&#xff1a;面向切面编程&#xff08;aop开发出来的代码&#xff09; 用在哪里&#xff1a;&#xff08;压测/提效&#xff09; 1.controller层方法用时不用统计,核心都在服务…

Vue+Vite+Element Plus基础操作

Vue.js 是一个流行的前端框架&#xff0c;‌而 Vite 是一个快速构建前端应用的新型开发服务器和构建工具&#xff0c;‌两者结合可以显著提升开发效率和体验。‌ Vue.js 是一个用于构建用户界面的渐进式框架&#xff0c;‌它易于上手且功能强大。‌Vue 的核心库只关注视图层&a…

前端构建工具|vite快速入门

认识vite vite组成部分 Vite是一种新型前端构建工具&#xff0c;能够显著提升前端开发体验。它主要由两部分组成&#xff1a; 一个开发服务器&#xff0c;它基于 原生 ES 模块 提供了 丰富的内建功能&#xff0c;如速度快到惊人的 模块热更新&#xff08;HMR&#xff09;。一…