生物信息学概述

以基因组DNA序列信息为源头，识别基因组序列中代表蛋白质和RNA基因的编码区，阐明非编码区的信息特征，破译隐藏在DNA序列中的遗传语言规律

生物信息学研究的内容与方法

研究主要内容
⚫ 生物学数据的收集、存储、管理与提供
⚫ 基因组序列信息的提取和分析
⚫ 功能基因组相关信息分析
⚫ 生物大分子结构模拟和药物设计
⚫ 生物信息分析的技术与方法研究
⚫ 生物信息学方法的应用研究

一般方法
⚫ 确立研究的生物学体系。例如：特定脑血管疾病的发生和发展；蛋白质三级结构与功能；
⚫ 确定研究的问题。是否需要实验的支持？之前哪些计算方面的相关工作？
⚫ 构建生物学/数学模型，例如：蛋白质功能预测，构建模型->序列结构区域特定的功能氨基酸。
⚫ 计算方法的选择：KNN，HMM，SVM，CNN，ANN等。
⚫ 计算结果分析，构建相应的计算工具/数据库/软件/在线网站，并与同类工具做比较。
⚫ 计算工具的应用。有哪些用处？用户的反馈？

基于数据挖掘、模拟分析、机器学习

统计方法：外在数量表现推断事物可能的规律性
1. 搜集数据（采样、实验设计）
2. 分析数据（建模、知识发现）
3. 推理（预测分类）
回归分析
1. 多元回归
2. 自回归
判别分析
1. 线性判别分析
2. 非线性判别分析
聚类分析
1. 系统聚类分析
2. 动态聚类分析
探索性分析
1. 主元分析
2. 相关性分析

聚类分析：对象的集合分组为由类似的对象组成的多个类的分析过程

线性判别分析LDA：监督学习的降维技术，即它的数据集的每个样本是有类别输出的

给定训练样例集

样例投影到一条直线上 -> 同类样例的投影点尽可能接
近
“投影后类内方差最小，类间方差最大”

机器学习：通过执行某种过程而改进它的性能
在这里插入图片描述
有监督学习：问题需要答案，模型让碰到原始数据的时候贴近标准答案
分类：针对离散变量
回归：针对连续变量
应用：查找某两个指标之间的关联性

无监督学习：答案不存在或不易定义。让机器自动去发掘原有数据中间的一些特别特征或结构
聚类：样本根据某个特征分成若干群体
降维：多特征数据找寻并去除冗余性
应用：脑电信号的分析，上百组转换成十几组时序信号

深度学习 无监督学习的一种
模仿人脑神经网络的结构和某些工作机制，利用大量的神经元连成网络来实现大规模并行计算
在这里插入图片描述
序列分析中的主要算法
模式识别、学习算法 – 结构、功能的基于知识预测
——判别分析方法
——人工神经网络算法
——随机过程方法(HMM)
——语言学(形式语法)
——演化、遗传算法