Bioinformatics
- Prologue
- Sequence database
- Dual Sequence Matching
- BLAST
- Advance database search
- Multiple Sequence Aligment (MSA)
- Phylogeny and evolution at the molecular level
- DNA: eukaryotic chromosomes
- Next generation sequencing
- Bioinformatic tools for RNA analysis
- Gene expression: microarray and RNA-seq data analysis
- Protein Analysis and Proteomics
- Structure of proteins
- Functional genomics
On this page
- Prologue
- Sequence database
- Dual Sequence Matching
- BLAST
- Advance database search
- Multiple Sequence Aligment (MSA)
- Phylogeny and evolution at the molecular level
- DNA: eukaryotic chromosomes
- Next generation sequencing
- Bioinformatic tools for RNA analysis
- Gene expression: microarray and RNA-seq data analysis
- Protein Analysis and Proteomics
- Structure of proteins
- Functional genomics
Prologue
…
Sequence database
GenBank
Genome DNA Database
- STSs 序列标签位点
- GSSs 基因组勘测序列
- HTGS 高通量基因组序列
RNA level
- cDNA Database
- ESTs 表达序列标签
- UniGene
RefSeq
为每一个基因的正常(无突变)传录本和正常的蛋白质产物提供最有代表性的序列。
CLI Tool: EDirect
esearch -db pubmed -query "pevsner j AND gnaq" | efetch -format docsum
BioMart
…
Dual Sequence Matching
Concept
- 同源性
- 空位
- 起始空位
- 延伸空位
- …
Margaret Dayhoff
Margaret Dayhoff (1966, 1978)
- PAM: 可接受点突变
- f: 氨基酸出现的频率
- 氨基酸的相对突变率
- 进化距离为1PAM的突变概率矩阵
- PAM250和其他PAM矩阵
- 相关优势值矩阵
- 对数优势值矩阵
Algorithms
Global
- Needleman-Wunsch (1970)
Local
- Smith-Waterman (1981)
- BLAST (1990)
- FASTA (1988)
Signifiant
E-value…
BLAST
Program
- BLASTP: protein -> protein
- BLASTN: DNA -> DNA
- BLASTX: DNA -> protein
- TBLASTN: protein -> DNA
- TBLASTX: DNA -> DNA
Parameters
- Query, e.g., FASTA
- Limit by Entrez Query, …
- Max target sequence, …
- Short queries, 短查询序列
- Expected thereshold, E-value
- Word size, …
- Max mathes in a query range, …
- Matrix, …
- Gap costs, 空位成本
- Compositional adjustment, adjust E-value.
- Masking, 避免匹配到低复杂度或重复的片段
BLAST software
http://blast.ncbi.nlm.nih.gov/
http://blast.ncbi.nlm.nih.gov/doc/blast-help/downloadblastdata.html#downloadblastdata
Advance database search
Spetial BLAST
…
Search for distantly related ‘proteins’
位置特异性迭代BLAST (PSI-BLAST)
当一个基因组被完整测序,需要寻找预测蛋白的同源物,可以用到PSI-BLAST(NCBI提供)。
- 查询序列搜索,例如BLASTP。
- 利用搜索结果创建多序列比对,基于此构建专门的、个体化的搜索矩阵。位置特异性打分矩阵(PSSM)
- PSSM用于再次搜索。
- 显著性评估。
- 迭代搜索,一般迭代5次。
污染问题:无关序列的虚假扩增。措施:
- 过滤算法。
- 调低入选阈值,如E-value
- 人工检查可疑序列。
反向位置特异BLAST(RPS-BLAST)
将查询蛋白在PSSM数据库中搜索。
结构域增强的查找时间加速的BLAST(DELTA-BLAST)
DELTA-BLAST用RPS-BLAST搜索预先计算好的PSSM库,用新得到的PSSM来搜索蛋白质数据库。
模式识别BLASR(PHI-BLAST)
…
Profile hidden Markov models (HMMs)
生成用于识别远源序列相似度的位置特异性打分系统,类似于PSSMs。
HMMER sortware: http://hmmer.janelia.org/
BLAST-like fast search for genomic ‘DNA’
基因组DNA搜索的特殊需求:
- 基因组DNA包含外显子和内含子。能找到外显子。
- 考虑测序的引入错误。
- 基因组DNA比较。
- DNA序列的微小差异。
PatternHunter
提高灵敏度和速度。
BLASTZ
物种基因组比对。
Enredo, Pecan
MegaBLAST, 不连续MegaBLAST
NCBI的优化用于快速比对长DNA查询序列的工具。
BLAT
LAGAN
基因组DNA成对比对的方法。
SSAHA2
二代测序读段应用到参考基因组上。
Comparison of NGS read segments with the reference genome
基于哈希表的比对
MAQ, ELANDv2 (Illumina), SSAHA2
Burrows-Wheeler (BWT)
对高考基因组进行变换和压缩,提高检索速度。
Multiple Sequence Aligment (MSA)
使用多重序列比对:
- 蛋白质或基因与一大组蛋白质相关。
- 蛋白质家族有远源成员。
- 查看数据库搜索结果时,显示保守的残基与模体。
- 预测有害突变。
- 种群数据研究。
- 基因组测序时,定义所有基因产物所属的蛋白质家族。
- 生成系统发育树。
- …
The 5 Main Algorithm
精确法
相当耗时。
渐进比对法
计算待比对序列的两两比对得分,开始于醉相思的序列,渐进添加更多序列。
ClustalM: http://www.ebi.ac.uk/Tools/
- 计算相似度——距离矩阵。
- 计算得到引导树。
- 基于引导树多序列比对。
迭代法
渐进比对法的改进(改进距离矩阵,引导树)
基于一致性方法
整合了来自多重序列比对的证据指导双序列比对。例如,x比对z,z比对y,那么x比对上y。
ProbCons: http://probcons.stanford.edu/
T-COFFEE: http://www.tcoffee.org/
基于结构的方法
T-COFFEE Expresso PRALINE
Evaluation of software or algorithm by reference dataset
- BAliBASE
- HOMSTRAD
- OXBench
- PREFAB
- SABmark
- IRMBASE (virtual)
Database for multiple sequences comparisons
Pfam
HMMs 模型的蛋白质家族数据库。
Pfam: http://pfam.sanger.ac.uk/, http://pfam.janelia.org/, http://pfam
SMART
类似于Pfam,…
整合型数据库
iProClass: …
Multiple sequence alignment of genomic regions
- UCSC: http://genome.ucsc.edu/
- Galaxy
- Ensembl
Phylogeny and evolution at the molecular level
物种变化主要机制:
- 生长条件影响发育。
- 有性繁殖的机制确保传代。
- 受选择的突变和遗传漂变导致基因和更大范围的染色体改变。
Principles
分子钟假说
对于每一个给定的基因而言,分子进化速率时相对恒定的。限制:
- 不同物种可能有不同的分子进化速率。
- 分子钟对不同基因,或者不同部分有所不同。
- 基因只有在进化过程中保持生物学功能才适用。
正选择和负选择
在分子水平上,进化观点认为正选择和负选择也作用在DNA序列上。
中性理论
大部分观测到的DNA替代时中性的或近中性的,因为大部分非同义突变都是有害的。
Characteristics
系统发育树包括两大主要信息:拓扑结构和分支长度。
- OTU (operational taxonomic unit),操作分类单位。
- 二叉树,叉状分枝树,一个内节点只有两个直接后代谱系。
- 有根树和无根树。
一些系统发育研究项目为上千个分类群构建了进化树:
- Deep Green plant project: http://ucjeps.berkeley.edu/GPphylo/
- 核糖体数据库:http://rdp.cme.msu.edu/
穷举检索法检索所有可能的树并选择最合适的。
Types
- 物种树与基因/蛋白质树。
- 基于DNA、RNA、或蛋白质的数。
- DNA包含同义突变和非同义突变的研究
- …
- 蛋白质有20种状态(氨基酸),包含更强的系统发育信号。
Analysis
序列获取
FASTA格式
- NCBI HomoloGene
- BLAST家族蛋白质
多重序列比对
- 确保同源
- 降低罚分,容纳远缘
- 限制为可用的蛋白质或核苷酸序列部分
DNA和氨基酸替代模型
- Jukes-Cantor 单参数模型
- Kimura 双参数模型
- gamma 模型
构树的方法
以下为方法和相关软件
- 距离法:
- 最大简约法:PAUP
- 最大似然法:TREE-PUZZLE http://www.treepuzzle.de/
- 贝叶斯法:MrBayes http://mrbayes.sourceforge.net/index.php
- MEGA:http://www.megasoftware.net/
- PHYLIP:http://evolution.genetics.washington.edu/phylip/general.html
DNA: eukaryotic chromosomes
General characteristics of the genome and chromosomes
C值矛盾:为什么真核生物的基因组大小差异巨大。与生物的复杂程度没有明显的相关性。
真核生物基因组易染色体形式组织
主要特征:端粒和着丝粒。
基因组浏览器
- NCBI Map Viewer
- Ensembl
- UCSC
BioMart and BiomaRt
……
ENCODE
DNA元件百科全书。
ENCODE review: The C-value paradox and the functional definition
功能定义方式:
- 进化选择效应
- 因果作用
- 存在事件
DNA Repeat Fragments
真核生物基因组包含非编码和重复DNA序列
散在重复序列
- 长末端重复转座子
- 长散在元件
- 短散在元件
- DNA转座子
简单序列重复
串联重复序列区块
Gene content of eukaryotic chromosomes
基因的定义
位于特定染色体位置并编码一种蛋白质的一个遗传信息单位。
Regulatory regions of the eukaryotic genome
Comparison of eukaryotic DNA
Changes in chromosomal DNA
染色体的动态性:全基因复制
个体基因组的染色体变异
结构变异
- 倒置
- 复制
- 缺失
- 插入
形成基因家族的模型
- 趋异进化
- 协同进化
- 诞生和死亡进化
个体基因组的染色体变异:SNPs
SNPs(单核苷酸多态性)
Next generation sequencing
DNA sequence technology
Sanger 测序
二代测序技术
- 循环可逆终止:Illumina http://www.illumina.com
- 焦磷酸测序
- 连接法测序:ABI SOLiD 色彩空间
- 半导体测序:利用pH值进行基因组测序
- 太平洋生物科学:长读段单分子测序
- Complete Genomics:自拼接DNA纳米阵列
Analysis of NGS
二代测序数据分析概述
基本工作流:
- 实验室工作
- 二代测序
- 质量评价
- 比对到参考基因组
- 变异识别
- 注释
- 可视化
- 优化
- 存储
GATK 流程:……
实验设计和样品准备
从生成的测序数据到FASTQ
- Sanger FASTQ
- Illumina FASTQ
- Illumina 1.3+ FASTQ
@表示开头。G、A、T、C。N代表不确定。+ 代表第三行。
发现和观察FASTQ文件
工具SRA Toolkit:http://www.ncbi.nlm.nih.gov/sra/
(fastq-dump 命令)
- SRA 提交入口
- SRP 学习入口(项目元数据)
- SRX 实验入口(元数据)
- SRS 样品入口
- SRZ 历史SRA分析入口
- SRR SRA运行入口
FASTQ数据的质量评估
工具:
- FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
- ShortRead
FASTG 比FASTQ 包含信息更多的一种格式
基因拼接
当检测一个之前没有参考序列的物种时,需要de novo拼接
拼接工具:
……
基因拼接性能的比赛和关键评估
……
序列比对(比对到参考基因座)
重复DNA的比对
SAM/BAM的格式与SAMtools
SAM/BAM 是一种格式,存储来自二代测序的序列在比对后的结果。
SAMtools 是一个软件库,用来分析SAM/BAM输入文件中的比对结果
计算读段深度
如果对文库进行频繁的测序,测序深度和统计效力都会增加……
查找和浏览BAM/SAM文件
压缩后的比对文件:CRAM文件
变异识别:单核苷酸变异和插入、缺失
突变查找:结构突变
- 删除
- 新序列插入
- 移动元件插入
- 倒位
- 散在重复
- 串联重复
总结变异——VCF格式和VCFtools
VCFtools http://vcftools.sourceforge.net/
查找和浏览VCF文件
ENA网站
二代测序数据的可视化和列表化
瑞士军刀 BEDtools:https://github.com/arq5x/bedtools2/
解释突变的生物学意义
各类工具:……
将数据存储在存储库中
Specific application
- RNA 测序
- 染色质免疫共沉淀测序,用于测量蛋白质-DNA相互作用
- 微小RNA(miRNA),长度短小的非编码RNA,是各种通路中的必须调节因子。
- 甲基化测序,表征在全基因组的胞嘧啶残基被甲基化……
- DNA 酶测序,结合甲醛辅助的调节元件分离,允许核小体缺失的基因组区域测序……
Bioinformatic tools for RNA analysis
Non-coding RNA
- tRNA,转运RNA,对应于遗传密码中特定的20个氨基酸。
- rRNA,核糖体RNA构成了核糖体的结构和功能,由rDNA转录。
- snRNA,小核RNA,位于细胞核内,由具有功能的RNA家族组成。
- snoRNA,小核仁RNA,在真核生物中,在核仁中促进核糖体合成。
- microRNA,小RNA,通过抑制从mRNA到蛋白的翻译或促进mRNA降解二下调蛋白的表达。miRbase:http://www.mirbase.org/
- siRNA,短干扰RNA。
- lncRNA,长非编码RNA,
Rfam 数据库
http://www.sanger.ac.uk/resources/database/
http://http://rfam.janelia.org/
mRNA Introduction
mRNA:基因表达研究的主体
调控:
- 转录
- RNA加工
- RNA输出
- RNA监控
低通量和高通量技术研究mRNA
低通量:Northern印迹,定量RT-PCR
cDNA文库中的基因表达分析
cDNA文库的测序可以检测RNA转录本(成熟的mRNA)的位置和表达量。
全长cDNA计划
- 鼠功能注释(FANTOM)项目
- H-Invitational数据库
- 哺乳动物基因收集(MGC)
- KIAA
BodyMap2 与 GTEx:测定全身各处的基因表达
Microarray and RNA-seq
在微阵列中,RNA或者mRNA常常被转录为cDNA(或者cRNA),做荧光或放射性标记后在阵列上进行杂交……
Interpret of RNA analysis
DNA、mRNA与蛋白质水平之间的关系
转录的普遍性
eQTLs:通过结合RNA-seq和DNA-seq理解基因表达的遗传变异基础
eQTLs:表达数量性状位点……
Gene expression: microarray and RNA-seq data analysis
GEO2R
使用GEO2R执行系列R脚本
使用GEO2R来件定受调控的转录本在染色体上的位置
在15个考前的转录本中发现10个都来自21号染色体的情况在统计学意义上是否显著:
fisher.test()
使用GEO2R对数据归一化
- MAS5
- RMA (R package
affy
) - 全局和局部归一化 (R package
SNOMAD
) - …
…
commercial tools: Partek
…
R and BioConductor
利用RMA工具读取CEL文件并完成归一化
data <- affy::ReadAffy()
eset <- affy::rma(data)
limma
Microarray data analysis: descriptive statistical methods
芯片数据的层级聚类分析
K-means聚类
比较多维度变换于主成分分析
聚类策略:自组织映射
基因及样本的分类
RNA-seq
TopHat 和 CuffLinks 的样本分析规范
……
Protein Analysis and Proteomics
NCBI非冗余蛋白质数据库UniProt:
- UniProtKB,蛋白质知识库
- UniRef 隐藏冗余序列的序列聚类集合
- UniMES 宏基因组学和环境序列
- UniParc 文档
ensembl <- biomaRt::useMart("ensembl")
ensembl <- biomaRt::useDataset("hsapiens_gene_ensembl", mart = ensembl)
# data <- biomaRt::getBM(attributes = , filters = , values = , mart = ensembl)
# biomaRt::listFilters(ensembl)
# biomaRt::listAttributes(ensembl)
Identification of proteins
直接蛋白质测序
凝胶电泳
质谱
The 4 aspect of proteins
- 蛋白质的模块性质(结构域和模体)
- 结构域是蛋白质中能折叠成特定三维结构的一段区域
- 模体是蛋白质中短的、保守的区域
- 蛋白质的物理性质
- 激酶介导磷酸酯部分从三磷酸腺苷到丝氨酸、苏氨酸、或酪氨酸残基上的受体位点的共价键连接时,会发生可逆的蛋白磷酸化。
- 跨膜区域的蛋白质组学研究……
基因本体协会:GO……分子功能,生物过程,细胞组分
- 蛋白质的定位
- 蛋白质功能
Structure of proteins
Principle of structure
- 一级结构,初级氨基酸序列(查看工具,Deepview,SwissModel)
- 二级结构,疏水性氨基酸和亲水性氨基酸的排列方向
- 三级结构,蛋白质的折叠
Protein Data Bank (PDB)
- SCOP 数据库,蛋白质结构分类数据库
- CATH 数据库,蛋白质结构域的层级分类系统
Intrinsically disordered proteins
没有稳定三维结构的蛋白质
Functional genomics
Introduction
功能基因组学是对DNA(包括基因和非基因元件)、核酸以及由DNA编码的蛋白质产物的功能进行的全基因组范围的研究。
研究范围:
- 自然变异
- 功能失常