Bioinformatics

Prologue

…

Sequence database

GenBank
EMBL-Bank
DDBJ

GenBank

Genome DNA Database
- STSs 序列标签位点
- GSSs 基因组勘测序列
- HTGS 高通量基因组序列
RNA level
- cDNA Database
- ESTs 表达序列标签
- UniGene

RefSeq

为每一个基因的正常（无突变）传录本和正常的蛋白质产物提供最有代表性的序列。

CLI Tool: EDirect

http://www.ncbi.nlm.nih.gov/books/NBK179288/

esearch -db pubmed -query "pevsner j AND gnaq" | efetch -format docsum

BioMart

…

Dual Sequence Matching

Concept

同源性
空位
- 起始空位
- 延伸空位
…

Margaret Dayhoff

Margaret Dayhoff (1966, 1978)

PAM: 可接受点突变
f: 氨基酸出现的频率
氨基酸的相对突变率
进化距离为1PAM的突变概率矩阵
PAM250和其他PAM矩阵
相关优势值矩阵
对数优势值矩阵

Algorithms

Global

Needleman-Wunsch (1970)

Local

Smith-Waterman (1981)
BLAST (1990)
FASTA (1988)

Signifiant

E-value…

BLAST

Program

BLASTP: protein -> protein
BLASTN: DNA -> DNA
BLASTX: DNA -> protein
TBLASTN: protein -> DNA
TBLASTX: DNA -> DNA

Parameters

Query, e.g., FASTA
Limit by Entrez Query, …
Max target sequence, …
Short queries, 短查询序列
Expected thereshold, E-value
Word size, …
Max mathes in a query range, …
Matrix, …
Gap costs, 空位成本
Compositional adjustment, adjust E-value.
Masking, 避免匹配到低复杂度或重复的片段

BLAST software

http://blast.ncbi.nlm.nih.gov/
http://blast.ncbi.nlm.nih.gov/doc/blast-help/downloadblastdata.html#downloadblastdata

Advance database search

Spetial BLAST

…

位置特异性迭代BLAST (PSI-BLAST)

当一个基因组被完整测序，需要寻找预测蛋白的同源物，可以用到PSI-BLAST（NCBI提供）。

查询序列搜索，例如BLASTP。
利用搜索结果创建多序列比对，基于此构建专门的、个体化的搜索矩阵。位置特异性打分矩阵（PSSM）
PSSM用于再次搜索。
显著性评估。
迭代搜索，一般迭代5次。

污染问题：无关序列的虚假扩增。措施：

过滤算法。
调低入选阈值，如E-value
人工检查可疑序列。

反向位置特异BLAST（RPS-BLAST）

将查询蛋白在PSSM数据库中搜索。

结构域增强的查找时间加速的BLAST（DELTA-BLAST）

DELTA-BLAST用RPS-BLAST搜索预先计算好的PSSM库，用新得到的PSSM来搜索蛋白质数据库。

模式识别BLASR（PHI-BLAST)

…

Profile hidden Markov models (HMMs)

生成用于识别远源序列相似度的位置特异性打分系统，类似于PSSMs。

HMMER sortware: http://hmmer.janelia.org/

BLAST-like fast search for genomic ‘DNA’

基因组DNA搜索的特殊需求：

基因组DNA包含外显子和内含子。能找到外显子。
考虑测序的引入错误。
基因组DNA比较。
DNA序列的微小差异。

PatternHunter

提高灵敏度和速度。

BLASTZ

物种基因组比对。

Enredo, Pecan

MegaBLAST, 不连续MegaBLAST

NCBI的优化用于快速比对长DNA查询序列的工具。

BLAT

LAGAN

基因组DNA成对比对的方法。

SSAHA2

二代测序读段应用到参考基因组上。

Comparison of NGS read segments with the reference genome

基于哈希表的比对

MAQ, ELANDv2 (Illumina), SSAHA2

Burrows-Wheeler (BWT)

对高考基因组进行变换和压缩，提高检索速度。

Multiple Sequence Aligment (MSA)

使用多重序列比对：

蛋白质或基因与一大组蛋白质相关。
蛋白质家族有远源成员。
查看数据库搜索结果时，显示保守的残基与模体。
预测有害突变。
种群数据研究。
基因组测序时，定义所有基因产物所属的蛋白质家族。
生成系统发育树。
…

The 5 Main Algorithm

精确法

相当耗时。

渐进比对法

计算待比对序列的两两比对得分，开始于醉相思的序列，渐进添加更多序列。

ClustalM: http://www.ebi.ac.uk/Tools/

计算相似度——距离矩阵。
计算得到引导树。
基于引导树多序列比对。

迭代法

渐进比对法的改进（改进距离矩阵，引导树）

MAFFT: http://mafft.cbrc.jp/alignment/software
PRALINE: http://www.ibi.vu.nl/programs/pralinewww/

基于一致性方法

整合了来自多重序列比对的证据指导双序列比对。例如，x比对z，z比对y，那么x比对上y。

ProbCons: http://probcons.stanford.edu/
T-COFFEE: http://www.tcoffee.org/

基于结构的方法

T-COFFEE Expresso PRALINE

Evaluation of software or algorithm by reference dataset

BAliBASE
HOMSTRAD
OXBench
PREFAB
SABmark
IRMBASE (virtual)

Database for multiple sequences comparisons

Pfam

HMMs 模型的蛋白质家族数据库。

Pfam: http://pfam.sanger.ac.uk/, http://pfam.janelia.org/, http://pfam

SMART

类似于Pfam，…

SMART: http://smart.embl-hei-delberg.de/

整合型数据库

InterPro: http://www.ebi.ac.uk/interpro/release_notes.html

iProClass: …

Multiple sequence alignment of genomic regions

UCSC: http://genome.ucsc.edu/
Galaxy
Ensembl

Phylogeny and evolution at the molecular level

物种变化主要机制：

生长条件影响发育。
有性繁殖的机制确保传代。
受选择的突变和遗传漂变导致基因和更大范围的染色体改变。

Principles

分子钟假说

对于每一个给定的基因而言，分子进化速率时相对恒定的。限制：

不同物种可能有不同的分子进化速率。
分子钟对不同基因，或者不同部分有所不同。
基因只有在进化过程中保持生物学功能才适用。

正选择和负选择

在分子水平上，进化观点认为正选择和负选择也作用在DNA序列上。

中性理论

大部分观测到的DNA替代时中性的或近中性的，因为大部分非同义突变都是有害的。

Characteristics

MEGA: http://www.megasoftware.net/

系统发育树包括两大主要信息：拓扑结构和分支长度。

OTU (operational taxonomic unit)，操作分类单位。
二叉树，叉状分枝树，一个内节点只有两个直接后代谱系。
有根树和无根树。

一些系统发育研究项目为上千个分类群构建了进化树：
Deep Green plant project: http://ucjeps.berkeley.edu/GPphylo/
核糖体数据库：http://rdp.cme.msu.edu/

穷举检索法检索所有可能的树并选择最合适的。

Types

物种树与基因/蛋白质树。
基于DNA、RNA、或蛋白质的数。
- DNA包含同义突变和非同义突变的研究
- …
- 蛋白质有20种状态（氨基酸），包含更强的系统发育信号。

Analysis

序列获取

FASTA格式

NCBI HomoloGene
BLAST家族蛋白质

多重序列比对

确保同源
降低罚分，容纳远缘
限制为可用的蛋白质或核苷酸序列部分

DNA和氨基酸替代模型

Jukes-Cantor 单参数模型
Kimura 双参数模型
gamma 模型

构树的方法

以下为方法和相关软件

距离法：
最大简约法：PAUP
最大似然法：TREE-PUZZLE http://www.treepuzzle.de/
贝叶斯法：MrBayes http://mrbayes.sourceforge.net/index.php
MEGA：http://www.megasoftware.net/
PHYLIP：http://evolution.genetics.washington.edu/phylip/general.html

DNA: eukaryotic chromosomes

General characteristics of the genome and chromosomes

C值矛盾：为什么真核生物的基因组大小差异巨大。与生物的复杂程度没有明显的相关性。

真核生物基因组易染色体形式组织

主要特征：端粒和着丝粒。

基因组浏览器

NCBI Map Viewer
Ensembl
UCSC

BioMart and BiomaRt

……

ENCODE

DNA元件百科全书。

ENCODE review: The C-value paradox and the functional definition

功能定义方式：

进化选择效应
因果作用
存在事件

DNA Repeat Fragments

真核生物基因组包含非编码和重复DNA序列

散在重复序列

长末端重复转座子
长散在元件
短散在元件
DNA转座子

简单序列重复

串联重复序列区块

Gene content of eukaryotic chromosomes

基因的定义

位于特定染色体位置并编码一种蛋白质的一个遗传信息单位。

Regulatory regions of the eukaryotic genome

Comparison of eukaryotic DNA

Changes in chromosomal DNA

染色体的动态性：全基因复制

个体基因组的染色体变异

结构变异

倒置
复制
缺失
插入

形成基因家族的模型

趋异进化
协同进化
诞生和死亡进化

个体基因组的染色体变异：SNPs

SNPs（单核苷酸多态性）

Next generation sequencing

DNA sequence technology

Sanger 测序

仪器：http://www.3700.com

二代测序技术

循环可逆终止：Illumina http://www.illumina.com
焦磷酸测序
连接法测序：ABI SOLiD 色彩空间
半导体测序：利用pH值进行基因组测序
太平洋生物科学：长读段单分子测序
Complete Genomics：自拼接DNA纳米阵列

Analysis of NGS

二代测序数据分析概述

基本工作流：

实验室工作
二代测序
质量评价
比对到参考基因组
变异识别
注释
可视化
优化
存储

GATK 流程：……

实验设计和样品准备

从生成的测序数据到FASTQ

FASTQ http://maq.sourceforge.net/fastq.shtml

Sanger FASTQ
Illumina FASTQ
Illumina 1.3+ FASTQ

@表示开头。G、A、T、C。N代表不确定。+ 代表第三行。

发现和观察FASTQ文件

工具SRA Toolkit：http://www.ncbi.nlm.nih.gov/sra/

（fastq-dump 命令）

SRA 提交入口
SRP 学习入口（项目元数据）
SRX 实验入口（元数据）
SRS 样品入口
SRZ 历史SRA分析入口
SRR SRA运行入口

FASTQ数据的质量评估

工具：

FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
ShortRead

FASTG 比FASTQ 包含信息更多的一种格式

基因拼接

当检测一个之前没有参考序列的物种时，需要de novo拼接

拼接工具：

……

基因拼接性能的比赛和关键评估

……

序列比对（比对到参考基因座）

重复DNA的比对

SAM/BAM的格式与SAMtools

SAM/BAM 是一种格式，存储来自二代测序的序列在比对后的结果。

SAMtools 是一个软件库，用来分析SAM/BAM输入文件中的比对结果

计算读段深度

如果对文库进行频繁的测序，测序深度和统计效力都会增加……

查找和浏览BAM/SAM文件

压缩后的比对文件：CRAM文件

变异识别：单核苷酸变异和插入、缺失

突变查找：结构突变

删除
新序列插入
移动元件插入
倒位
散在重复
串联重复

总结变异——VCF格式和VCFtools

VCFtools http://vcftools.sourceforge.net/

查找和浏览VCF文件

ENA网站

二代测序数据的可视化和列表化

瑞士军刀 BEDtools：https://github.com/arq5x/bedtools2/

解释突变的生物学意义

各类工具：……

将数据存储在存储库中

Specific application

RNA 测序
染色质免疫共沉淀测序，用于测量蛋白质-DNA相互作用
微小RNA（miRNA），长度短小的非编码RNA，是各种通路中的必须调节因子。
甲基化测序，表征在全基因组的胞嘧啶残基被甲基化……
DNA 酶测序，结合甲醛辅助的调节元件分离，允许核小体缺失的基因组区域测序……

Bioinformatic tools for RNA analysis

Non-coding RNA

tRNA，转运RNA，对应于遗传密码中特定的20个氨基酸。
rRNA，核糖体RNA构成了核糖体的结构和功能，由rDNA转录。
snRNA，小核RNA，位于细胞核内，由具有功能的RNA家族组成。
snoRNA，小核仁RNA，在真核生物中，在核仁中促进核糖体合成。
microRNA，小RNA，通过抑制从mRNA到蛋白的翻译或促进mRNA降解二下调蛋白的表达。miRbase：http://www.mirbase.org/
siRNA，短干扰RNA。
lncRNA，长非编码RNA，

Rfam 数据库

http://www.sanger.ac.uk/resources/database/

http://http://rfam.janelia.org/

mRNA Introduction

mRNA：基因表达研究的主体

调控：

转录
RNA加工
RNA输出
RNA监控

低通量和高通量技术研究mRNA

低通量：Northern印迹，定量RT-PCR

cDNA文库中的基因表达分析

cDNA文库的测序可以检测RNA转录本（成熟的mRNA）的位置和表达量。

全长cDNA计划

鼠功能注释（FANTOM）项目
H-Invitational数据库
哺乳动物基因收集（MGC）
KIAA

BodyMap2 与 GTEx：测定全身各处的基因表达

Microarray and RNA-seq

在微阵列中，RNA或者mRNA常常被转录为cDNA（或者cRNA），做荧光或放射性标记后在阵列上进行杂交……

Interpret of RNA analysis

DNA、mRNA与蛋白质水平之间的关系

转录的普遍性

eQTLs：通过结合RNA-seq和DNA-seq理解基因表达的遗传变异基础

eQTLs：表达数量性状位点……

Gene expression: microarray and RNA-seq data analysis

GEO2R

使用GEO2R执行系列R脚本

使用GEO2R来件定受调控的转录本在染色体上的位置

在15个考前的转录本中发现10个都来自21号染色体的情况在统计学意义上是否显著： fisher.test()

使用GEO2R对数据归一化

MAS5
RMA (R package affy)
全局和局部归一化 (R package SNOMAD)
…

…

commercial tools: Partek

…

R and BioConductor

利用RMA工具读取CEL文件并完成归一化

data <- affy::ReadAffy()
eset <- affy::rma(data)

limma

Microarray data analysis: descriptive statistical methods

芯片数据的层级聚类分析

K-means聚类

比较多维度变换于主成分分析

聚类策略：自组织映射

基因及样本的分类

RNA-seq

TopHat 和 CuffLinks 的样本分析规范

……

Protein Analysis and Proteomics

NCBI非冗余蛋白质数据库UniProt：

UniProtKB，蛋白质知识库
UniRef 隐藏冗余序列的序列聚类集合
UniMES 宏基因组学和环境序列
UniParc 文档

ensembl <- biomaRt::useMart("ensembl")
ensembl <- biomaRt::useDataset("hsapiens_gene_ensembl", mart = ensembl)
# data <- biomaRt::getBM(attributes = , filters = , values = , mart = ensembl)
# biomaRt::listFilters(ensembl)
# biomaRt::listAttributes(ensembl)

Identification of proteins

直接蛋白质测序

凝胶电泳

质谱

The 4 aspect of proteins

蛋白质的模块性质（结构域和模体）
- 结构域是蛋白质中能折叠成特定三维结构的一段区域
- 模体是蛋白质中短的、保守的区域
蛋白质的物理性质
- 激酶介导磷酸酯部分从三磷酸腺苷到丝氨酸、苏氨酸、或酪氨酸残基上的受体位点的共价键连接时，会发生可逆的蛋白磷酸化。
- 跨膜区域的蛋白质组学研究……

基因本体协会：GO……分子功能，生物过程，细胞组分

蛋白质的定位
蛋白质功能

Structure of proteins

Principle of structure

一级结构，初级氨基酸序列（查看工具，Deepview，SwissModel）
二级结构，疏水性氨基酸和亲水性氨基酸的排列方向
三级结构，蛋白质的折叠

Protein Data Bank (PDB)

http://www.ebi.ac.uk/pdbe/

SCOP 数据库，蛋白质结构分类数据库
CATH 数据库，蛋白质结构域的层级分类系统

Intrinsically disordered proteins

没有稳定三维结构的蛋白质

Functional genomics

Introduction

功能基因组学是对DNA（包括基因和非基因元件）、核酸以及由DNA编码的蛋白质产物的功能进行的全基因组范围的研究。

研究范围：

自然变异
功能失常

Bioinformatics

Prologue #

Sequence database #

GenBank #

RefSeq #

CLI Tool: EDirect #

BioMart #

Dual Sequence Matching #

Concept #

Margaret Dayhoff #

Algorithms #

Global #

Local #

Signifiant #

BLAST #

Program #

Parameters #

BLAST software #

Advance database search #

Spetial BLAST #

Search for distantly related ‘proteins’ #

位置特异性迭代BLAST (PSI-BLAST) #

反向位置特异BLAST（RPS-BLAST） #

结构域增强的查找时间加速的BLAST（DELTA-BLAST） #

模式识别BLASR（PHI-BLAST) #

Profile hidden Markov models (HMMs) #

BLAST-like fast search for genomic ‘DNA’ #

PatternHunter #

BLASTZ #

Enredo, Pecan #

MegaBLAST, 不连续MegaBLAST #

BLAT #

LAGAN #

SSAHA2 #

Comparison of NGS read segments with the reference genome #

基于哈希表的比对 #

Burrows-Wheeler (BWT) #

Multiple Sequence Aligment (MSA) #

The 5 Main Algorithm #

精确法 #

渐进比对法 #

迭代法 #

基于一致性方法 #

基于结构的方法 #

Evaluation of software or algorithm by reference dataset #

Database for multiple sequences comparisons #

Pfam #

SMART #

整合型数据库 #

Multiple sequence alignment of genomic regions #

Phylogeny and evolution at the molecular level #

Principles #

分子钟假说 #

正选择和负选择 #

中性理论 #

Characteristics #

Types #

Analysis #

序列获取 #

多重序列比对 #

DNA和氨基酸替代模型 #

构树的方法 #

DNA: eukaryotic chromosomes #

General characteristics of the genome and chromosomes #

C值矛盾：为什么真核生物的基因组大小差异巨大。与生物的复杂程度没有明显的相关性。 #

真核生物基因组易染色体形式组织 #

基因组浏览器 #

BioMart and BiomaRt #

ENCODE #

ENCODE review: The C-value paradox and the functional definition #

DNA Repeat Fragments #

真核生物基因组包含非编码和重复DNA序列 #

散在重复序列 #

简单序列重复 #

串联重复序列区块 #

Gene content of eukaryotic chromosomes #

基因的定义 #

Regulatory regions of the eukaryotic genome #

Comparison of eukaryotic DNA #

Changes in chromosomal DNA #