Bioinformatics

Prologue

Sequence database

INSDC
Entrez system

GenBank

  • Genome DNA Database

    • STSs 序列标签位点
    • GSSs 基因组勘测序列
    • HTGS 高通量基因组序列
  • RNA level

    • cDNA Database
    • ESTs 表达序列标签
    • UniGene

RefSeq

为每一个基因的正常(无突变)传录本和正常的蛋白质产物提供最有代表性的序列。

CLI Tool: EDirect

http://www.ncbi.nlm.nih.gov/books/NBK179288/

esearch -db pubmed -query "pevsner j AND gnaq" | efetch -format docsum

BioMart

Dual Sequence Matching

Concept

  • 同源性
  • 空位
    • 起始空位
    • 延伸空位

Margaret Dayhoff

Margaret Dayhoff (1966, 1978)

  1. PAM: 可接受点突变
  2. f: 氨基酸出现的频率
  3. 氨基酸的相对突变率
  4. 进化距离为1PAM的突变概率矩阵
  5. PAM250和其他PAM矩阵
  6. 相关优势值矩阵
  7. 对数优势值矩阵

Algorithms

Global

  • Needleman-Wunsch (1970)

Local

  • Smith-Waterman (1981)
  • BLAST (1990)
  • FASTA (1988)

Signifiant

E-value…

BLAST

Program

  • BLASTP: protein -> protein
  • BLASTN: DNA -> DNA
  • BLASTX: DNA -> protein
  • TBLASTN: protein -> DNA
  • TBLASTX: DNA -> DNA

Parameters

  • Query, e.g., FASTA
  • Limit by Entrez Query, …
  • Max target sequence, …
  • Short queries, 短查询序列
  • Expected thereshold, E-value
  • Word size, …
  • Max mathes in a query range, …
  • Matrix, …
  • Gap costs, 空位成本
  • Compositional adjustment, adjust E-value.
  • Masking, 避免匹配到低复杂度或重复的片段

BLAST software

http://blast.ncbi.nlm.nih.gov/

http://blast.ncbi.nlm.nih.gov/doc/blast-help/downloadblastdata.html#downloadblastdata

Spetial BLAST

位置特异性迭代BLAST (PSI-BLAST)

当一个基因组被完整测序,需要寻找预测蛋白的同源物,可以用到PSI-BLAST(NCBI提供)。

  • 查询序列搜索,例如BLASTP。
  • 利用搜索结果创建多序列比对,基于此构建专门的、个体化的搜索矩阵。位置特异性打分矩阵(PSSM)
  • PSSM用于再次搜索。
  • 显著性评估。
  • 迭代搜索,一般迭代5次。

污染问题:无关序列的虚假扩增。措施:

  • 过滤算法。
  • 调低入选阈值,如E-value
  • 人工检查可疑序列。

反向位置特异BLAST(RPS-BLAST)

将查询蛋白在PSSM数据库中搜索。

结构域增强的查找时间加速的BLAST(DELTA-BLAST)

DELTA-BLAST用RPS-BLAST搜索预先计算好的PSSM库,用新得到的PSSM来搜索蛋白质数据库。

模式识别BLASR(PHI-BLAST)

Profile hidden Markov models (HMMs)

生成用于识别远源序列相似度的位置特异性打分系统,类似于PSSMs。

HMMER sortware: http://hmmer.janelia.org/

BLAST-like fast search for genomic ‘DNA’

基因组DNA搜索的特殊需求:

  • 基因组DNA包含外显子和内含子。能找到外显子。
  • 考虑测序的引入错误。
  • 基因组DNA比较。
  • DNA序列的微小差异。

PatternHunter

提高灵敏度和速度。

BLASTZ

物种基因组比对。

Enredo, Pecan

MegaBLAST, 不连续MegaBLAST

NCBI的优化用于快速比对长DNA查询序列的工具。

BLAT

LAGAN

基因组DNA成对比对的方法。

SSAHA2

二代测序读段应用到参考基因组上。

Comparison of NGS read segments with the reference genome

基于哈希表的比对

MAQ, ELANDv2 (Illumina), SSAHA2

Burrows-Wheeler (BWT)

对高考基因组进行变换和压缩,提高检索速度。

Multiple Sequence Aligment (MSA)

使用多重序列比对:

  • 蛋白质或基因与一大组蛋白质相关。
  • 蛋白质家族有远源成员。
  • 查看数据库搜索结果时,显示保守的残基与模体。
  • 预测有害突变。
  • 种群数据研究。
  • 基因组测序时,定义所有基因产物所属的蛋白质家族。
  • 生成系统发育树。

The 5 Main Algorithm

精确法

相当耗时。

渐进比对法

计算待比对序列的两两比对得分,开始于醉相思的序列,渐进添加更多序列。

ClustalM: http://www.ebi.ac.uk/Tools/

  • 计算相似度——距离矩阵。
  • 计算得到引导树。
  • 基于引导树多序列比对。

迭代法

渐进比对法的改进(改进距离矩阵,引导树)

MAFFT: http://mafft.cbrc.jp/alignment/software

PRALINE: http://www.ibi.vu.nl/programs/pralinewww/

基于一致性方法

整合了来自多重序列比对的证据指导双序列比对。例如,x比对z,z比对y,那么x比对上y。

ProbCons: http://probcons.stanford.edu/

T-COFFEE: http://www.tcoffee.org/

基于结构的方法

T-COFFEE Expresso PRALINE

Evaluation of software or algorithm by reference dataset

  • BAliBASE
  • HOMSTRAD
  • OXBench
  • PREFAB
  • SABmark
  • IRMBASE (virtual)

Database for multiple sequences comparisons

Pfam

HMMs 模型的蛋白质家族数据库。

Pfam: http://pfam.sanger.ac.uk/, http://pfam.janelia.org/, http://pfam

SMART

类似于Pfam,…

SMART: http://smart.embl-hei-delberg.de/

整合型数据库

InterPro: http://www.ebi.ac.uk/interpro/release_notes.html

iProClass: …

Multiple sequence alignment of genomic regions

Phylogeny and evolution at the molecular level

物种变化主要机制:

  • 生长条件影响发育。
  • 有性繁殖的机制确保传代。
  • 受选择的突变和遗传漂变导致基因和更大范围的染色体改变。

Principles

分子钟假说

对于每一个给定的基因而言,分子进化速率时相对恒定的。限制:

  • 不同物种可能有不同的分子进化速率。
  • 分子钟对不同基因,或者不同部分有所不同。
  • 基因只有在进化过程中保持生物学功能才适用。

正选择和负选择

在分子水平上,进化观点认为正选择和负选择也作用在DNA序列上。

中性理论

大部分观测到的DNA替代时中性的或近中性的,因为大部分非同义突变都是有害的。

Characteristics

MEGA: http://www.megasoftware.net/

系统发育树包括两大主要信息:拓扑结构和分支长度。

  • OTU (operational taxonomic unit),操作分类单位。
  • 二叉树,叉状分枝树,一个内节点只有两个直接后代谱系。
  • 有根树和无根树。

一些系统发育研究项目为上千个分类群构建了进化树:

穷举检索法检索所有可能的树并选择最合适的。

Types

  • 物种树与基因/蛋白质树。
  • 基于DNA、RNA、或蛋白质的数。
    • DNA包含同义突变和非同义突变的研究
    • 蛋白质有20种状态(氨基酸),包含更强的系统发育信号。

Analysis

序列获取

FASTA格式

  • NCBI HomoloGene
  • BLAST家族蛋白质

多重序列比对

  • 确保同源
  • 降低罚分,容纳远缘
  • 限制为可用的蛋白质或核苷酸序列部分

DNA和氨基酸替代模型

  • Jukes-Cantor 单参数模型
  • Kimura 双参数模型
  • gamma 模型

构树的方法

以下为方法和相关软件

DNA: eukaryotic chromosomes

General characteristics of the genome and chromosomes

C值矛盾:为什么真核生物的基因组大小差异巨大。与生物的复杂程度没有明显的相关性。

真核生物基因组易染色体形式组织

主要特征:端粒和着丝粒。

基因组浏览器

  • NCBI Map Viewer
  • Ensembl
  • UCSC

BioMart and BiomaRt

……

ENCODE

DNA元件百科全书。

ENCODE review: The C-value paradox and the functional definition

功能定义方式:

  • 进化选择效应
  • 因果作用
  • 存在事件

DNA Repeat Fragments

真核生物基因组包含非编码和重复DNA序列

散在重复序列

  • 长末端重复转座子
  • 长散在元件
  • 短散在元件
  • DNA转座子

简单序列重复

串联重复序列区块

Gene content of eukaryotic chromosomes

基因的定义

位于特定染色体位置并编码一种蛋白质的一个遗传信息单位。

Regulatory regions of the eukaryotic genome

Comparison of eukaryotic DNA

Changes in chromosomal DNA

染色体的动态性:全基因复制

个体基因组的染色体变异

结构变异

  • 倒置
  • 复制
  • 缺失
  • 插入

形成基因家族的模型

  • 趋异进化
  • 协同进化
  • 诞生和死亡进化

个体基因组的染色体变异:SNPs

SNPs(单核苷酸多态性)

Next generation sequencing

DNA sequence technology

Sanger 测序

仪器:http://www.3700.com

二代测序技术

  • 循环可逆终止:Illumina http://www.illumina.com
  • 焦磷酸测序
  • 连接法测序:ABI SOLiD 色彩空间
  • 半导体测序:利用pH值进行基因组测序
  • 太平洋生物科学:长读段单分子测序
  • Complete Genomics:自拼接DNA纳米阵列

Analysis of NGS

二代测序数据分析概述

基本工作流:

  • 实验室工作
  • 二代测序
  • 质量评价
  • 比对到参考基因组
  • 变异识别
  • 注释
  • 可视化
  • 优化
  • 存储

GATK 流程:……

实验设计和样品准备

从生成的测序数据到FASTQ

FASTQ http://maq.sourceforge.net/fastq.shtml

  • Sanger FASTQ
  • Illumina FASTQ
  • Illumina 1.3+ FASTQ

@表示开头。G、A、T、C。N代表不确定。+ 代表第三行。

发现和观察FASTQ文件

工具SRA Toolkit:http://www.ncbi.nlm.nih.gov/sra/

(fastq-dump 命令)

  • SRA 提交入口
  • SRP 学习入口(项目元数据)
  • SRX 实验入口(元数据)
  • SRS 样品入口
  • SRZ 历史SRA分析入口
  • SRR SRA运行入口

FASTQ数据的质量评估

工具:

FASTG 比FASTQ 包含信息更多的一种格式

基因拼接

当检测一个之前没有参考序列的物种时,需要de novo拼接

拼接工具:

……

基因拼接性能的比赛和关键评估

……

序列比对(比对到参考基因座)

重复DNA的比对

SAM/BAM的格式与SAMtools

SAM/BAM 是一种格式,存储来自二代测序的序列在比对后的结果。

SAMtools 是一个软件库,用来分析SAM/BAM输入文件中的比对结果

计算读段深度

如果对文库进行频繁的测序,测序深度和统计效力都会增加……

查找和浏览BAM/SAM文件

压缩后的比对文件:CRAM文件

变异识别:单核苷酸变异和插入、缺失

突变查找:结构突变

  • 删除
  • 新序列插入
  • 移动元件插入
  • 倒位
  • 散在重复
  • 串联重复

总结变异——VCF格式和VCFtools

VCFtools http://vcftools.sourceforge.net/

查找和浏览VCF文件

ENA网站

二代测序数据的可视化和列表化

瑞士军刀 BEDtools:https://github.com/arq5x/bedtools2/

解释突变的生物学意义

各类工具:……

将数据存储在存储库中

Specific application

  • RNA 测序
  • 染色质免疫共沉淀测序,用于测量蛋白质-DNA相互作用
  • 微小RNA(miRNA),长度短小的非编码RNA,是各种通路中的必须调节因子。
  • 甲基化测序,表征在全基因组的胞嘧啶残基被甲基化……
  • DNA 酶测序,结合甲醛辅助的调节元件分离,允许核小体缺失的基因组区域测序……

Bioinformatic tools for RNA analysis

Non-coding RNA

  • tRNA,转运RNA,对应于遗传密码中特定的20个氨基酸。
  • rRNA,核糖体RNA构成了核糖体的结构和功能,由rDNA转录。
  • snRNA,小核RNA,位于细胞核内,由具有功能的RNA家族组成。
  • snoRNA,小核仁RNA,在真核生物中,在核仁中促进核糖体合成。
  • microRNA,小RNA,通过抑制从mRNA到蛋白的翻译或促进mRNA降解二下调蛋白的表达。miRbase:http://www.mirbase.org/
  • siRNA,短干扰RNA。
  • lncRNA,长非编码RNA,

Rfam 数据库

http://www.sanger.ac.uk/resources/database/

http://http://rfam.janelia.org/

mRNA Introduction

mRNA:基因表达研究的主体

调控:

  • 转录
  • RNA加工
  • RNA输出
  • RNA监控

低通量和高通量技术研究mRNA

低通量:Northern印迹,定量RT-PCR

cDNA文库中的基因表达分析

cDNA文库的测序可以检测RNA转录本(成熟的mRNA)的位置和表达量。

全长cDNA计划

  • 鼠功能注释(FANTOM)项目
  • H-Invitational数据库
  • 哺乳动物基因收集(MGC)
  • KIAA

BodyMap2 与 GTEx:测定全身各处的基因表达

Microarray and RNA-seq

在微阵列中,RNA或者mRNA常常被转录为cDNA(或者cRNA),做荧光或放射性标记后在阵列上进行杂交……

Interpret of RNA analysis

DNA、mRNA与蛋白质水平之间的关系

转录的普遍性

eQTLs:通过结合RNA-seq和DNA-seq理解基因表达的遗传变异基础

eQTLs:表达数量性状位点……

Gene expression: microarray and RNA-seq data analysis

GEO2R

使用GEO2R执行系列R脚本

使用GEO2R来件定受调控的转录本在染色体上的位置

在15个考前的转录本中发现10个都来自21号染色体的情况在统计学意义上是否显著: fisher.test()

使用GEO2R对数据归一化

  • MAS5
  • RMA (R package affy)
  • 全局和局部归一化 (R package SNOMAD)

commercial tools: Partek

R and BioConductor

利用RMA工具读取CEL文件并完成归一化

data <- affy::ReadAffy()
eset <- affy::rma(data)

limma

Microarray data analysis: descriptive statistical methods

芯片数据的层级聚类分析

K-means聚类

比较多维度变换于主成分分析

聚类策略:自组织映射

基因及样本的分类

RNA-seq

……

Protein Analysis and Proteomics

NCBI非冗余蛋白质数据库UniProt:

  • UniProtKB,蛋白质知识库
  • UniRef 隐藏冗余序列的序列聚类集合
  • UniMES 宏基因组学和环境序列
  • UniParc 文档
ensembl <- biomaRt::useMart("ensembl")
ensembl <- biomaRt::useDataset("hsapiens_gene_ensembl", mart = ensembl)
# data <- biomaRt::getBM(attributes = , filters = , values = , mart = ensembl)
# biomaRt::listFilters(ensembl)
# biomaRt::listAttributes(ensembl)

Identification of proteins

直接蛋白质测序

凝胶电泳

质谱

The 4 aspect of proteins

  • 蛋白质的模块性质(结构域和模体)
    • 结构域是蛋白质中能折叠成特定三维结构的一段区域
    • 模体是蛋白质中短的、保守的区域
  • 蛋白质的物理性质
    • 激酶介导磷酸酯部分从三磷酸腺苷到丝氨酸、苏氨酸、或酪氨酸残基上的受体位点的共价键连接时,会发生可逆的蛋白磷酸化。
    • 跨膜区域的蛋白质组学研究……

基因本体协会:GO……分子功能,生物过程,细胞组分

  • 蛋白质的定位
  • 蛋白质功能

Structure of proteins

Principle of structure

  • 一级结构,初级氨基酸序列(查看工具,Deepview,SwissModel)
  • 二级结构,疏水性氨基酸和亲水性氨基酸的排列方向
  • 三级结构,蛋白质的折叠

Protein Data Bank (PDB)

http://www.ebi.ac.uk/pdbe/

  • SCOP 数据库,蛋白质结构分类数据库
  • CATH 数据库,蛋白质结构域的层级分类系统

Intrinsically disordered proteins

没有稳定三维结构的蛋白质

Functional genomics

Introduction

功能基因组学是对DNA(包括基因和非基因元件)、核酸以及由DNA编码的蛋白质产物的功能进行的全基因组范围的研究。

研究范围:

  • 自然变异
  • 功能失常

基因型与表型之间的关系