什么叫“纳米孔测序”?

自2014年牛津纳米孔测序技术(Oxford Nanopore Technologies, ONT)提供第一个纳米孔测序仪MinION以来,纳米孔测序技术及其在基础科学和应用科学领域中的应用经历了实质性的发展。纳米孔测序正在被大量应用于基因组组装、全长转录本检测和碱基突变检测,以及快速临床诊断和疫情监测等更专门的领域,今天小编带来2021年11月发表在NATURE BIOTECHNOLOGY上的高分综述(IF:54.908),快来学习学习吧!

纳米孔测序原理

纳米孔测序技术依赖于一个纳米级的蛋白质孔,或称“纳米孔”,它作为一个生物传感器,并嵌入在一个由一组连接到传感器芯片上的微支架支撑的耐电聚合物膜中。MinION的一个流动槽包含512个通道,每个通道有4个纳米孔,总共有2048纳米孔用于DNA或RNA测序。每个通道都与传感器芯片中的一个单独的电极相关联,并由特定于应用的集成电路(ASIC)单独控制和测量。在电解溶液中,施加恒定电压通过纳米孔产生离子电流,这样带负电荷的单链DNA或RNA分子就从纳米孔从带负电荷的“顺式”侧驱动到带正电荷的“反式”侧。易位速度由一种马达蛋白控制,在后者的控制下,核酸分子逐步通过纳米孔。易位过程中离子电流的变化与传感区域中存在的核苷酸序列相对应,从而能够对其进行解码,允许对单个分子进行实时测序。除了控制易位速度外,马达蛋白还具有解旋酶活性,使双链DNA或RNA-DNA双链能够被解开成通过纳米孔的单链分子。

图1. 纳米孔测序原理

纳米孔测序技术的发展

纳米孔设计

纳米孔测序的概念出现于20世纪80年代,并通过纳米孔和相关马达蛋白的技术发展从而实现,α-溶血素是一种内径为1.4nm~2.4nm的来自金黄色葡萄球菌的膜通道蛋白,是第一个可识别到由RNA和DNA均聚物阻塞引起的离子电流的纳米孔。纳米孔的设计流程中,提高信噪比的一个关键进展是利用phi29 DNA 聚合酶等进行性酶来减缓分子通过纳米孔的易位,减少了易位动力学的波动,从而提高了测序数据的质量。ONT不断改进纳米孔和马达蛋白,迄今为止发布了8个系统版本,分别是R6、R7、R7.3、R9、R9.4、R9.5、R10以及在2020年1月发布的最新版R10.3,在单位时间测序产量和测序精度上不断提高。

测序精度

除了优化纳米孔和马达蛋白外,研发者们还开发了几种策略来提高测序精度,例如通过对每个dsDNA进行多次测序从而生成一致序列。早期版本的ONT测序使用2D文库制备方法对每个dsDNA分子进行两次测序;一个dsDNA分子的两条链通过一个发夹状适配器连接在一起,马达蛋白引导一条模板链通过纳米孔,然后是发夹状适配器和第二条补体链通过纳米孔。去除发夹结构序列后,读取模板链和补体链(1D读取),后生成一个一致序列,称为2D读取,精度更高。以R9.4纳米孔为例,2D读取的平均精度为94%,而1D读取的平均精度为86%。2017年5月,ONT发布了1D2方法,在这种方法中,每条链不是通过发夹状适配器进行物理连接,而是单独连接到一个特殊的适配器上。补体链在模板链被读取后立即被相同的纳米孔捕获,为dsDNA提供了与2D文库制备方法相似的一致序列生成,1D2的平均精度最高可达95%。与此同时,测序过程中通过新的碱基判读算法也提高了精度。以R7.3纳米孔为例,隐马尔可夫模型(HMM)将1D读取精度从65%提高到70%(Nanocall)和78%(DeepNano)。

测序读长

纳米孔测序的测序读长取决于测序文库中分子的大小,各种提取和纯化高分子量DNA的方法已被报道或应用于ONT测序,例如New England Biolabs研发的基因组DNA纯化试剂盒和TakaraBio研发的HMWDNA试剂盒等。随着纳米孔技术和文库制备方案的改进。纳米孔测序的最大读长从2017年初的800kb不到增加到2018年的2.273Mb,平均读长已经从2014年MinION最初发布时的几千个碱基增加到23kb。

RNA测序

对于RNA,ONT具有两种方法进行测序,第一种是直接测序RNA分子,该方法需要特殊的文库制备,将引物连接到天然RNA的3’端,无需逆转录。第二种方法需要合成一条cDNA链来获得一个RNA-cDNA杂交双链,然后连接适配器。前一种方法适合少量样本操作,速度更快,而后者为更长的测序过程产生更稳定的文库,因此产量更高。这两种方法中,都只有RNA链通过纳米孔,因此直接对RNA分子进行测序并不会产生一致性序列。据独立研究报道,与DNA测序相比,纳米孔测序设备对RNA直接测序的平均准确性通常较低,约为83%~86%。与传统的RNA测序一样,ONT也可以利用现有的全长cDNA合成方法进行cDNA测序,然后进行PCR扩增。

测序通量

除了测序的精度和长度,通量是ONT测序应用的另一个重要考虑因素。为了满足不同项目规模的需求,ONT发布了几个平台:MinION、GridION、PromethION、 Flongle、VolTRAX、 MinIT和SmidgION。对于一个流动槽来说,其数据通量取决于活性纳米孔的数量,DNA/RNA通过纳米孔的易位速度和运行时间。以MinlON平台为例,通过提高分子易位速度(从R6纳米孔每秒通过30个碱基到R9.4纳米孔每秒通过450个碱基)以及运用Rev D ASIC芯片从而提高运行时间,MinlON平台的每流动槽通量已从最初的数百兆增加到10~15千兆。

图2. 纳米孔测序技术的发展


图3. 纳米孔测序文库构建流程

纳米孔测序数据的分析以及生物信息学方法

MinKNOW是纳米孔测序设备常用的操作软件,其被应用于管理数据采集和实时分析,并执行本地基本调用,并以 fast5格式输出二进制文件,以存储元数据和读取信息。MinKNOW可输出single-fast5和multi-fast5格式的文件,前者为单次读取输出,后者则为多次读取输出从而满足不断增长的测序通量要求。除了官方的ONT工具(例如 ont_fast5_api,用于single-fast5和multi-fast5之间的格式转换和数据压缩/解压缩),已开发了若干第三方软件包用于质量控制、格式转换(例如NanoR63,用于fast5格式和fastq格式之间的转换)、原始ONT数据的数据探索和可视化(例如Poretools、NanoPack和PyPore)以及碱基判读分析(例如AlignQC和BulkVis)。ONT测序数据的生物信息学分析,包括常规的质量控制、碱基判读和DNA/RNA修饰检测,以及适用于长读长测序的特定分析方法,例如,错误纠正、从头基因组组装、单倍型分析、结构变异(SV)检测、重复区域分析和转录组分析,以下是本文综述中整理的纳米孔测序数据的常规生物信息学分析以及工具。

ONT数据分析的生物信息学计算工具 

数据分析计算工具

碱基判读ONT’sGuppy, Metrichor, Nanonet, Albacore, Scrappie, Flappie, Taiyaki, Bonito

Third partyNanocall, Chiron, Causalcall, DeepNano, DeepNano-blitz, basecRAWller, WaveNano, MinCall, URnano, CATCaller, SACall, Halcyon, Fast-Bonito

质量控制PrealignmentNanoPack, LongQC, PycoQC, MinIONQC, RabbitQC, NanoR, poRe, pyPore

PostalignmentAlignQC, SQANTI3, NanoOK, pyPore

处理和可视化ProcessingTombo, Poretools, HPG pore

VisualizationSquiggleKit, BulkVis, Methylartist, NanoMethViz, Methplotlib

DNA修饰检测5mC (CpG)Nanopolish, Megalodon , DeepSignal, Tombo, Guppy, DeepMod, SignalAlign, NanoMod

5mC (GpC)Nanopolish, NP-SMLR

6mAGuppy, Tombo, mCaller, NanoMod, DeepMod, DeepSignal

5hmC, 4mCSignalAlign (5hmC), Tombo (4mC)

RNA修饰检测m6AEpiNano, xPore, MINES, Nanocompore, Nanom6A, Yanocomp, ELIGOS, DRUMMER, Tombo

Pseudouridine (Ψ), m5CnanoRMS (Ψ), Tombo (m5C)

测序错误矫正Hybrid (graph based)FMLRC, LoRDEC, Jabba, ECTools, HG-ColoR, NaS, Ratatosk

Hybrid (alignment based)pacBioToCA, LSC, Nanocorr, proovread, Hercules, PBcR

Hybrid (dual alignment/graph based)HALC, ColorMap

SelfCanu, daccord, LoRMA, MECAT, pbdagcon, FLAS, MARVEL, NanoReviser

Splice-awareTALC (hybrid), iSONcorrect (self)

基因组比对Minimap2, GraphMap, NGMLR, LAST, BWA-MEM, BLAST, LRA, Winnowmap2, MashMap2, NanoBLASTer, mapAlign, GraphAligner, smsMap, lordFAST, S-conLSH, QAlign

Splice-awareMinimap2, GraphMap2, GMAP, STAR, deSALT, Magic-BLAST, Deep-Long, uLTRA

基因组组装Canu, Miniasm, Flye, Redbean/wtdbg2, Falcon-Unzip, Shasta, Raven, NextDenovo , Peregrine, HINGE, TULIP, NECAT 

Metagenome tailoredmetaFlye, OPERA-MS (hybrid)

Haplotype-awareHifiasm

基因组polishNanopolish, Racon, Medaka, NeuralPolish, PEPPER-Margin-DeepVariant, NextPolish, POLCA, HomoPolish

SV检测Sniffles, SVIM, NanoSV, Picky, NanoVar, Dysgu, SENSV, cuteSV

SNV检测LongShot, DeepVariant, iGDA, Nanopanel2, Clair

单倍型分析WhatsHap, Medaka, HapCUT2, flopp, DR2S, Nanopanel2, iGDA, Clair

重复区域分析Non-reference transposable element detectionTLDR, PALMER, TELR

Tandem repeatTRiCoLOR, STRique, NanoSatellite

转录组构建与定量De novoRATTLE, CARNAC-LR, isONclust, IDP-denovo (hybrid)

Reference genome guideIDP (hybrid), TALON, FLAIR, StringTie2, FLAMES

Quantification onlyLIQA, AERON, Mili

转录组定性Alternative splicingFLAIR

Gene fusionIDP-fusion (hybrid), JAFFAL, AERON, LongGF

Circular RNACIRI-long

Poly(A) tail lengthNanopolish

Allele-specific expressionIDP-ASE (hybrid), LORALS

ONT应用的实验分析

应用实验分析

基因组扩增子测序NanoAmpli-seq, Dual-UMI-tagging

目标扩增子测序nCATS, CATCH

表观基因组DNA甲基化和染色质可及性MeSMLR-seq, SMAC-seq, nanoNOMe

核小体占位MeSMLR-seq

组蛋白修饰DiMeLo-seq, BIND&MODIFY

3D基因组结构Pore-C

蛋白–DNADiMeLo-seq, Nanopore-DamID

DNA复制(复制叉检测)D-Nascent, FORK-seq

单细胞转录组ScCOLOR-seq, ScISOr-Seq, scNaUmi-seq, FLT-seq

转录组学(RNA二级结构)PORE-cupine, SMS-seq

RNA代谢(新生RNA检测)Nano-ID, nano-COP


图4. 纳米孔测序数据分析流程



纳米孔测序的应用

填补基因组图谱空白

基因组组装是纳米孔测序的主要应用之一,尤其是填补人类基因组图谱空白,包括测量端粒重复序列和组装人类Y染色体着丝粒区域。此外,ONT使人类X染色体的端粒与端粒之间的第一次无间隙组装成为可能,包括重建一个约2.8Mb的着丝粒卫星DNA阵列和填补总计1.1Mb的基因组空白。除了人类基因组图谱,通过使用ONT长读长准确识别重复区域也填补了秀丽隐杆线虫,大肠杆菌,酿酒酵母,拟南芥和果蝇等物种的基因组图谱空白。同时,ONT鉴定了面包小麦基因组中的大串联重复序列,提高了克氏锥虫基因组的连续性和完整性。

建立新的参考基因组

ONT已被广泛用于组装许多非模式生物的初始参考基因组,包括立枯丝核菌,墨瑞鳕鱼(澳大利亚最大的淡水鱼),眼斑双锯鱼等。同时,ONT还与 Illumina 短读长测序, PacBio长读长测序, 10x基因组测序等技术相结合进行不同物种的参考基因组组装,包括斑蝶,巨蜥,狮子等。此外,ONT对RNA进行直接测序被用于构建RNA病毒基因组,包括马雅罗病毒,委内瑞拉马脑炎病毒,基孔肯雅病毒,寨卡病毒,水泡性口炎病毒,奥罗普切病毒等。在SARS-CoV-2大流行中,采用ONT测序,通过cDNA和RNA测序重建SARS-CoV-2全长基因组序列,为该病毒的生物学、进化和致病性提供了有价值的信息。

识别基因组结构变异和转录组特征

ONT长读的一个强大应用是在生物医学环境中识别人类大型的基因组结构变异,成功的案例如乳腺癌患者以及急性髓系白血病患者等。同时,ONT对RNA进行直接测序已被用于测量人类天然RNA分子的poly(A)尾巴长度,证实了poly(A)尾巴长度与基因表达呈负相关关系。此外,通过滚环扩增后的ONT测序,可实现对人环状RNA的全长亚型进行鉴定。

表征表观遗传标记

早在2013年,就有研究表明DNA的甲基化胞嘧啶(5mC和5hmC)可以通过使用MspA纳米孔测量的特征电流信号与天然胞嘧啶进行区分。随着生物信息学工具的开发,已从ONT数据中鉴定出三种DNA修饰(6mA、5mC和5hmC)。近年来,ONT被应用于鉴定来自不同生物样本的甲基化组,如微生物参考群落的6mA,以及大肠杆菌、莱茵衣藻和人类基因组中的5mC和6mA。同时将ONT和外源性甲基化修饰技术相结合,可提高定位核小体占位和染色质可及性的分辨率。这种表观基因组分析可以以单倍型解析的方式进行,因此将有助于发现与印迹基因相关的等位基因特异性甲基化,以及基因组变异和染色质状态。同时已有研究使用ONT测序来定位组蛋白修饰(H3K9me3和H3K27me3)、组蛋白变体(CENP-A)和其他特定的蛋白质/DNA相互作用。

RNA修饰检测

ONT对RNA进行直接测序为识别具有重要生物学功能的RNA修饰(如m6A)和RNA编辑(如肌苷)提供了机会。2018年,研究发现ONT直接RNA测序数据中未修饰和修饰的碱基(如m6A和m5C)的离子电流信号不同,从那时起,使用ONT测序的外转录组分析发展迅速,包括在大肠杆菌的16S RNA中检测m7G和假尿苷,在酿酒酵母和拟南芥的mRNA中检测m6A ,以及在人类RNA中检测m6A和假尿苷。同时已有研究表明,通过ONT和人工化学修饰技术相结合可用于研究RNA二级结构。

临床疾病应用

ONT测序已应用于包括白血病、乳腺癌、脑瘤、结肠直肠、胰腺癌和肺癌等癌症以识别疾病相关的基因组变异。例如,研究报道MinION测序数据显示在19例慢性髓系白血病患者和5例急性淋巴细胞白血病患者中存在BCR-ABL1激酶结构域突变,与Sanger测序相比,它们具有更高的敏感性和时间效率。此外,MinION cDNA测序也被应用于临床标本中融合基因的快速发现。同时,由于其快速实时测序能力,MinION已被用于快速病原体检测,包括诊断细菌性脑膜炎、细菌性下呼吸道感染、感染性心内膜炎、肺炎和假体关节感染。另一方面,ONT已被用于表征遗传疾病个体中的复杂基因组重排。例如,对人类基因组的ONT测序显示,ABCA7基因中串联重复序列的扩增与阿尔茨海默症的患病风险增加有关。ONT测序也在血友病患者的F8基因内含子区发现了一个新的3.8mb重复等。

疫情检测

便携式MinION设备允许对新出现的传染病进行现场和实时的基因组监测,帮助病毒溯源和流行病学调查,如描述进化率、诊断靶点,耐药性和传播率。2015年4月,MinION设备被运往几内亚,对正在进行的埃博拉疫情进行实时基因组监测。每个样本只需要15-60min的测序时长。MinION还曾被应用于对巴西爆发的寨卡病毒、黄热病病毒和登革热病毒疫情的基因组监测。

小结

纳米孔测序通过实时提供来自单个DNA/RNA分子的超长读取,使许多生物医学研究成为可能。然而,目前的ONT测序技术有一些局限性,包括相对较高的错误率和需要相对较多数量的核酸材料。克服这些挑战将需要在纳米孔技术、分子实验和生物信息学软件方面进行进一步突破。同时,ONT测序将受益于端到端系统的发展。例如,DNA/RNA提取系统、测序文库准备和加载系统的集成和自动化将允许无需专门培训的用户生成ONT测序数据。更稳健和更友好的用户体验的生物信息学软件,如云存储和计算实时分析软件,将进一步促进ONT测序应用,最终将该技术超越实验室,进入日常生活!

Wang Y, Zhao Y, Bollas A, Wang Y, Au KF. Nanopore sequencing technology, bioinformatics and applications. Nat Biotechnol. 2021;39(11):1348–1365. doi: 10.1038/s41587-021-01108-x.

推荐阅读更多精彩内容