1. 浙江中医药大学生命科学学院,浙江 杭州 310053;
2. 杭州微数生物科技有限公司,浙江 杭州 311215;
3. 浙江省食品药品检验研究院 国家药品监督管理局药品微生物检测与预警重点实验室,浙江 杭州 310052
收稿日期: 2021-10-15; 接受日期: 2021-12-30; 网络首发日期: 2022-02-07
基金项目: 中国科技部科技基础资源调查专项(2021FY100901)
Effect of PCR conditions on the accuracy of 16S rRNA gene amplicon sequencing
1. School of Life Sciences, Zhejiang Chinese Medical University, Hangzhou 310053, Zhejiang, China;
2. Hangzhou Digital-Micro Biotech Limited Company, Hangzhou 311215, Zhejiang, China;
3. NMPA Key Laboratory for Testing and Risk Warning of Pharmaceutical Microbiology, Zhejiang Institute for Food and Drug Control, Hangzhou 310052, Zhejiang, China
Received: 15-10-2021; Accepted: 30-12-2021; Published online: 07-02-2022
Foundation item: Special Project of Science and Technology Basic Resources Survey of China Ministry of Science and Technology(2021FY100901)
基于系统进化分子标记的16S rRNA基因扩增子测序技术,通过提取特定环境中的微生物总DNA和构建文库,可以获得大量微生物种类、丰度等相关信息。相较于传统微生物研究方法的分离、培养,16S rRNA基因扩增子测序技术更能获得大量的不可培养微生物的信息,是目前研究微生物群落的重要技术手段[1]。近年来,16S rRNA基因扩增子测序技术在农业、工业、环境、食品和卫生等领域得到了广泛的运用[2-4]。
高通量测序技术实验环节步骤较多,每一步骤细微的差别都可能在最终的测序结果中放大,并造成测序结果、分析结果与实际情况的偏差。文献报道的误差和偏差来源主要包括采样、提取效率、样本存储条件、扩增参数、模板起始浓度、模板性质(GC含量和二级结构)、引物错配、聚合酶错误、嵌合体、随机错误及测序错误等[5-8]。在PCR扩增过程中,存在多种引起PCR产物成分变化的因素,如不同引物对DNA模板的偏好性不同、退火温度改变引起扩增效率的变化等。因此,运用高通量测序技术分析微生物群落结构特征时,有必要对各个实验环节的条件进行筛选优化。按照微生物组学质量控制计划(Microbiome Quality Control Project,MBQCP)的建议[9],本研究以模拟细菌群落DNA (mock DNA)为研究对象,将已知细菌DNA进行定量混合,系统全面地评估引物序列、退火温度、模板起始量、循环数及变性时间对16S rRNA基因扩增子测序技术一致性和准确性的影响,筛选尽可能真实反映微生物群落的PCR反应参数,以期为16S rRNA基因扩增子测序技术分析微生物多样性提供有效的参考和建议。
1 材料与方法
1.1 材料
1.1.1 菌种
13种细菌均采购自美国菌种保藏中心(American Type Culture Collection,ATCC),并通过16S rRNA基因进行菌种鉴定,菌种信息见表 1。
表 1 mock DNA菌种信息
Table 1 Strains information of mock DNA
菌种名称 Strain name |
16S rRNA基因拷贝数 16S rRNA gene copies |
dsDNA分子量 dsDNA molecular weight |
DNA质量 DNA quality (ng) |
所占比例(理论值) Proportion (theoretical value, %) |
Bacillus cereus |
13 |
3 343 160 354 |
2.02 |
35.15 |
Stenotrophomonas maltophilia |
4 |
2 998 302 813 |
3.92 |
23.48 |
Staphylococcus aureus |
6 |
1 742 835 154 |
0.87 |
13.48 |
Enterococcus faecalis |
5 |
1 988 020 140 |
0.78 |
8.85 |
Streptococcus mutans |
6 |
1 255 876 752 |
0.22 |
4.73 |
Deinococcus radiodurans |
4 |
1 637 006 459 |
0.39 |
4.30 |
Acinetobacter baumannii |
6 |
2 678 611 494 |
0.39 |
3.95 |
Brevundimonas diminuta |
2 |
2 092 323 336 |
0.39 |
1.68 |
Micrococcus luteus |
1 |
1 546 003 127 |
0.57 |
1.66 |
Pseudomonas aeruginosa |
4 |
3 871 812 507 |
0.20 |
0.91 |
Salmonella enterica enterica |
7 |
2 971 604 759 |
0.08 |
0.83 |
Escherichia coli |
7 |
3 031 848 776 |
0.08 |
0.81 |
Curtobacterium citreum |
1 |
2 134 431 388 |
0.08 |
0.17 |
1.1.2 主要试剂和仪器
DNA提取试剂盒,Qiagen公司;PCR引物,上海捷瑞生物工程有限公司;2×KAPA HiFi HotStart ReadyMix,KAPA Biosystems公司;磁珠,Beckman公司。基因扩增仪、NanoDrop 2000超微量分光光度计、荧光计,Thermo Fisher公司;MiSeq PE300高通量测序仪,Illumina公司。
1.2 DNA的提取
细菌在35 ℃培养24−48 h后用DNA提取试剂盒提取每种细菌基因组DNA。荧光计测定各细菌基因组DNA浓度,取不等量各菌株基因组DNA混合成mock DNA,菌株的16S rRNA基因拷贝数=[DNA质量/(基因组分子量×摩尔系数)]×每基因组16S rRNA基因拷贝数,所占比例=菌株16S rRNA基因拷贝数/所有菌株16S rRNA基因拷贝数总和(表 1)。
1.3 文库的构建及测序
建库方法采用两步法PCR。第一步PCR对细菌16S rRNA基因的V3–V5区进行扩增。扩增引物的3′端与16S rRNA基因匹配,5′端的通用序列为第二步PCR的引物结合位点。第一步PCR反应体系(25 μL):2×KAPA HiFi HotStart ReadyMix 12.5 μL,上、下游引物(10 μmol/L)各1 μL,模板(10 ng) 1 μL,无核酸酶水补足至25 μL。PCR反应条件:95 ℃ 3 min;95 ℃ 30 s,55 ℃ 30 s,72 ℃ 30 s,25次循环;72 ℃ 5 min。反应结束后用磁珠纯化。第二步PCR对第一步PCR产物进行扩增,扩增引物的5′端至3′端包含测序接头序列、barcode序列及与第一步PCR产物结合序列。第二步PCR反应体系(50 μL):2×KAPA HiFi HotStart ReadyMix 25 μL,上、下游引物(10 μmol/L)各2 μL,纯化产物5 μL,灭菌超纯水补足至50 μL。PCR反应条件:95 ℃ 3 min;95 ℃ 30 s,55 ℃ 30 s,72 ℃ 30 s,8次循环;72 ℃ 5 min。反应结束后用磁珠纯化。
以上为默认建库方法,在此基础上调整引物(表 2)、退火温度(52、55和60 ℃)、模板起始量(2、10和50 ng)、第一步PCR循环数+第二步PCR循环数(15+18、20+8、25+8和30+8)、变性时间(3 min和5 min)等因素,每组实验设置5个重复。荧光计进行文库定量,等量文库混合,采用MiSeq PE300平台测序。
表 2 本研究所用引物
Table 2 Primers used in this study
引物 Primer |
扩增区域 Amplified region |
位置 Location |
引物序列 Primer sequence (5′→3′) |
产物长度 PCR product (bp) |
熔解温度
Tm
(℃) |
A |
V3−V4 |
341F |
F: CCTACGGGNGGCWGCAG |
464 |
59.2 |
| 805R |
R: GACTACHVGGGTATCTAATCC |
| 46.3 |
B |
V3−V4 |
341F |
F: CCTAYGGGRBGCASCAG |
465 |
55.8 |
| 806R |
R: GGACTACNNGGGTATCTAAT |
| 44.0 |
C |
V4−V5 |
515F |
F: GTGYCAGCMGCCGCGGTAA |
411 |
67.7 |
| 926R |
R: CCGYCAATTYMTTTRAGTTT |
| 53.1 |
D |
V4 |
515F |
F: GTGYCAGCMGCCGCGGTAA |
291 |
67.7 |
| 806R |
R: GGACTACNVGGGTWTCTAAT |
| 44.0 |
Note: N: A/T/C/G; W: A/T; H: A/T/C; V: G/A/C; Y: C/T; R: A/G; B: G/T/C; S: G/C; M: A/C. |
1.4 生物信息学分析
对测序结果的序列质量进行质控和过滤,去除非靶区域序列及嵌合体,得到优质序列。利用UPARSE V8.1.1861软件对所有样本的全部effective tag进行聚类,默认以97%的一致性(identity)将序列聚类成为OTU。用QIIME V1.9.1软件计算UniFrac距离、构建UPGMA样本聚类树。解读样本的多样性和丰度。
2 结果与分析
2.1 PCR引物对测序结果的影响分析
采用4组引物分别进行PCR扩增,扩增产物测序结果与mock DNA的理论值在OTU水平上进行聚类分析,引物A、B和C的测量值与理论值接近,而引物D与理论值偏离最远(图 1)。用测量值与理论值之间的均方根偏差(root mean square deviation,rms.)表示mock DNA量化的准确度,引物A、B和C的准确性较好,引物D的准确性较差(图 2)。
2.2 PCR退火温度对测序结果的影响分析
退火温度是影响PCR反应的重要因素。4组引物的熔解温度(Tm)值如表 2所示,本研究为每组引物均设置了3个退火温度(52、55和60 ℃),以分析退火温度对测序结果的影响。均方根偏差结果显示,退火温度对引物D的准确值有较大影响,对其他3组引物的影响较小(图 3)。引物A在退火温度为60 ℃的结果最接近理论值。因此,后续优化实验采用引物A进行。每个物种丰度结果显示,4组引物在不同退火温度下对测量值偏差较大(> 2倍)的物种无明显影响(图 4)。
2.3 模板起始量对测序结果的影响分析
用引物A分析模板起始量对mock DNA测序结果的影响。比较模板起始量(2、10和50 ng)的均方根偏差,当模板起始量为2 ng时准确性最好(图 5)。不同模板起始量(2、10和50 ng)对mock DNA各细菌的相对丰度无明显影响,三者均使短小杆菌属和不动杆菌属的测量值与理论值的偏差大于2倍(图 6)。
2.4 PCR循环数对测序结果的影响分析
调整PCR循环数,保持PCR其他反应参数不变。PCR进行20+8、15+18、25+8和30+8次循环(图 7),总循环数分别为28、33、33和38。实验结果显示,总循环数最少的组别(20+8)的测量值最接近mock DNA的理论值,准确性最好,25+8、15+18和30+8的准确性较差(图 8)。
2.5 变性时间对测序结果的影响分析
采用2个变性时间(3 min和5 min)检测其对mock DNA测序结果的影响(图 9)。与变性时间为3 min的结果相比,5 min能使寡养单胞菌属的检测值与理论值的偏差减小至2倍以下,而对另外两种细菌(不动杆菌属和短小杆菌属)的准确性无明显改善(图 10)。
3 讨论与结论
随着新一代DNA测序技术的出现,人们能同时对多个DNA样本的宏基因组进行分析,尤其是以系统进化标记分子的16S rRNA基因测序已经成为微生物多样性研究最简捷有效的方法,而PCR是基于16S rRNA基因测序的基础。在PCR扩增过程中,存在多种引起扩增产物成分变化的因素,如引物偏好性、退火温度、酶、变温效率、循环数、模板起始浓度、模板性质(G含量和二级结构)、引物错配、聚合酶错误、嵌合体及随机错误等[5, 10-12]。
对这些错误和偏差的认识促进了扩增子文库制备方法的改进。这些方法主要包括是否通过连接添加测序接头、单步PCR或多步PCR,采用单向还是双向标签,以及测序引物的选择等[13]。虽然已经尝试标准化这些方法,但PCR参数对偏差的影响尚未得到系统的研究。本研究考察了基于PCR的16S rRNA扩增子文库制备方法中的PCR参数,包括引物、退火温度、模板起始量、PCR循环次数和变性时间对测序结果准确性的影响。
研究表明,扩增方案和扩增酶的选择对测序结果准确性均有显著影响。两步法PCR可以提高PCR敏感性,降低非特异性反应连续放大的可能性,保证了反应的特异性,同时保证整个反应的准确性和可行性[10]。具有校正功能的酶准确度更高,能显著降低嵌合体的形成,并且能一定程度上容忍引物和靶标不匹配[14]。因此,我们采用校正功能酶及两步法PCR,研究PCR反应参数对测序结果准确性的影响。
目前二代测序的读长不能覆盖16S rRNA基因全长,需要选择一个有效的高变区(V区)进行扩增、测序,但关于V区的选择策略尚无公认的准则。16S rRNA基因不同V区会对原核微生物群落结构的分析结果产生明显的影响。一般来说,可变性和适中的保守性被认为是V区选择的标准,V3、V4、V5和V6等区域被广泛应用[15]。可变区不同则16S rRNA基因通用引物不同,导致微生物群落结构特征分析结果不同。这是因为用于通用引物设计的保守区间在亲缘关系较远的物种之间可能保守性不足,导致某些种属的细菌扩增效率较差,从而使微生物群落分析结果出现偏差[16]。引物偏向性对某些样本影响非常大,造成对某些种类过低或过高的估计,甚至有些群体被完全遗漏。V4区的515F/806R在域和门的水平上获得的多样性最好、得到的测序读长(reads)数量较多、能注释上的比例较高等原因被广泛应用于分析[17]。通过计算机模拟在SILVA数据库中研究了引物的物种覆盖度(taxonomic coverage)和门类覆盖度(phylum spectrum),也推荐515F/806R为最好的引物组合[18]。本研究选取针对V3–V4、V4–V5和V4区域的4组引物,评估了引物选择对mock DNA检测结果准确性的影响。然而研究发现,引物515F/806R的检测值与mock DNA相对丰度的理论值偏差最大,引物A (V3–V4区)、B (V3–V4区)和C (V4–V5区)的准确性较好。因此,对不同类型样本的16S rRNA基因高变区进行有效性评估,以及研究V区和保守引物的选择策略对于原核微生物群落的研究非常必要。
高通量测序过程中,模板的起始量高低会对测序结果造成显著影响[17],模板量是PCR反应取得良好结果的重要保障。一般来说,DNA模板的适宜用量在一定的范围,在此范围内随着DNA量的增加扩增产物越多;但模板过多会导致嵌合体的生成,影响测序结果的准确性。从多种模板中扩增DNA片段时,延伸不完整的扩增片段作为引物进行下一个模板的扩增将导致嵌合体的形成。嵌合现象的发生率在5%–45%之间[5, 9]。本研究结果表明,减少模板起始量能较准确地检测mock DNA中各菌的相对丰度。
通过优化起始模板量来最小化PCR循环数能有效减少嵌合体的形成,是一种提高结果准确性的有效策略[2]。本研究对4种循环数组合(20+8、15+18、25+8和30+8),即总循环数分别为28、33、33和38的测量值进行比较。总循环数最少的组别(20+8)的测量值最接近mock DNA的理论值。随着PCR扩增的进行,mock中各种菌的DNA含量较理论值的偏差被逐渐放大,循环数越多被放大得越大。因此,在建库过程中减少PCR循环数有利于测序结果的准确性。
退火温度是影响PCR的重要因素,与PCR反应的特异性和灵敏度高度相关。退火温度过低可导致非特异性扩增,退火温度过高则影响引物与模板的结合,从而降低PCR扩增效率。本研究比较了4组引物分别在3个退火温度(52、55和60 ℃)下的测量值,相对于引物种类,不同退火温度的选择对测序结果的准确性影响较小,这与Gohl等[14]的研究结果一致。变性是PCR扩增不可或缺的一步,变性时间短则靶序列变性不彻底,易造成扩增失败,极有可能出现假阴性;变性时间过长则损害酶活性。本研究结果显示,变性时间对测序结果无明显影响,其原因可能是16S rRNA基因的GC含量较一致,变性时间为3 min足以打开双链结构。
综上所述,本研究结果认为16S rRNA基因扩增子测序中,模板起始量2 ng、引物B (V3–V4,341F/806R)、两步法PCR (循环数20+8)及退火温度60 ℃是测试各组引物和条件中的最优组合。
16S rRNA扩增子测序技术显著提升了研究复杂环境微生物群组成的能力,但是研究发现其结果准确性受到众多因素的影响,其中PCR反应条件是一个重要因素。本研究对不同引物、退火温度、模板起始量、PCR循环数和变性时间等条件下的扩增子测序分析结果进行了比较,表明引物的选择、模板起始量和PCR循环次数是影响微生物群落检测结果的重要因素,我们建议选择合适的引物,并减少模板起始量和PCR循环数。本研究为选择标准化方法进行建库奠定了研究基础。