摘 要:黄酮醇合成酶(FLS)是黄酮醇合成的关键酶,对植物花色的色调和强度形成有重要作用,研究该基因密码子偏好性有助于进一步了解黄酮醇的功能.为明确罗布麻黄酮醇合成酶基因密码子的使用特性,采用CondoW、Tbtools、SPSS软件及EMBOSS在线程序分析AvFLS密码子偏好性,通过ENc绘图、中性绘图和PR2-plot分析FLS基因密码子偏好性形成的可能原因,比较AvFLS与模式生物的密码子使用频率获得最佳受体.结果表明:AvFLS的有效密码子数(ENc)、密码子适应指数(CAI)和GC含量分别为47.09、0.2和39.48%,表明AvFLS基因密码子偏好性较弱。AvFLS基因偏好性密码子有27个(RSCU>1),其中22个以A/T结尾,表明该基因偏好使用A/T结尾的密码子;基因序列进化分析及RSCU聚类分析表明,AvFLS基因的密码子使用偏好性与同源关系较近的桔梗相似;密码子碱基成分和相关性分析发现,AvFLS密码子偏好性主要受突变压力的影响;密码子使用频率比较分析发现,酵母真核表达系统更适合AvFLS异源表达。本研究表明模式植物拟南芥、烟草、番茄、甜菜和蒺藜苜蓿均可作为AvFLS的遗传转化受体,结果可为后续AvFLS改造和功能验证研究提供一定参考。(图6表3参44)
关键词:罗布麻;AvFLS;密码子偏好性;进化分析;外源宿主
植物在生长发育过程中能够产生多种次生代谢产物,黄酮类化合物就是其中一类重要的次生代谢产物,其分子量较低,分布区域广泛,与花色的形成、保护植物缓解胁迫伤害等密切相关[1].通过苯丙氨酸代谢途径产生的黄酮类化合物,主要有查尔酮、异黄酮、黄酮醇、花青素等[2,3].黄酮醇合成酶(flavonol synthase,FLS)是调节黄酮醇化合物合成途径中的关键酶,FLS基因表达量高低显著调控植物黄酮醇的含量[4]。黄酮醇合酶在许多植物中已有广泛的研究[5],其全长首先在矮牵牛中被克隆出来[6]。黄酮醇不仅在植物抵御环境胁迫中起保护作用;而且在医疗保健领域也存在十分广泛的用途:对血管收缩具有松弛作用、抗氧化、抗癌、抗菌消炎、预防心脑血管疾病和糖尿病等作用[7,8]。黄酮醇合成酶基因FLS不仅影响着植物中黄酮类化合物的代谢途径,同时参与植物花色的形成。黄酮醇合成酶基因FLS与花青苷基因DFR竞争底物二氢黄酮醇,影响着产物黄酮醇和花青素含量[5]。
遗传信息的传递过程中,从DNA到蛋白质需要经过转录和翻译两个阶段。生物遗传信息的基本单位是脱氧核糖核苷酸,含有4种(A、T、C、G)不同的碱基。碱基不同的排列顺序储藏着遗传信息,也称为遗传密码子。mRNA指导蛋白质的合成,密码子在联系核酸与合成蛋白质氨基酸过程中发挥着重要作用。自然界中共存在61种密码子,编译着20种氨基酸,除了甲硫氨酸(Met)和色氨酸(Trp)由唯一的密码子编码外,其他氨基酸最少2个密码子,最多达到6个密码子。由于遗传环境影响以及基因的生物学功能不同造成物种对密码子的使用存在偏好性[9]。密码子使用偏好性是物种进化的特征之一,对研究基因功能、物种进化等问题具有重要科学意义[10]。密码子偏好性主要受到突变压力和自然选择的作用,此外还受到基因的功能、基因长度、蛋白质翻译、氨基酸亲疏水性等因素的影响。通过分析密码子的使用频率和影响因素,能够了解物种间基因的起源关系及进化规律[11]。此外,密码子偏好分析有助于了解基因转录与翻译的分子机制、最优密码子、合适外源表达宿主及提高蛋白质产量和合成生物学的发展[12,13]。
罗布麻是一种极具耐盐、耐旱的生态、经济、药用植物,能在盐碱地和荒漠等恶劣的自然条件下生长。黄酮类化合物是罗布麻主要的活性成分。目前罗布麻的研究主要集中于次生代谢产物的提取分离纯化[14]及生理研究[15],缺少罗布麻黄酮类化合物相关基因的功能研究。罗布麻AvFLS基因作为罗布麻黄酮类化合物合成通路中的关键调控基因发挥着重要的作用。目前,有关AvFLS基因密码子研究仍为空白,因此开展AvFLS基因密码子相关研究具有重要意义。本课题组已克隆出AvFLS基因,这为进一步开展AvFLS基因功能和表达模式的研究奠定了基础。本研究比较分析AvFLS基因与其他物种中与黄酮醇代谢相关的FLS基因,明确AvFLS基因的密码子偏好性与进化关系,同时,通过比较罗布麻AvFLS和模式生物密码子频率,确定合适的异源表达宿主,为后续探究AvFLS基因的功能特别是异源表达提供一定参考。
1材料与方法
1.1序列数据来源
AvFLS(GenBank登录号:MK391176.1)全长为1212bp,含有一个1008bp的开放阅读框(ORF),编码335个氨基酸[16]。水稻、玉米、烟草等26个物种的FLS基因序列来源于GenBank(https://www.ncbi.nlm.nih.gov/genbank/),登录号见表1.拟南芥(Arabidopsis thaliana)、烟草(Nicotiana tabacum)、番茄(Solanum lycopersicum)、甜菜(Beta vulgaris)、蒺藜苜蓿(Medicago truncatula)、大肠杆菌(Escherichia coli)及酵母菌(Saccharomyces cerevisiae)基因组密码子偏好性数据来源于密码子使用数据库Codon Usage Database(http://www.kazusa.or.jp/codon/)[14]。
1.2密码子偏好性参数分析
参照彭丽云等和赵耀等的数据分析方法[17,18],采用CodonW软件和EMBOSS[19]在线程序CHIPS(http://www.bioinformatics.nl/emboss-explorer/)和CUSP(http://www.bioinformatics.nl/emboss-explorer/)分析比较不同物种FLS基因的编码序列(coding sequence,CDS)的密码子使用参数。
1.3密码子碱基组成分析
分析密码子的碱基组成规律可揭示造成密码子偏好性形成的原因。参考赵春丽等的方法[20],使用Excel 2010等软件对FLS基因密码子相关参数进行统计分析并绘图。
1.4进化树构建及聚类分析
使用MEGA 7.0邻接法(Neighbor-joining)构建不同物种FLS基因的CDS系统进化树。以不同物种间FLS基因同义密码子相对使用度RSCU作为变量,采用TBtools[21]对不同物种FLS基因的RSCU值进行分层聚类分析。
1.5数据统计分析
采用SPSS 22.0[20]对密码子偏好性参数进行Pearson相关性分析。
1.6AVFLS基因受体系统的选择
选择罗布麻黄酮醇合成酶基因的合适表达宿主,计算其与多个模式物种基因组密码子使用频率之间的比值,确定最合适的异源表达受体[18]。
2结果与分析
2.1AvFLS密码子使用偏好性
2.1.1AvFLS基因有效密码子数、GC及密码子适应指数
AvFLS的有效密码子数(ENc)值为47.09,表明AvFLS的密码子大都可以均匀利用,但也存在一定选择偏好性。研究结果表明,结果显示AvFLS中密码子的GC含量为39.48%,GC1含量为51.49%,GC2含量为31.55%,GC3含量为35.42%,见表1,说明AvFLS的GC含量较低,同时比较偏爱A或U结尾.AvFLS的密码子适应指数(CAI)值为0.2,远低于1.0,进一步表明AvFLS基因偏好性较弱.
2.1.2AvFLS同义密码子的相对使用度RSCU
当密码子的RSCU值等于1时,说明能够平均的使用该密码子,超过1时,说明其出现频率高于期望值,表现为使用率较好,反之则较差。图1显示了AvFLS的RSCU分析结果,其偏好性密码子27个,有22个以A/U结尾,G/C结尾的有5个,进一步表明AvFLS偏爱以A/U密码子。罗布麻FLS蛋白中亮氨酸和精氨酸残基的主要密码子分别是CUU和AGA。密码子UCA、CUU、GCA、ACU的RSCU≥2,具有优先选择性。另外,密码子UAU、UAC的RSCU值在翻译酪氨酸(Tyr)时为1,没有使用偏好。CUC、GUA、UCG、CCG、ACG、GCG、CGU和CGG等RSCU值为0的密码子,表明AvFLS缺失这些密码子。
2.2不同物种间FLS基因密码子使用偏好性
2.2.1密码子偏好性相关参数
表1显示了FLS基因密码子偏好性参数。草本植物FLS基因的CAI值、ENc和GC值存在明显的差异,与此相反木本植物差异较小。草本植物的GC、GC1、GC2、GC3、GC12、GC3s、ENc、CAI平均值分别为49.98%、56.25%、35.36%、58.34%、45.81%、56.2%、50.03、0.210,与木本植物密码子偏好性数据平均值47.54%、54.76%、35.01%、52.83%、44.89%、50.57%、55.50、0.216没有明显差异.单子叶植物GC、CAI及ENc平均值为56.56%、0.233和54.67,说明单子叶植物FLS基因的密码子偏好性较强,表示其可能具有较高的基因表达丰度.双子叶植物GC、CAI及ENc平均值分别为45.55%、0.202、53.79,表明双子叶植物密码子的偏好性较弱,尤其是银杏,其FLS基因对密码子的选择完全随机(ENc=61).AvFLS基因与双子叶植物中的烟草、忍冬、杜仲、矮牵牛、橡胶树及富含黄酮类化合物的番茄等的FLS基因的ENc值为46.01-53.37,平均值为49.64,说明罗布麻AvFLS基因具有双子叶植物密码子偏好性的典型特征。
图1 AvFLS基因同义密码子相对使用度(RSCU)分析。下划线表示罗布麻AvFLS基因对该密码子的使用频率较高。
2.2.2不同物种FLS基因中性
利用SPSS 22.0对密码子GC含量、ENc、CAI及密码子数目进行关联分析,结果(表2)显示不同物种FLS基因GC与GC1、GC2、GC3呈显著性正相关,表示密码子3个碱基组成比较相似,GC、GC1、GC3与ENc呈极显著负相关(P<0.01),GC2与ENc呈显著负相关(P<0.05),表明GC含量越大,则ENc值越小,密码子偏好性越强。ENc与密码子数目N之间未达到显著水平,说明密码子数目对ENc的影响较弱﹐即排除了基因序列长度对密码子偏好性的影响。采用中性分析法(图2)对不同物种的FLS基因进行了分析,结果表明,GC3范围35.42%-95.18%,GC12范围为41.52%-53.90%,GC12范围较小,且大部分分布在回归线左右两侧;线性归系数和显著性相关水平分别为0.732和0.859(P<0.01),与Pearson的关联分析一致,不同物种的FLS基因GC12和GC3的碱基组成无明显差异.AvFLS基因位于回归线的左侧,与双子叶草本植物的FLS基因分布关系密切.罗布麻AvFLS基因密码子的偏好性主要受突变压力的影响。
表1 不同物种间FLS基因密码子选择偏好性分析
表2 不同物种FLS基因密码子成分相关性分析(Pearson分析)
*表示显著相关(P<0.05),**表示极显著相关(P<0.01)。
图2 FLS基因密码子使用偏好性中性绘图
2.2.3不同物种FLS基因ENc
ENc不仅表示密码子使用的偏好性,还可以鉴定碱基组成在物种进化过程中形成独特的密码子偏好性的作用。ENc和GC3的期望曲线可以证明它们在突变压力上的对应关系。研究结果(图3)表明,除银杏和台湾相思的基因位点位于期望曲线上方,其余均位于期望曲线下方,同时GC3s值在0.354 2-0.951 8之间,表明FLS的密码子偏好性主要受突变压力的作用.FLS基因分散分布表明受到突变压力的影响程度不同,同时还受自然选择的影响[22,23,24]。
2.2.4不同物种FLS基因PR2
奇偶偏好性结果(图4)显示不同物种FLS基因的坐标值均偏离了0.5,从横纵坐标来看,AvFLS基因密码子第3位碱基T的使用频率高于A,G/C的使用频率中密码子第三位对G具有偏好性。若FLS基因完全受到突变压力的作用,A/T和G/C的使用频率应相等[23],因此不同物种FLS基因进化过程中突变压力与自然选择均会影响密码子偏好性。
2.2.5不同物种FLS基因RSCU及CDS的聚类
通过邻接法对37个FLS基因序列构建系统进化树。结果(图5)显示,基因CDS序列与氨基酸序列聚类结果大致相同。由进化树可知26个物种可聚为7小枝:草本植物中双子叶植物聚为一个小支,罗布麻AvFLS基因与合瓣花亚纲的番茄、矮牵牛、烟草、忍冬、桔梗以及原始花被亚纲杜仲的FLS基因聚为1支,其ENc值差异较小(46.01≤Enc≤57.56),但GC3含量却差异较大(35.42%≤GC3≤60.24%),可能是杜仲密码子偏好性受第三位GC含量影响较大。草本植物中单子叶植物玉米、水稻、水仙、葡萄风信子、铁皮石斛、洋葱、蝴蝶兰、蕙兰的ENc值和GC3含量相似度较高聚为一支。拟南芥6个黄酮醇合成酶基因单独聚为一支。木本植物中茄科植物橡胶树、木薯、茶树、台湾相思树和葡萄的1个基因等聚为1个分支。木本植物中蔷薇科的物种苹果、樱桃、蔷薇和西洋梨和鼠李目的葡萄4个基因聚为一个分支。裸子植物银杏单独聚为一支。
图3 FLS相关基因有效密码子数(ENc)含量的分布。
图4 奇偶偏好偏差分析A3、T3、G3、C3分别表示密码子第三位上各个碱基的含量。红色数据标记点为罗布麻FLS基因。
RSCU值为变量,采用TBtools进行聚类分析和热图分析,结果见图6.这些物种在FLS基因系统进化树的基础上略有差异,分为8个小支.单子叶植物葡萄风信子、水稻和两条玉米的FLS基因聚为一支。合瓣花亚纲的番茄、烟草、忍冬、桔梗、罗布麻、矮牵牛及原始花被亚纲的橡胶树等则较接近,聚为一支。铁皮石斛单独聚为一支;蔷薇目的杜仲和台湾相思树与百合目的水仙聚为一支。兰科的蝴蝶兰和蕙兰与十字花科的4条拟南芥FLS基因聚为一支。拟南芥、玉米和葡萄各有1条FLS基因聚为一支。木本植物西洋梨、苹果、甜樱桃、银杏、茶树、木薯、蔷薇和2条葡萄FLS基因聚为一支。洋葱和1条拟南芥基因以及2条葡萄FLS基因归为一类。
表3 罗布麻FLS基因与常见模式生物基因组密码子使用偏好性比较
2.3AvFLS受体系统的选择
密码子使用频率的比值能衡量物种间密码子使用偏好差异[25]。将罗布麻FLS基因与模式物种基因组密码子使用频率进行比较,见表3通常认为比值介于0.5-2.0时物种间密码子的使用特性[26]较一致,AvFLS含有23个与大肠杆菌密码子频率差异性较大的密码子,所以仅有12个差异密码子的酵母菌更适合做罗布麻FLS基因的真核表达载体[17].罗布麻FLS基因模式植物基因组偏好性差异较小,都只有10个左右差异较大的密码子,表明5个模式植物均可作为AvFLS的异源表达受体。
图5 基于FLS基因CDS的系统发育树。
3讨论与结论
长期以来,在自然进化过程中,受多种因素共同作用,生物对密码子的使用有一定的偏好。本文中结合Pearson相关性,中性绘图、ENc-plot绘图综合分析,发现罗布麻FLS基因密码子偏好性主要受到突变压力的作用。这与李蓉等人在兰科植物FNR基因的研究结果[24]相似;苋菜蓝光受体基因AmCRY1、转录因子AmMYB2基因、AtGAI基因主要受突变压力的作用形成密码子偏好性[18,20,28];蒺藜苜蓿叶绿体密码子的偏好性主要受到选择突变的影响[29];陈哲等人研究发现菠萝基因密码子的偏好性经过长期进化受到了自然选择和突变的共同作用[30]。而在水稻叶绿体基因组密码子偏好性形成过程中自然选择为主要影响因素,突变压力这方面起到了次要作用[31]。综合分析,认为FLS基因密码子偏好性主要受到突变压力的作用,但也受转录翻译、基因表达量、自然选择等因素影响。
本研究对罗布麻FLS基因进行PR2-plot绘图分析密码子第3位的碱基含量,发现第3位碱基富含A和T,且偏好以T结尾。ENc值47.09远大于35,一般认为ENc≤35时密码子使用具有明显的偏好,ENc≥50时则认为偏好程度较低[34]。结果表明,草本植物FLS基因密码子的选择偏好程度比木本植物强,可能有较高的基因表达丰度。除一条玉米的FLS基因,其余单子叶植物FLS基因偏爱使用GC结尾的密码子,与Wang等双子叶植物中A或T在密码子的第3位大多被过度使用,而G/C结尾的密码子大都被单子叶植物使用的结论[33]一致。双子叶植物中草本植物(除杜仲外和5条拟南芥FLS基因)及木本植物中橡胶、木薯、茶树偏向以A/T结尾;鼠李目的杜仲和蔷薇目植物葡萄、樱桃、苹果、台湾相思树、蔷薇和西洋梨等可能因环境、FLS基因类型和功能的差异,或更好地发挥生物学功能偏向使用以G/C结尾的密码子[34]。这与赵春丽等发现蔷薇科植物GAI基因的密码子在进化过程中也偏好以G/C结尾的结果[20]相似。这表明不同植物的FLS基因的碱基组成不同,影响密码子偏好性的因素也存在差异,可能还受到基因功能、基因碱基组成、基因表达量和蛋白质结构多方面的影响[27,35]。
图6 FLS相关基因的RSCU值聚类分析
FLS基因的CDS序列进化树和RSCU值聚类分析的比较结果表明,FLS基因CDS的差异大小更符合亲缘关系的分类规律,而密码子偏好性的聚类分析结果可能很好地反映了FLS基因的某些特异性进化规律(如能把木本和草本区分开来)。因此,为了准确地反映不同物种的进化历史,结合RSCU值聚类分析与CDS序列进化分析是更好的选择[35]。这与李蓉和王晓等人的研究结果[27,28]相似。
罗布麻黄酮醇合成酶基因密码子使用特点与大肠杆菌的差异较大,酵母真核表达系统更适用于罗布麻FLS基因异源表达[36]。如要以大肠杆菌为宿主,需对密码子进行优化。通过优化编码序列,甚至可以使基因表达量提高1 000倍[37],但是通过密码子优化算法的部分基因序列与原始基因相比,表达量也可能偏低,这可能是基因的表达还受到翻译延伸过程中的影响[38]。目前改进植物CRISPR激活系统可以提高烟草内源DFR基因表达量10 000倍[39],这为提高植物目的基因表达量提供了新的方向。不同模式植物之间的对比发现,5种植物均可作为罗布麻黄酮醇合成酶基因FLS的遗传转化受体。刘晓等人构建苹果FLS基因原核表达载体并转化到大肠杆菌,在体外诱导可产生苹果FLS蛋白并具有催化活性[40]。齐月英在定向转化小麦黄酮醇合成酶TaFLS2基因的过表达转基因拟南芥中,不仅发现TaFLS2基因具有催化活性,还增强了黄酮醇的合成能力[41]。然而,过表达目的基因的编码区与受体内源基因存在较高的同源性时,可能会导致转基因与内源基因的表达同时受到抑制出现共抑制现象[42]。在拟南芥中过量表达拟南芥AtCYP1基因和烟草中过表达NtFLS2基因,均发现过表达目的基因表达量降低的共抑制植物株系[43,44]。综上所述,目标基因能否高效表达还受到基因表达和蛋白生物合成等因素的限制,同时细胞生理学之间的分子机制仍有许多未知,如何实现罗布麻FLS基因高效遗传转化需要更进一步的研究。
AvFLS基因是罗布麻黄酮醇积累的关键基因,分析其密码子偏好性和选择合适的异源表达受体为深入研究其进化规律、表达调控和后续开展基因功能预测奠定了一定基础。本文通过生物信息学数据分析确定了罗布麻FLS基因偏好以A/T结尾的密码子,具有双子叶植物的典型特征。罗布麻FLS基因适宜以基因组密码子偏好性较小酵母细胞为受体,但也可以选择优化密码子以大肠杆菌宿主。拟南芥、烟草、番茄、甜菜、蒺藜苜蓿与AvFLS基因密码子偏好性差异较小,均可作为其异源表达植物受体。本文初步探明了AvFLS基因合适的异源表达宿主,但后续过表达载体的构建、抗生素筛选标记的选择,以及基因能否在宿主中稳定高效的表达等还需要进行进一步探究。
参考文献
[6]Froemel S,Vlaming PD,Stotz G,Wiering H,Forkmann G,Schram AW.Genetic and biochemical studies on the conversion of flavanones to dihydroflavonols in flowers of Petunia hybrida[J].Theor Appl Genet,1985,70(5):561-568.
[9]Guo XN,Wang YL,Wang SM. Complete chloroplast genome sequences from yellowhorn(Xanthoceras sorbifolia)and evolution analysis based on codon usage bias[J].Int J Agric Biol,2020,24:676-684
[21]Chen C,Chen H,Zhang Y,Thomas HR,Frank MH,He YH,XIA R.TBtools:an integrative toolkit developed for interactive analyses of big biological data[J].Mol Plant,2020,13(8):1194-1202
[23]Zhang WJ,Zhou J,Li ZF,Wang L,Gu X, Zhong Y.Comparative analysis of c odon usage pat ter ns among mitochondr ion,chloroplast and nuclear genes in Triticum aestivum L.[J].J Integr Plant Biol,2007,49(2):246-254
[32]Wright F.The effective number of codons used in a gene[J].Gene,1990,87(1):23-29
文章摘自:蔡德育,郭晓农,朱月滢,赵诗佳,朱玉雪,柏家林,马忠仁.罗布麻AvFLS密码子偏好性与进化[J].应用与环境生物学报,2022,28(02):423-431.DOI:10.19675/j.cnki.1006-687x.2020.11008.
