1.找出这种细胞物种的PTN全长核苷酸序列
2.采用primer premier 5.0软件设计引物设计应注意如下要点:
1. 引物的长度一般为15-30 bp,常用的是18-27 bp,但不应大于38,因为过长会导致
其延伸温度大于74℃,不适于Taq DNA聚合酶进行反应[2]。
2. 引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易
导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发机率增加[2]。
3. 引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错
配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A[3][4]。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物[2]。 4. 引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的
GC含量不能相差太大[2][5]。
5. 引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有
多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(the nearest neighbor method) [6][7]。
6. ΔG值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳
定性。应当选用3’端ΔG值较低(绝对值不超过9),而5’端和中间ΔG值相对较高的引物。引物的3’端的ΔG值过高,容易在错配位点形成双链结构并引发DNA聚合反应[6]。
7. 引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,
并且降低引物有效浓度而使PCR反应不能正常进行[8]。 8. 对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的
载体的相应序列而确定。如果文献上的这个基因跟你是同一物种来源的话 是可以运用别人的引物
看看他的引物是基因组的还是cDNA的。cDNA的可以直接用。基因组的就再看看了好的引物对实验进程不会延缓
我觉得在涉及引物只要遵循以下的原则,一般是没什么问题!我是从来不借助什么专业软件来设计,按照自己的需要选取就是了,一般20bp,不浪费!到目前还没有失败过! 引物设计和选择目的DNA序列区域时可遵循下列原则:
(1) 引物长度约为16-30bp, 太短会降低退火温度影响引物与模板配对,从而使非特异性增高。太长则比较浪费,且难以合成。
(2) 引物中G+C含量通常为40%-60%,可按下式粗略估计引物的解链温度 Tm=4(G+C)+2(A+T).
(3) 四种碱基应随机分布,在3'端不存在连续3个G或C,因这样易导致错误引发。
(4) 引物3'端最好与目的序列阅读框架中密码子第一或第二位核苷酸对应, 以减少由于密码子摆动产生的不配对。
(5) 在引物内, 尤其在3'端应不存在二级结构。
(6) 两引物之间尤其在3'端不能互补, 以防出现引物二聚体, 减少产量。两引物间最好不存在4个连续碱基的同源性或互补性。
(7) 引物5'端对扩增特异性影响不大, 可在引物设计时加上限制酶位点、核糖 体结合位点、起始密码子、缺失或插入突变位点以及标记生物素、荧光素、地高辛等. 通常应在5'端限制酶位点外再加1-2个保护碱基。
(8) 引物不与模板结合位点以外的序列互补。所扩增产物本身无稳定的二级结构, 以免产生
非特异性扩增,影响产量。
(9) 简并引物应选用简并程度低的密码子, 例如选用只有一种密码子的Met, 3'端应不存在简并性。否则可能由于产量低而看不见扩增产物。
一般PCR反应中的引物终浓度为0.2-1.0μmol/L。引物过多会产生错误引导或产生引物二聚体, 过低则降低产量。利用紫外分光光度计, 可精确计算引物浓度, 在1cm光程比色杯中,260nm下,引物浓度可按下式计算:
X mol/L= OD260/ A(16000)+C(70000)+G(12000)+T(9600) X: 引物摩尔浓度,A、C、G、T: 引物中4种不同碱基个数。
如何查找基因序列
NC表示人类基因组DNA的RefSeq。(链接序列) NM表示mRNA的RefSeq。
NP表示蛋白质的RefSeq 1. 根据文献中已知的基因ID
如果你在文献中看到你感兴趣的基因,而且文中还提到了该基因在Genbank中的ID号,那就好办了,直接打开http://www.ncbi.nlm.nih.gov ,在Search后的下拉框中选择Nucleotide,把Genbank ID号输入GO前面的文本框中,点“GO”,就可以找到了。(如GenBank accession number gi 16151096)”。
2. 根据已经获得的基因的相关信息进行查找
打开http://www.ncbi.nlm.nih.gov/在search后面的下拉框中选择Gene,然后在中间的文本框中输入基因名称“VEGF”,点击GO。搜索结果出来了,点击箭头所指的Limits, Limits的意思其实就是高级检索,你可以在这里对检索词进行很多限制,这样能大大精简查询结果。我们接着来,在Limits这个界面,先选择查询的限定范围:先选Gene name(基因名称);然后再选择Limit by Taxonomy(生物分类限定)中的Homo sapiens(人类),然后再点击“GO”。直接点击基因名称“VEGFA”就可以看到有关基因的信息了。需要指出的是,在Genbank中,基因有很多别名(Aliases),和Genbank中记录的名称有可能不一致。比如在这里,VEGFA是Genbank中记录的基因名称,而它还有很多别名,比如MGC70609, VEGF(这就是我们要找的基因名称 ), VEGF-A, VPF;还有,在这里可以看到该基因在染色体上的位置... 再往下看,可以看到Genomic regions, transcripts, and products,这里显示了该基因在基因组中的位置,以及转录本的生成情况:就看见了目的基因的mRNA的链接(如NM_001025366.1)和蛋白质的链接(如NP_001020537.2 ) 这里得说两句,有的基因也许只有一个编码序列,但有的基因有很多的mRNA剪接体,但都是归在一个基因名称下面。比如,在VEGF基因下面有7个序列,分别是vascular endothelial growth factor A isoform a, isoform c, isoform d, isoform e, isoform f , isoform g, isoform b precursor ,但是哪个是自己想找的基因呢?这就需要根据你自己查阅的文献以及在这些基因序列后面的解释来确定了。如果我想找的基因是第一个序列即isoform a, 就可以点击NM_001025366.1,
ncbi中查找基因序列的方法和三个号码
ncbi首页,点击左侧Genes&Expression,进入后,点击中间页面DATABASES里的GenBank,进入GenBank页面。选CoreNuleotide。搜“Saccharomyces cerevisiae tps1”
一.例子:查找酿酒酵母(Saccharomyces cerevisiae)里的海藻糖合成酶基因(tps1)
即可出现很多条目,找到Saccharomyces cerevisiae的就是NC_001134了,点击后就进入该基因所在染色体的界面了,再在“编辑”中“查找” tps1就可以看该基因所在的位置,再点击CDS或者GeneID:852423都可以出现相关链接!
当然,如果你在文献查到目的蛋白的序列号如NP_009684.1或者GeneID:852423,那分别在Search后选择Protein或者Gene也可以出现相关链接!
二.基因CDS区界面的3个号码
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=50593115&from=488899&to=490386&view=gbwithparts
找到后,我发现该界面有3个标记,一个是NC_001134 ,其次是gi:50593115,最后是FEATURES中的gene中的 /db_xref= “GeneID:852423”,他们分别是什么号码,用在什么地方呢?尝试中,终于发现,
在Search“Nucleotide”或者“Core Nucleotide”时,for后面是NC_001134,最终go到该基因所在染色体全长序列的信息,所以NC_001134应该是该染色体的登录号吧?
在Search“Nucleotide”或者“Core Nucleotide”时,for后面是50593115,最终go到该基因所在染色体全长序列的信息,所以50593115应该是该染色体的号吧?
在Search“Gene”时,for后面是852423,最终go到该基因的信息,所以852423应该是该基因的登录号吧?所以我们如果要记住目的基因在ncbi中的位置就记住这个GeneID! 其他像NP_009684是基因编码的蛋白质的登录号。文献中查到的基因往往给的是Gene ID 三.引物设计第一步--找编码序列的方法
在Search“Gene”时,for后面是852423,最终go到目的基因的信息
点击中的FASTA,获得的就是mRNA的非模板链(其实就是mRNA里的U换成了T),也可以说是CDNA的互补片段,因为与编码的蛋白质一一对应,所以也就是引物设计真正的模板!引物设计后面的PCR要克隆的就是这段序
列!所以千万不要搞错了!点击GENBANK,获得的是CDS区的序列和相关信息,这个CDS区包括CDNA,也包括其他不编码的序列,所以PCR没必要把CDS区全部克隆出来!其实在CDS界面(或者说点击GENBANK后出现的界面里),把Display里的GENBANK(full)改成FASTA也可以!
其实在该界面中我们还可以了解到其他信息
1. 点击reference sequence details,可以看到NP_009684.1,点击他,可以看到目的蛋白质
的信息
2. 点击获得的是目的基因的图谱,然后点击
TPS1后面的sv,也可以看到编码序列了,当然这里的DNA序列和蛋白质一一对应,更说明是设计引物的模板(这个图谱界面也可以在2的点击GENBANK后获得的CDS区中点击852423链接获得,或者说条条链接通罗马!)
四.关于CDS和CDNA的关系
ncbi中的CDS就是编码序列,包括CDNA全部,也含有其他序列,毕竟CDNA是人为根据mRNA反转录得到的,而CDS区生物本身的,有些不编码的序列,好像CDNA是纯净物,CDS有点渣子,呵呵。CDNA的互补序列既然是与编码的蛋白质一一对应的,当然是ATG起始的,TAA TAG TGA终止的。
因篇幅问题不能全部显示,请点此查看更多更全内容