匿名
未登录
登录
医学百科
搜索
查看“RefSeq”的源代码
来自医学百科
名字空间
页面
更多
更多
语言
页面选项
Read
查看源代码
历史
←
RefSeq
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center; | headerstyle = background: #eeeeee; font-weight: bold; | above = 参考序列数据库<br><small>RefSeq</small> | image = | label1 = 全称 | data1 = NCBI Reference Sequence Database | label2 = 维护机构 | data2 = [[NCBI]] | label3 = 核心特征 | data3 = '''非冗余''' (Non-redundant)、<br>经过人工审编 (Curated) | label4 = 核心用途 | data4 = 基因组注释、变异检测标准、<br>引物设计 | label5 = 典型前缀 | data5 = NM_ (mRNA), NP_ (蛋白),<br>NG_ (基因组) | label6 = 对AI价值 | data6 = 标准化的训练基准 (Ground Truth) }} '''RefSeq'''(Reference Sequence Database),即'''NCBI 参考序列数据库''',是一个由美国国家生物技术信息中心([[NCBI]])维护的公开数据库。它提供了一套全面的、整合的、经过注释的非冗余序列集合,涵盖了 DNA、RNA 和蛋白质。 在生物医学界,RefSeq 被视为“金标准”。当您的“基因医生”系统告诉患者“您的 P53 基因发生了突变”时,潜台词实际上是:“您的 P53 基因序列与 RefSeq 中的标准序列(如 `NM_000546`)不一致”。<ref name="RefSeq_Paper" /> == 核心前缀体系 (AI必须识别的编码) == RefSeq 使用独特的前缀系统来区分不同的分子类型。您的 AI 数据清洗脚本必须能够精准识别这些 ID: {| class="wikitable" ! 前缀 !! 分子类型 !! 含义 !! 您的业务场景 |- | '''NM_''' || mRNA || 经过实验验证的转录本 || '''最核心'''。临床报告中描述 cDNA 突变(如 c.524G>A)必须基于 NM 编号。 |- | '''NP_''' || 蛋白质 || 对应的蛋白序列 || 用于描述氨基酸层面的改变(如 p.R175H)。 |- | '''NG_''' || 基因组 || 基因组区域 || 用于描述跨越内含子的大片段缺失或扩增(CNV)。 |- | '''XM_ / XP_''' || mRNA/蛋白 || 模型预测 (未验证) || '''慎用'''。这些是计算机算出来的,未经人工确认,临床准确度较低。 |} == RefSeq 与 GenBank 的区别 == 这是构建数据库时的核心架构问题: * '''GenBank (存档库)''': ** '''多余性''':如果有 100 个实验室测了同一个胰腺癌基因,GenBank 里就会有 100 条记录(良莠不齐)。 ** '''所有权''':记录属于提交者,NCBI 无权修改错误,只能等作者改。 * '''RefSeq (标准库)''': ** '''非冗余''':NCBI 专家从那 100 条里挑出(或合成)最好的一条,作为“标准答案”。 ** '''所有权''':归 NCBI 所有,专家会根据最新科研进展实时修正注释。 ** ''结论'':您的 AI 训练集输入可以包含 GenBank 以增加多样性,但'''输出标准(Ground Truth)必须是 RefSeq'''。 == MANE 项目 (临床新标准) == 对于您的“智慧医生”项目,这是一个非常高端的知识点。 * '''问题''':过去,美国的 NCBI (RefSeq) 和欧洲的 EBI (Ensembl) 对同一个基因的定义有时不一样(比如外显子长度不同),导致跨国临床数据打架。 * '''解决方案''':'''MANE''' (Matched Annotation from NCBI and EMBL-EBI)。这是一套美欧统一的“超级标准”。 * '''建议''':在您的临床报告中,优先引用 '''MANE Select''' 转录本,这是目前国际遗传学界推荐的最佳实践。 == 对 AI 药物研发的价值 == * '''靶点确认''':在设计针对特定蛋白(如 KRAS G12D)的药物时,必须依据 RefSeq 的 `NP_` 序列来构建蛋白质三维结构模型(AlphaFold 通常也是基于参考序列预测)。 * '''脱靶分析''':使用 [[BLAST]] 将药物设计的序列(如 siRNA)与 RefSeq 全库比对,以确保它不会意外结合到其他重要的正常基因上。 == 参见 == * [[GenBank]] * [[NCBI]] * [[BLAST]] * [[ClinVar]] - 变异必须基于RefSeq描述 * [[人类基因组计划]] == 参考资料 == <references> <ref name="RefSeq_Paper">O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. ''Nucleic Acids Research'', 44(D1), D733-D745. [https://academic.oup.com/nar/article/44/D1/D733/2502662]</ref> </references> [[Category:生物信息学]] [[Category:在线数据库]] [[Category:基因组学]]
该页面使用的模板:
模板:Infobox
(
查看源代码
)
模板:Infobox/row
(
查看源代码
)
返回至
RefSeq
。
导航
导航
症状百科
疾病百科
药品百科
中医百科
中药百科
人体穴位图
全国医院列表
功能菜单
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志