匿名
未登录
登录
医学百科
搜索
查看“GenBank”的源代码
来自医学百科
名字空间
页面
更多
更多
语言
页面选项
Read
查看源代码
历史
←
GenBank
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center; | headerstyle = background: #eeeeee; font-weight: bold; | above = GenBank<br><small>基因银行</small> | image = | label1 = 维护机构 | data1 = [[NCBI]] (美国) | label2 = 成立时间 | data2 = 1982年 | label3 = 所属联盟 | data3 = [[INSDC]] (国际核苷酸序列数据库联盟) | label4 = 数据量 | data4 = > 2.5 亿条序列 (2024年) | label5 = 核心功能 | data5 = 存储公开的 DNA/RNA 序列 | label6 = 关键区别 | data6 = GenBank (存档) vs [[RefSeq]] (标准) | label7 = 对AI价值 | data7 = 基因组学大模型 (Genomic LLM)<br>的训练语料 }} '''GenBank''' 是一个开放获取的核苷酸序列数据库,包含了所有公开的 DNA 和 RNA 序列及其注释信息。它由美国国家生物技术信息中心([[NCBI]])负责维护。 它是现代生命科学研究的基石。无论是新冠病毒的测序,还是癌症基因突变的发现,所有原始序列数据最终都会汇聚于此。GenBank 与欧洲的 **ENA** 和日本的 **DDBJ** 共同组成了 **INSDC** 联盟,三方数据每天同步,确保全球科学家使用的是同一套数据。<ref name="GenBank_Overview" /> == 核心数据结构 (Flat File) == GenBank 使用一种经典的“纯文本”格式(GenBank Flat File)来存储数据。这种格式虽然古老,但至今仍是生物信息学的通用标准: * '''LOCUS''':序列的基本信息(长度、类型、日期)。 * '''ACCESSION''':'''登录号'''(如 `NM_000546`)。这是序列的唯一身份证,您的 AI 系统在引用基因时必须使用此号码,以避免歧义。 * '''FEATURES''':特征表。详细描述了基因的各个部分,如 '''CDS'''(编码区)、'''Exon'''(外显子)、'''Promoter'''(启动子)。AI 可以通过解析这些标签,学习基因的语法结构。 * '''ORIGIN''':实际的碱基序列(A, T, C, G)。 == GenBank vs RefSeq (关键区分) == 这是您的技术团队在开发“基因医生”诊断系统时最容易踩的坑: === 1. GenBank (档案库) === * '''性质''':它是“作者提交什么,就存什么”。 * '''冗余性''':同一个基因可能有几千个不同实验室提交的版本,质量参差不齐,甚至包含错误。 * '''用途''':用于科学研究,查看基因的多样性。 === 2. RefSeq (参考序列库) === * '''性质''':它是 NCBI 官方精选的“标准答案”。 * '''唯一性''':每个基因通常只有一个最佳的 RefSeq 序列。 * '''用途''':'''临床诊断的标准'''。当您的 AI 报告说患者在 `TP53` 基因上有突变时,必须是相对于 `RefSeq` 标准序列(如 hg19 或 hg38)而言的差异。<ref name="NCBI_RefSeq" /> == 数据提交与更新 == * '''BankIt''':基于 Web 的提交工具,用于少量序列提交。 * '''Sequin''':传统的独立软件,用于复杂提交。 * '''数据增长''':GenBank 的数据量呈指数级增长(摩尔定律在生物界的体现),大约每 18 个月翻一番。这要求您的 AI 基础设施必须具备处理 PB 级数据的能力。 == 对 AI 基因组学的价值 == 随着 AI 能够理解“生物语言”(DNA/Protein),GenBank 成为了训练 '''Genomic LLM'''(如 DNABERT, Nucleotide Transformer)的核心语料库。 * '''序列预测''':AI 学习了 GenBank 中的数十亿条序列后,可以预测未知的基因功能或突变后果。 * '''合成生物学''':AI 可以利用这些数据设计出自然界不存在的全新蛋白质序列。 == 参见 == * [[NCBI]] * [[BLAST]] - 搜索 GenBank 的工具 * [[人类基因组计划]] * [[生物信息学]] * [[RefSeq]] == 参考资料 == <references> <ref name="GenBank_Overview">Benson, D. A., et al. (2018). GenBank. ''Nucleic Acids Research'', 46(D1), D41-D47. [https://academic.oup.com/nar/article/46/D1/D41/4766551]</ref> <ref name="NCBI_RefSeq">O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. ''Nucleic Acids Research'', 44(D1), D733-D745.</ref> </references> [[Category:生物信息学]] [[Category:在线数据库]] [[Category:基因组学]]
该页面使用的模板:
模板:Infobox
(
查看源代码
)
模板:Infobox/row
(
查看源代码
)
返回至
GenBank
。
导航
导航
症状百科
疾病百科
药品百科
中医百科
中药百科
人体穴位图
全国医院列表
功能菜单
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志