匿名
未登录
登录
医学百科
搜索
查看“GATK”的源代码
来自医学百科
名字空间
页面
更多
更多
语言
页面选项
Read
查看源代码
历史
←
GATK
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
<div style="padding: 0 4%; line-height: 1.8; color: #1e293b; font-family: 'Helvetica Neue', Helvetica, 'PingFang SC', Arial, sans-serif; background-color: #ffffff; max-width: 1200px; margin: auto;"> <div style="margin-bottom: 30px; border-bottom: 1.2px solid #e2e8f0; padding-bottom: 25px;"> <p style="font-size: 1.1em; margin: 10px 0; color: #334155; text-align: justify;"> <strong>GATK</strong>(Genome Analysis Toolkit,<strong>基因组分析工具包</strong>)是由 <strong>[[Broad Institute]]</strong> 开发的一套用于分析高通量测序数据([[NGS]])的行业标准软件套件。 <br>它最初设计用于人类基因组计划及后续的国际单倍体图谱计划(HapMap),现已成为全球检测<strong>生殖系变异</strong>(Germline SNPs/Indels)的“金标准”。随着版本迭代(目前为主流的 GATK4),它也整合了<strong>[[Mutect2]]</strong> 等工具,具备了强大的体细胞突变(癌症)检测及拷贝数变异([[CNV]])分析能力。 <br>GATK 不仅是一个软件,更代表了一套严谨的数据处理流程规范,被称为 <strong>GATK Best Practices</strong>。 </p> </div> <div class="medical-infobox mw-collapsible mw-collapsed" style="width: 100%; max-width: 320px; margin: 0 auto 35px auto; border: 1.2px solid #bae6fd; border-radius: 12px; background-color: #ffffff; box-shadow: 0 8px 20px rgba(0,0,0,0.05); overflow: hidden;"> <div style="padding: 15px; color: #1e40af; background: linear-gradient(135deg, #e0f2fe 0%, #bae6fd 100%); text-align: center; cursor: pointer;"> <div style="font-size: 1.2em; font-weight: bold; letter-spacing: 1.2px;">GATK</div> <div style="font-size: 0.7em; opacity: 0.85; margin-top: 4px; white-space: nowrap;">Genome Analysis Toolkit (点击展开)</div> </div> <div class="mw-collapsible-content"> <div style="padding: 25px; text-align: center; background-color: #f8fafc;"> <div style="font-size: 0.8em; color: #64748b; margin-top: 12px; font-weight: 600;">变异检测的“工业标准”</div> </div> <table style="width: 100%; border-spacing: 0; border-collapse: collapse; font-size: 0.85em;"> <tr> <th colspan="2" style="padding: 8px 12px; background-color: #e0f2fe; color: #1e40af; text-align: left; font-size: 0.9em; border-top: 1px solid #bae6fd;">软件档案</th> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0; width: 40%;">开发者</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #0f172a;">[[Broad Institute]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">编写语言</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #1e40af;">[[Java]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">开源协议</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #16a34a;">BSD 3-Clause (v4起)</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">主要输入</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #0f172a;">[[BAM]] / CRAM / [[FASTQ]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">主要输出</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #0f172a;">[[VCF]] / [[gVCF]]</td> </tr> <tr> <th colspan="2" style="padding: 8px 12px; background-color: #e0f2fe; color: #1e40af; text-align: left; font-size: 0.9em; border-top: 1px solid #bae6fd;">核心组件</th> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">生殖系变异</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #1e40af;">[[HaplotypeCaller]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">体细胞变异</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #1e40af;">[[Mutect2]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569; border-bottom: 1px solid #e2e8f0;">质量校正</th> <td style="padding: 6px 12px; border-bottom: 1px solid #e2e8f0; color: #0f172a;">[[BQSR]]</td> </tr> <tr> <th style="text-align: left; padding: 6px 12px; background-color: #f8fafc; color: #475569;">变异过滤</th> <td style="padding: 6px 12px; color: #0f172a;">[[VQSR]] / CNN</td> </tr> </table> </div> </div> <h2 style="background: #f1f5f9; color: #0f172a; padding: 10px 18px; border-radius: 0 6px 6px 0; font-size: 1.25em; margin-top: 40px; border-left: 6px solid #0f172a; font-weight: bold;">GATK 最佳实践流程 (Best Practices)</h2> <p style="margin: 15px 0; text-align: justify;"> GATK 的核心价值在于它定义了一套从原始数据到高质量变异列表的完整工作流。主要分为三个阶段: </p> <div style="overflow-x: auto; margin: 20px auto;"> <table style="width: 100%; border-collapse: collapse; border: 1.2px solid #cbd5e1; font-size: 0.9em; text-align: left;"> <tr style="background-color: #f1f5f9; border-bottom: 2px solid #0f172a;"> <th style="padding: 12px; border: 1px solid #cbd5e1; color: #0f172a; width: 25%;">阶段</th> <th style="padding: 12px; border: 1px solid #cbd5e1; color: #1e40af; width: 35%;">核心步骤 (Tools)</th> <th style="padding: 12px; border: 1px solid #cbd5e1; color: #475569; width: 40%;">目的</th> </tr> <tr> <td style="padding: 10px; border: 1px solid #cbd5e1; font-weight: 600;">数据预处理<br>(Pre-processing)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;">1. Map to Reference (BWA)<br>2. <strong>MarkDuplicates</strong> (Picard)<br>3. <strong>BaseRecalibrator</strong> (BQSR)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;">纠正测序仪的系统性偏差,去除 [[PCR重复]],校准碱基质量分数。</td> </tr> <tr> <td style="padding: 10px; border: 1px solid #cbd5e1; font-weight: 600;">变异检测<br>(Variant Discovery)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;"><strong>[[HaplotypeCaller]]</strong> (Germline)<br><strong>[[Mutect2]]</strong> (Somatic)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;">基于局部单倍体组装技术,生成原始的 [[VCF]] 或 [[gVCF]] 文件。</td> </tr> <tr> <td style="padding: 10px; border: 1px solid #cbd5e1; font-weight: 600;">变异过滤<br>(Refinement)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;"><strong>[[VQSR]]</strong> (大数据集)<br><strong>CNNScoreVariants</strong> (深度学习)</td> <td style="padding: 10px; border: 1px solid #cbd5e1;">利用统计模型区分真实的生物学变异和测序假阳性噪音。</td> </tr> </table> </div> <h2 style="background: #f1f5f9; color: #0f172a; padding: 10px 18px; border-radius: 0 6px 6px 0; font-size: 1.25em; margin-top: 40px; border-left: 6px solid #0f172a; font-weight: bold;">核心算法:HaplotypeCaller</h2> <p style="margin: 15px 0; text-align: justify;"> GATK 的灵魂在于其变异检测器 <strong>[[HaplotypeCaller]]</strong>。与早期的基于位点(Pileup-based)的工具不同,它是“基于组装”的。 </p> <div style="background-color: #f0f9ff; border-left: 5px solid #1e40af; padding: 15px 20px; margin: 20px 0; border-radius: 4px;"> <ul style="margin: 0; padding-left: 20px; color: #334155;"> <li style="margin-bottom: 12px;"><strong>Active Region (活性区域):</strong> 软件首先快速扫描基因组,找到那些与参考基因组差异显著的“活性区域”。</li> <li style="margin-bottom: 12px;"><strong>Local Assembly (局部组装):</strong> 在这些区域内,抛弃原有的比对结果,利用 De Bruijn 图算法对 Reads 进行<strong>重新组装</strong>,构建出可能的单倍体序列(Haplotypes)。这一步极大提高了 Indel 的检测准确性。</li> <li style="margin-bottom: 0;"><strong>PairHMM (配对隐马尔可夫模型):</strong> 将每一条 Read 与构建出的单倍体进行比对,计算似然值(Likelihood),最终确定基因型。</li> </ul> </div> <div style="font-size: 0.92em; line-height: 1.6; color: #1e293b; margin-top: 50px; border-top: 2px solid #0f172a; padding: 15px 25px; background-color: #f8fafc; border-radius: 0 0 10px 10px;"> <span style="color: #0f172a; font-weight: bold; font-size: 1.05em; display: inline-block; margin-bottom: 15px;">关键相关概念 [Key Concepts]</span> <p style="margin: 12px 0; border-bottom: 1px solid #e2e8f0; padding-bottom: 10px;"> <strong>1. BQSR (Base Quality Score Recalibration):</strong> 碱基质量重校准。测序仪输出的质量值(Quality Score)往往不准确。GATK 利用已知的 SNP 数据库(如 [[dbSNP]])作为训练集,通过机器学习重新计算每个碱基的真实错误率,消除系统误差。 </p> <p style="margin: 12px 0; border-bottom: 1px solid #e2e8f0; padding-bottom: 10px;"> <strong>2. gVCF (Genomic VCF):</strong> GATK 引入的一种特殊的 VCF 格式。它不仅记录了“变异位点”,还记录了“非变异位点”的信息(以此证明该区域被测序且确认无变异)。这对于后续的多样本联合分析(Joint Genotyping)至关重要。 </p> <p style="margin: 12px 0;"> <strong>3. PL (Phred-scaled Likelihoods):</strong> 在 GATK 输出的 VCF 中最常见的字段之一。它表示三种基因型(0/0, 0/1, 1/1)的相对可能性。PL=0 的那个基因型即为软件判定的最可能的基因型。 </p> </div> <div style="font-size: 0.92em; line-height: 1.6; color: #1e293b; margin-top: 20px; border-top: 2px solid #0f172a; padding: 15px 25px; background-color: #ffffff;"> <span style="color: #0f172a; font-weight: bold; font-size: 1.05em; display: inline-block; margin-bottom: 15px;">学术参考文献 [Academic Review]</span> <p style="margin: 12px 0; border-bottom: 1px solid #e2e8f0; padding-bottom: 10px;"> [1] <strong>McKenna A, et al. (2010).</strong> <em>The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data.</em> <strong>[[Genome Res]]</strong>. <br> <span style="color: #475569;">[点评]:GATK 的奠基之作。介绍了其早期的 MapReduce 架构设计,标志着大规模基因组分析时代的开始。</span> </p> <p style="margin: 12px 0; border-bottom: 1px solid #e2e8f0; padding-bottom: 10px;"> [2] <strong>DePristo MA, et al. (2011).</strong> <em>A framework for variation discovery and genotyping using next-generation DNA sequencing data.</em> <strong>[[Nat Genet]]</strong>. <br> <span style="color: #475569;">[点评]:确立了 GATK 在处理 INDEL 和质量校正(recalibration)方面的核心算法优势。</span> </p> <p style="margin: 12px 0;"> [3] <strong>Van der Auwera GA, et al. (2013).</strong> <em>From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline.</em> <strong>[[Curr Protoc Bioinformatics]]</strong>. <br> <span style="color: #475569;">[点评]:最经典的实操指南。定义了至今仍被广泛遵循的“GATK Best Practices”标准流程。</span> </p> </div> <div style="margin: 40px 0; border: 1px solid #e2e8f0; border-radius: 8px; overflow: hidden; font-family: 'Helvetica Neue', Arial, sans-serif; font-size: 0.9em;"> <div style="background-color: #eff6ff; color: #1e40af; padding: 8px 15px; font-weight: bold; text-align: center; border-bottom: 1px solid #dbeafe;"> 生物信息学 · 知识图谱 </div> <table style="width: 100%; border-collapse: collapse; background-color: #ffffff;"> <tr style="border-bottom: 1px solid #f1f5f9;"> <td style="width: 85px; background-color: #f8fafc; color: #334155; font-weight: 600; padding: 10px 12px; text-align: right; vertical-align: middle;">上级分类</td> <td style="padding: 10px 15px; color: #334155;">[[生物信息学]] • 变异检测软件</td> </tr> <tr style="border-bottom: 1px solid #f1f5f9;"> <td style="width: 85px; background-color: #f8fafc; color: #334155; font-weight: 600; padding: 10px 12px; text-align: right; vertical-align: middle;">核心算法</td> <td style="padding: 10px 15px; color: #334155;">[[HaplotypeCaller]] • [[Mutect2]] • PairHMM</td> </tr> <tr> <td style="width: 85px; background-color: #f8fafc; color: #334155; font-weight: 600; padding: 10px 12px; text-align: right; vertical-align: middle;">关联工具</td> <td style="padding: 10px 15px; color: #334155;">[[Picard]] • [[Samtools]] • [[BWA]]</td> </tr> </table> </div> </div>
返回至
GATK
。
导航
导航
症状百科
疾病百科
药品百科
中医百科
中药百科
人体穴位图
全国医院列表
功能菜单
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志