|
1 | | -# AuroBench |
| 1 | +# 在 MaveDB 与 GEO 上检索基因突变数据(SELEX / DMS / MPRA)——实用教程 |
| 2 | + |
| 3 | + |
| 4 | + |
| 5 | +--- |
| 6 | + |
| 7 | +## 目录 |
| 8 | +- [概述:技术与数据库](#概述技术与数据库) |
| 9 | +- [一、在 MaveDB 检索](#一在-mavedb检索) |
| 10 | +- [二、在 GEO 检索(涵盖 SELEX/MPRA/部分 DMS)](#二在-geo检索涵盖-selexmpra部分-dms) |
| 11 | +- [三、在 ENCODE 检索与下载(RNA/DNA 序列变体/功能)](#三在-encode检索与下载rnadna序列变体功能) |
| 12 | +- [四、下载与整理:字段统一与示例](#四下载与整理字段统一与示例) |
| 13 | +- [常见关键词](#常见关键词) |
| 14 | +--- |
| 15 | + |
| 16 | +## 概述:技术与数据库 |
| 17 | + |
| 18 | + |
| 19 | + |
| 20 | + |
| 21 | +| 内容 | MaveDB | GEO (NCBI GEO) | ENCODE | |
| 22 | +|---|---|---|---| |
| 23 | +| **核心定位** | **MAVEs**(多重并行变体效应实验)结果与元数据的社区数据库,偏 **DMS/MPRA** | 广谱功能基因组/转录组数据索引与归档;**SELEX**、**MPRA**、部分 **DMS** 常见,附补充表与 SRA 原始测序 | 大型功能基因组学门户;覆盖 **RBNS/eCLIP/ChIP-seq/ATAC-seq/MPRA/STARR-seq** 等,并提供 **cCRE**(候选顺式调控元件)注释与高质量元数据 | |
| 24 | +| **数据粒度** | **Project → Experiment → Score set**(逐变体效应表) | **GSE(系列)→ GSM(样本)→ SRA(SRX/SRR)** | **Experiment(实验)→ File(文件)**;并有 **Annotation/Track**(如 cCRE)层级 | |
| 25 | +| **典型用途** | 直接下载 **逐变体效应/打分矩阵**(CSV/TSV)用于建模评测 | 找到 **补充表(variants/sequence + score)** 或 **原始 FASTQ** 以复现分析 | 获取 **表格/峰集/信号轨** 与严格元数据;如 **RBNS k-mer 富集表**、**MPRA/STARR-seq 计数/活性**、**eCLIP/ChIP 峰与注释**、**cCRE** 清单 | |
| 26 | +| **数据类型/文件** | CSV/TSV 的 **score set**(常含 `variant/sequence/score/stderr/count`) | 补充文件(CSV/TSV/XLSX)、SRA FASTQ、部分作者仓库链接 | TSV/CSV(富集/计数/注释)、BED/bed.gz(峰/区域)、bigWig(信号)、FASTQ(原始读段) | |
| 27 | +| **优势** | **开箱即用的变体效应表**;分数定义清晰、易直接评测 | 覆盖广、历史数据全;多数条目有补充表或可回溯到原始测序 | 质量控制严格、元数据完备;**REST API** 稳定;多类型功能数据可交叉验证(如 cCRE + ChIP + MPRA) | |
| 28 | +| **局限/注意** | 范围以 MAVE 为主;若需原始 reads 依赖外部链接 | 元数据规范度不一;命名/列名需统一;部分仅有原始数据需自建流程 | 某些实验仅给峰/信号需自行从序列窗口构造“序列→分数”;组装版本需统一(GRCh38 等) | |
| 29 | +| **适配技术** | **DMS、MPRA、(部分)RNA 功能/核酶** | **SELEX/HT-SELEX、MPRA、部分 DMS**(视项目) | **RBNS(RNA 结合)、eCLIP(体内 RBP 结合)、MPRA/STARR-seq(调控活性)、ChIP-seq/ATAC-seq、cCRE 注释** | |
| 30 | +| **“序列/变体 + 分数”可得性** | **高**:Score set 直接提供 | **中-高**:很多 GSE 提供补充表;也可能只给 FASTQ | **中-高**:RBNS/MPRA 常有 TSV/CSV;eCLIP/ChIP 多为峰/信号(需后处理) | |
| 31 | +| **原始测序获取** | 视条目链接到 GEO/SRA 或作者仓库 | **SRA** 直接获取(prefetch/fasterq-dump) | 门户可下 FASTQ;部分也同步到外部镜像/云存储 | |
| 32 | +| **程序化访问** | 无统一 API(以页面/DOI 为主) | NCBI **E-utilities + SRA Toolkit** | 门户 **REST API**(检索 Experiment/File、直链 `@@download`)、购物车 **manifest** 批量下载 | |
| 33 | +| **典型检索切入** | 站内搜:`deep mutational scanning`、`MPRA`、基因/元件名 | GEO DataSets:`"deep mutational scanning" OR "saturation mutagenesis"`;`MPRA OR STARR-seq`;`SELEX OR "HT-SELEX"` | 门户筛选:**Assay=RBNS/MPRA/STARR-seq/eCLIP**;**File format=tsv/csv**;**target.label=RBP/TF 名称** | |
| 34 | +| **适合任务示例** | 建立/评测 **变体效应预测**(蛋白/RNA/调控) | 从补充表快速组装 **序列/变体 + 分数** 评测集或从 FASTQ 复现 | 用 **RBNS** 做 **RNA 结合打分**、用 **MPRA/STARR-seq** 做 **DNA 调控活性** 建模,结合 **cCRE/ChIP/ATAC** 做多模态标签 | |
| 35 | + |
| 36 | + |
| 37 | +--- |
| 38 | + |
| 39 | +## 常见关键词 |
| 40 | + |
| 41 | +- **DMS**:`deep mutational scanning` |
| 42 | +- **SGE**:`Saturation Genome Editing` |
| 43 | +- **MAVE**:`Multiplexed Assay of Variant Effects` |
| 44 | +- **STARR-seq**:`Self-Transcribing Active Regulatory Region Sequencing` |
| 45 | +- **MPRA**:`massively parallel reporter assay` |
| 46 | +- **Base/Prime Editing Scanning**:`Base Editing`、`Prime Editing` |
| 47 | +- **SELEX**:`Systematic Evolution of Ligands by Exponential Enrichment` |
| 48 | +- **HT-SELEX**:`High-Throughput SELEX` |
| 49 | +- **RBNS**:`RNA Binding Protein (RBP) Selection` |
| 50 | + |
| 51 | + |
| 52 | + |
| 53 | + |
| 54 | +--- |
| 55 | + |
| 56 | +## 一、在 MaveDB 检索 |
| 57 | + |
| 58 | +**入口**:<https://www.mavedb.org/> |
| 59 | + |
| 60 | +### 1. 基本检索 |
| 61 | +1. 打开首页顶部搜索栏,输入关键词如: |
| 62 | + - `homo sapiens` |
| 63 | + - `deep mutational scanning` |
| 64 | + - `massively parallel reporter assay` |
| 65 | + - `non_coding` |
| 66 | +2. 点击 **Search / Browse** 后查看结果列表。 |
| 67 | + |
| 68 | +### 2. 结果页与结构认读 |
| 69 | +- **Project**(项目):一个研究课题的集合容器 |
| 70 | +- **Experiment**(实验):一次/一类测定 |
| 71 | +- **Score set**(评分集):**逐变体的效应数值表**(通常含 `variant/sequence/score/stderr/count` 等) |
| 72 | + |
| 73 | +> **通常你要下载的是 Score set**,它对应 “每个变体的效应分数”。 |
| 74 | +> 同时需要找到页面中的**Reference sequence**作为野生序列。 |
| 75 | +
|
| 76 | +### 3. 筛选建议 |
| 77 | +- **Target Type**:'Protein Coding' 较多,可以适当选择10个进行评测,'Regulatory','Non-coding' 可以全部评测。 |
| 78 | + |
| 79 | + |
| 80 | +### 4. 下载与元数据 |
| 81 | +- 进入目标 **Score set** 页面,下载 **CSV/TSV**;同时保存: |
| 82 | + - **Metadata/README**(描述实验流程、打分定义、归一化方式) |
| 83 | + - **License/DOI**(引用用) |
| 84 | +- 若存在多个 Score set(不同条件/轮次/筛选阈值),**分别下载并记录差异**。 |
| 85 | + |
| 86 | + |
| 87 | +--- |
| 88 | + |
| 89 | +## 二、在 GEO 检索(涵盖 SELEX/MPRA/部分 DMS) |
| 90 | + |
| 91 | +**入口(DataSets)**:<https://www.ncbi.nlm.nih.gov/gds> |
| 92 | + |
| 93 | +> GEO 最强在于**广谱覆盖**和**链接原始测序(SRA)**。SELEX、MPRA 相关研究常在 GEO 可查到 **GSE(系列)页面**,随后进入 **Supplementary files**(处理后矩阵/表格)或 **SRA Run Selector**(原始 FASTQ)。 |
| 94 | +
|
| 95 | +### 1. 基本搜索语法与范围 |
| 96 | +- 使用布尔与短语: |
| 97 | + - `"deep mutational scanning" OR DMS` |
| 98 | + - `MPRA OR "massively parallel reporter assay" OR STARR-seq` |
| 99 | + - `SELEX OR "SELEX-seq" OR "HT-SELEX"` |
| 100 | +- 结合对象与物种: |
| 101 | + - `("SELEX-seq" AND "RNA-binding protein") AND Homo sapiens` |
| 102 | + - `(MPRA AND enhancer AND Homo sapiens)` |
| 103 | + |
| 104 | +### 2. 打开 GSE 页面关注要点 |
| 105 | +- **Overall design / Summary**:确认是否为 MPRA/DMS/SELEX |
| 106 | +- **Supplementary files**:通常包含**处理后矩阵**(如变体效应、位点打分、barcode 统计) |
| 107 | + |
| 108 | +### 3. 典型场景与技巧 |
| 109 | +- **SELEX**:检索 `SELEX OR "SELEX-seq" OR "HT-SELEX"`,可配合 `transcription factor`、`RNA-binding protein`、具体蛋白名 |
| 110 | +- **MPRA**:检索 `MPRA OR "massively parallel reporter assay" OR STARR-seq` |
| 111 | +- **DMS**:检索 `"deep mutational scanning" OR "saturation mutagenesis"` |
| 112 | + |
| 113 | +--- |
| 114 | + |
| 115 | +## 三、在 ENCODE 检索与下载(RNA/DNA 序列变体/功能) |
| 116 | + |
| 117 | +> 目标:在 ENCODE 门户中,用**网页筛选**或**REST API**快速拿到与 **RNA/DNA 序列**直接相关、可用于模型评测的**表格型文件**(如:k-mer/序列富集分数、MPRA/STARR-seq 活性、eCLIP/RBNS 结果、cCRE 注释等)。 |
| 118 | +
|
| 119 | +### 1)入口与常用数据类型 |
| 120 | +- **ENCODE Data Portal**:`https://www.encodeproject.org/` |
| 121 | +- 你最可能用到的文件类型(**File type**)与输出(**Output type**): |
| 122 | + - **TSV/CSV 表格**:`k-mer enrichment`(RBNS)、`counts`/`quantification`(部分 MPRA/STARR-seq/功能表征)、`metadata.tsv` |
| 123 | + - **BED/bed.gz**:`peaks`(eCLIP/ChIP-seq)、`cCRE annotations`(可作 DNA 区域标签/负样本筛选) |
| 124 | + - **bigWig**:信号轨(供可视化/区域打分,不直接“变体→分数”,但可配合区域聚合) |
| 125 | + |
| 126 | +--- |
| 127 | + |
| 128 | +### 2)网页检索(可视化筛选) |
| 129 | +1. 打开 **ENCODE** 首页 → 顶部 **Search** |
| 130 | +2. 关键过滤器(左侧或顶部栏): |
| 131 | + - **Assay**:`RBNS`(RNA Bind-n-Seq)、`eCLIP`(RBP 体内结合)、`STARR-seq`/`MPRA`/`functional characterization assay`、`ChIP-seq`(TF) |
| 132 | + - **Organism**:`Homo sapiens` / `Mus musculus` |
| 133 | + - **Target of assay**:选择具体 RBP/TF(如 `RBFOX2`、`PTBP1`、`CTCF`) |
| 134 | + - **File format**:优先 `tsv`/`csv`,其次 `bed`/`bigWig` |
| 135 | + - **Assembly**:`GRCh38`(人)或 `mm10`(鼠),保持一致便于下游处理 |
| 136 | + - **Status**:`released` |
| 137 | +3. 进入某个 **Experiment**(实验)页面 → 切换到 **Files**(文件)页签: |
| 138 | + - 查看 **Output type** 与 **File type**,定位可下载的 **TSV/CSV**(例如 `k-mer enrichment`、`counts`、`quantification`) |
| 139 | + - 点击文件右侧 **Download** 按钮直接下载;或先 **Add to cart**(加入购物车)以便**批量**导出 |
| 140 | + |
| 141 | +> 小提示:在结果页点击右上角 **Download** 可导出当前筛选的**清单/元数据**(`metadata.tsv`);先把筛选条件调好再导出,能直接得到一份“可追溯”的文件目录。 |
| 142 | +
|
| 143 | +--- |
| 144 | + |
| 145 | +### 3)批量下载(购物车 / 清单) |
| 146 | +- 在文件列表中把需要的条目 **Add to cart** → 打开页面右上角 **Cart**: |
| 147 | + - **Download manifest**(清单/清册):得到一个包含直链 URL 的文本文件 |
| 148 | + - 使用 `wget`/`curl` 批量下载,例如: |
| 149 | + ```bash |
| 150 | + # 清单中每行是一个可下载链接 |
| 151 | + wget -i cart-manifest.txt -c |
| 152 | + # 或者: |
| 153 | + xargs -n 1 -P 8 curl -O -L < cart-manifest.txt |
| 154 | + ``` |
| 155 | +- 同时导出 **cart metadata.tsv**(元数据表),保留 `accession`、`assay_title`、`target`、`file_format`、`output_type` 等信息,便于记录来源与复现。 |
| 156 | + |
| 157 | + |
| 158 | +--- |
| 159 | + |
| 160 | +## 四、下载与整理:字段统一与示例 |
| 161 | + |
| 162 | +### 0. 目标格式 |
| 163 | + |
| 164 | +**变体效应分数表**:csv文件,每行一个变体条目,列包括: |
| 165 | +- mutant: 如 `A123T`、`"A1G,G2C,C3T"`(多个突变用双引号括起来) |
| 166 | +- DMS_score: 效应分数(如 log2FC) |
| 167 | +- sequence: 变体对应的核酸序列 |
| 168 | + |
| 169 | +### 1. MaveDB(Score set) |
| 170 | +常见列: |
| 171 | +- `variant`(HGVS 或自定义变体编码,如 `A123T`、`c.123A>T`、`p.Ala123Thr`) |
| 172 | +- `score`(效应分数,方向、尺度需看 README) |
| 173 | +- `stderr` / `se`(不确定性) |
| 174 | +- `count`(测序/条形码支持度) |
| 175 | +- `sequence`(可选,核酸或氨基酸) |
| 176 | + |
| 177 | + |
| 178 | + |
| 179 | +### 2. GEO(GSE/GSM 补充文件与 SRA) |
| 180 | +- **补充文件**:TSV/CSV/Excel,常含: |
| 181 | + - MPRA:`oligo_id`、`sequence`、`barcode`、`counts`(输入/输出各轮)、`log2FC`、`activity_score` |
| 182 | + - SELEX:各轮序列频次、PWM/位点打分、k-mer 富集表 |
| 183 | + - DMS:位点×氨基酸替换矩阵、单突变/双突变效应 |
| 184 | +- **SRA 原始数据**:使用 SRA Toolkit(`prefetch`/`fasterq-dump`)下载 FASTQ 后自建流程重算。 (复杂,待实现) |
| 185 | + |
| 186 | +### 3. ENCODE(TSV/CSV) |
| 187 | +- **k-mer enrichment**:`kmer`、`enrichment_score`、`stderr`、`counts`(输入/输出) |
| 188 | +- **MPRA/STARR-seq**:`oligo_id`、`sequence`、`barcode`、`counts`(输入/输出)、`activity_score` |
| 189 | +- **eCLIP/RBNS**:`RBP`、`kmer`、`enrichment_score`、`stderr`、`counts` |
0 commit comments