Skip to content

Commit 290bfca

Browse files
committed
tutor
1 parent 6002856 commit 290bfca

1 file changed

Lines changed: 189 additions & 1 deletion

File tree

README.md

Lines changed: 189 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1 +1,189 @@
1-
# AuroBench
1+
# 在 MaveDB 与 GEO 上检索基因突变数据(SELEX / DMS / MPRA)——实用教程
2+
3+
4+
5+
---
6+
7+
## 目录
8+
- [概述:技术与数据库](#概述技术与数据库)
9+
- [一、在 MaveDB 检索](#一在-mavedb检索)
10+
- [二、在 GEO 检索(涵盖 SELEX/MPRA/部分 DMS)](#二在-geo检索涵盖-selexmpra部分-dms)
11+
- [三、在 ENCODE 检索与下载(RNA/DNA 序列变体/功能)](#三在-encode检索与下载rnadna序列变体功能)
12+
- [四、下载与整理:字段统一与示例](#四下载与整理字段统一与示例)
13+
- [常见关键词](#常见关键词)
14+
---
15+
16+
## 概述:技术与数据库
17+
18+
19+
20+
21+
| 内容 | MaveDB | GEO (NCBI GEO) | ENCODE |
22+
|---|---|---|---|
23+
| **核心定位** | **MAVEs**(多重并行变体效应实验)结果与元数据的社区数据库,偏 **DMS/MPRA** | 广谱功能基因组/转录组数据索引与归档;**SELEX****MPRA**、部分 **DMS** 常见,附补充表与 SRA 原始测序 | 大型功能基因组学门户;覆盖 **RBNS/eCLIP/ChIP-seq/ATAC-seq/MPRA/STARR-seq** 等,并提供 **cCRE**(候选顺式调控元件)注释与高质量元数据 |
24+
| **数据粒度** | **Project → Experiment → Score set**(逐变体效应表) | **GSE(系列)→ GSM(样本)→ SRA(SRX/SRR)** | **Experiment(实验)→ File(文件)**;并有 **Annotation/Track**(如 cCRE)层级 |
25+
| **典型用途** | 直接下载 **逐变体效应/打分矩阵**(CSV/TSV)用于建模评测 | 找到 **补充表(variants/sequence + score)****原始 FASTQ** 以复现分析 | 获取 **表格/峰集/信号轨** 与严格元数据;如 **RBNS k-mer 富集表****MPRA/STARR-seq 计数/活性****eCLIP/ChIP 峰与注释****cCRE** 清单 |
26+
| **数据类型/文件** | CSV/TSV 的 **score set**(常含 `variant/sequence/score/stderr/count`| 补充文件(CSV/TSV/XLSX)、SRA FASTQ、部分作者仓库链接 | TSV/CSV(富集/计数/注释)、BED/bed.gz(峰/区域)、bigWig(信号)、FASTQ(原始读段) |
27+
| **优势** | **开箱即用的变体效应表**;分数定义清晰、易直接评测 | 覆盖广、历史数据全;多数条目有补充表或可回溯到原始测序 | 质量控制严格、元数据完备;**REST API** 稳定;多类型功能数据可交叉验证(如 cCRE + ChIP + MPRA) |
28+
| **局限/注意** | 范围以 MAVE 为主;若需原始 reads 依赖外部链接 | 元数据规范度不一;命名/列名需统一;部分仅有原始数据需自建流程 | 某些实验仅给峰/信号需自行从序列窗口构造“序列→分数”;组装版本需统一(GRCh38 等) |
29+
| **适配技术** | **DMS、MPRA、(部分)RNA 功能/核酶** | **SELEX/HT-SELEX、MPRA、部分 DMS**(视项目) | **RBNS(RNA 结合)、eCLIP(体内 RBP 结合)、MPRA/STARR-seq(调控活性)、ChIP-seq/ATAC-seq、cCRE 注释** |
30+
| **“序列/变体 + 分数”可得性** | ****:Score set 直接提供 | **中-高**:很多 GSE 提供补充表;也可能只给 FASTQ | **中-高**:RBNS/MPRA 常有 TSV/CSV;eCLIP/ChIP 多为峰/信号(需后处理) |
31+
| **原始测序获取** | 视条目链接到 GEO/SRA 或作者仓库 | **SRA** 直接获取(prefetch/fasterq-dump) | 门户可下 FASTQ;部分也同步到外部镜像/云存储 |
32+
| **程序化访问** | 无统一 API(以页面/DOI 为主) | NCBI **E-utilities + SRA Toolkit** | 门户 **REST API**(检索 Experiment/File、直链 `@@download`)、购物车 **manifest** 批量下载 |
33+
| **典型检索切入** | 站内搜:`deep mutational scanning``MPRA`、基因/元件名 | GEO DataSets:`"deep mutational scanning" OR "saturation mutagenesis"``MPRA OR STARR-seq``SELEX OR "HT-SELEX"` | 门户筛选:**Assay=RBNS/MPRA/STARR-seq/eCLIP****File format=tsv/csv****target.label=RBP/TF 名称** |
34+
| **适合任务示例** | 建立/评测 **变体效应预测**(蛋白/RNA/调控) | 从补充表快速组装 **序列/变体 + 分数** 评测集或从 FASTQ 复现 |**RBNS****RNA 结合打分**、用 **MPRA/STARR-seq****DNA 调控活性** 建模,结合 **cCRE/ChIP/ATAC** 做多模态标签 |
35+
36+
37+
---
38+
39+
## 常见关键词
40+
41+
- **DMS**`deep mutational scanning`
42+
- **SGE**`Saturation Genome Editing`
43+
- **MAVE**`Multiplexed Assay of Variant Effects`
44+
- **STARR-seq**`Self-Transcribing Active Regulatory Region Sequencing`
45+
- **MPRA**`massively parallel reporter assay`
46+
- **Base/Prime Editing Scanning**`Base Editing``Prime Editing`
47+
- **SELEX**`Systematic Evolution of Ligands by Exponential Enrichment`
48+
- **HT-SELEX**`High-Throughput SELEX`
49+
- **RBNS**`RNA Binding Protein (RBP) Selection`
50+
51+
52+
53+
54+
---
55+
56+
## 一、在 MaveDB 检索
57+
58+
**入口**<https://www.mavedb.org/>
59+
60+
### 1. 基本检索
61+
1. 打开首页顶部搜索栏,输入关键词如:
62+
- `homo sapiens`
63+
- `deep mutational scanning`
64+
- `massively parallel reporter assay`
65+
- `non_coding`
66+
2. 点击 **Search / Browse** 后查看结果列表。
67+
68+
### 2. 结果页与结构认读
69+
- **Project**(项目):一个研究课题的集合容器
70+
- **Experiment**(实验):一次/一类测定
71+
- **Score set**(评分集):**逐变体的效应数值表**(通常含 `variant/sequence/score/stderr/count` 等)
72+
73+
> **通常你要下载的是 Score set**,它对应 “每个变体的效应分数”。
74+
> 同时需要找到页面中的**Reference sequence**作为野生序列。
75+
76+
### 3. 筛选建议
77+
- **Target Type**:'Protein Coding' 较多,可以适当选择10个进行评测,'Regulatory','Non-coding' 可以全部评测。
78+
79+
80+
### 4. 下载与元数据
81+
- 进入目标 **Score set** 页面,下载 **CSV/TSV**;同时保存:
82+
- **Metadata/README**(描述实验流程、打分定义、归一化方式)
83+
- **License/DOI**(引用用)
84+
- 若存在多个 Score set(不同条件/轮次/筛选阈值),**分别下载并记录差异**
85+
86+
87+
---
88+
89+
## 二、在 GEO 检索(涵盖 SELEX/MPRA/部分 DMS)
90+
91+
**入口(DataSets)**<https://www.ncbi.nlm.nih.gov/gds>
92+
93+
> GEO 最强在于**广谱覆盖****链接原始测序(SRA)**。SELEX、MPRA 相关研究常在 GEO 可查到 **GSE(系列)页面**,随后进入 **Supplementary files**(处理后矩阵/表格)或 **SRA Run Selector**(原始 FASTQ)。
94+
95+
### 1. 基本搜索语法与范围
96+
- 使用布尔与短语:
97+
- `"deep mutational scanning" OR DMS`
98+
- `MPRA OR "massively parallel reporter assay" OR STARR-seq`
99+
- `SELEX OR "SELEX-seq" OR "HT-SELEX"`
100+
- 结合对象与物种:
101+
- `("SELEX-seq" AND "RNA-binding protein") AND Homo sapiens`
102+
- `(MPRA AND enhancer AND Homo sapiens)`
103+
104+
### 2. 打开 GSE 页面关注要点
105+
- **Overall design / Summary**:确认是否为 MPRA/DMS/SELEX
106+
- **Supplementary files**:通常包含**处理后矩阵**(如变体效应、位点打分、barcode 统计)
107+
108+
### 3. 典型场景与技巧
109+
- **SELEX**:检索 `SELEX OR "SELEX-seq" OR "HT-SELEX"`,可配合 `transcription factor``RNA-binding protein`、具体蛋白名
110+
- **MPRA**:检索 `MPRA OR "massively parallel reporter assay" OR STARR-seq`
111+
- **DMS**:检索 `"deep mutational scanning" OR "saturation mutagenesis"`
112+
113+
---
114+
115+
## 三、在 ENCODE 检索与下载(RNA/DNA 序列变体/功能)
116+
117+
> 目标:在 ENCODE 门户中,用**网页筛选****REST API**快速拿到与 **RNA/DNA 序列**直接相关、可用于模型评测的**表格型文件**(如:k-mer/序列富集分数、MPRA/STARR-seq 活性、eCLIP/RBNS 结果、cCRE 注释等)。
118+
119+
### 1)入口与常用数据类型
120+
- **ENCODE Data Portal**`https://www.encodeproject.org/`
121+
- 你最可能用到的文件类型(**File type**)与输出(**Output type**):
122+
- **TSV/CSV 表格**`k-mer enrichment`(RBNS)、`counts`/`quantification`(部分 MPRA/STARR-seq/功能表征)、`metadata.tsv`
123+
- **BED/bed.gz**`peaks`(eCLIP/ChIP-seq)、`cCRE annotations`(可作 DNA 区域标签/负样本筛选)
124+
- **bigWig**:信号轨(供可视化/区域打分,不直接“变体→分数”,但可配合区域聚合)
125+
126+
---
127+
128+
### 2)网页检索(可视化筛选)
129+
1. 打开 **ENCODE** 首页 → 顶部 **Search**
130+
2. 关键过滤器(左侧或顶部栏):
131+
- **Assay**`RBNS`(RNA Bind-n-Seq)、`eCLIP`(RBP 体内结合)、`STARR-seq`/`MPRA`/`functional characterization assay``ChIP-seq`(TF)
132+
- **Organism**`Homo sapiens` / `Mus musculus`
133+
- **Target of assay**:选择具体 RBP/TF(如 `RBFOX2``PTBP1``CTCF`
134+
- **File format**:优先 `tsv`/`csv`,其次 `bed`/`bigWig`
135+
- **Assembly**`GRCh38`(人)或 `mm10`(鼠),保持一致便于下游处理
136+
- **Status**`released`
137+
3. 进入某个 **Experiment**(实验)页面 → 切换到 **Files**(文件)页签:
138+
- 查看 **Output type****File type**,定位可下载的 **TSV/CSV**(例如 `k-mer enrichment``counts``quantification`
139+
- 点击文件右侧 **Download** 按钮直接下载;或先 **Add to cart**(加入购物车)以便**批量**导出
140+
141+
> 小提示:在结果页点击右上角 **Download** 可导出当前筛选的**清单/元数据**`metadata.tsv`);先把筛选条件调好再导出,能直接得到一份“可追溯”的文件目录。
142+
143+
---
144+
145+
### 3)批量下载(购物车 / 清单)
146+
- 在文件列表中把需要的条目 **Add to cart** → 打开页面右上角 **Cart**
147+
- **Download manifest**(清单/清册):得到一个包含直链 URL 的文本文件
148+
- 使用 `wget`/`curl` 批量下载,例如:
149+
```bash
150+
# 清单中每行是一个可下载链接
151+
wget -i cart-manifest.txt -c
152+
# 或者:
153+
xargs -n 1 -P 8 curl -O -L < cart-manifest.txt
154+
```
155+
- 同时导出 **cart metadata.tsv**(元数据表),保留 `accession``assay_title``target``file_format``output_type` 等信息,便于记录来源与复现。
156+
157+
158+
---
159+
160+
## 四、下载与整理:字段统一与示例
161+
162+
### 0. 目标格式
163+
164+
**变体效应分数表**:csv文件,每行一个变体条目,列包括:
165+
- mutant: 如 `A123T``"A1G,G2C,C3T"`(多个突变用双引号括起来)
166+
- DMS_score: 效应分数(如 log2FC)
167+
- sequence: 变体对应的核酸序列
168+
169+
### 1. MaveDB(Score set)
170+
常见列:
171+
- `variant`(HGVS 或自定义变体编码,如 `A123T``c.123A>T``p.Ala123Thr`
172+
- `score`(效应分数,方向、尺度需看 README)
173+
- `stderr` / `se`(不确定性)
174+
- `count`(测序/条形码支持度)
175+
- `sequence`(可选,核酸或氨基酸)
176+
177+
178+
179+
### 2. GEO(GSE/GSM 补充文件与 SRA)
180+
- **补充文件**:TSV/CSV/Excel,常含:
181+
- MPRA:`oligo_id``sequence``barcode``counts`(输入/输出各轮)、`log2FC``activity_score`
182+
- SELEX:各轮序列频次、PWM/位点打分、k-mer 富集表
183+
- DMS:位点×氨基酸替换矩阵、单突变/双突变效应
184+
- **SRA 原始数据**:使用 SRA Toolkit(`prefetch`/`fasterq-dump`)下载 FASTQ 后自建流程重算。 (复杂,待实现)
185+
186+
### 3. ENCODE(TSV/CSV)
187+
- **k-mer enrichment**`kmer``enrichment_score``stderr``counts`(输入/输出)
188+
- **MPRA/STARR-seq**`oligo_id``sequence``barcode``counts`(输入/输出)、`activity_score`
189+
- **eCLIP/RBNS**`RBP``kmer``enrichment_score``stderr``counts`

0 commit comments

Comments
 (0)