기능적 변이를 활용하면 다인종 TWAS 성능이 좋아질까?
원문: Multi-ancestry transcriptome prediction with functionally informed variants in TOPMed MESA improves performance of transcriptome-wide association studies
게재지: The American Journal of Human Genetics (2026)
DOI: https://doi.org/10.1016/j.ajhg.2026.03.008
한 줄 요약
기능적으로 중요한 변이(FIV)를 활용한 세 가지 전사체 예측 모델이, 기존 elastic net 대비 더 적은 변이만으로 비슷한 예측 정확도를 달성하면서도 다인종 TWAS(transcriptome-wide association study)의 검정력과 정확도를 평균 24% 향상시켰다.
왜 다인종 전사체 예측이 필요할까?
GWAS(genome-wide association study, 전장 유전체 연관 연구)가 수많은 질병 관련 유전 변이를 발견해왔지만, 발견된 변이의 90% 이상이 비단백질 코딩 영역에 위치한다. 어떤 변이가 실제로 유전자 발현에 영향을 미치는지 파악하기란 쉽지 않다. TWAS는 GWAS와 전사체 데이터를 통합해 질병 관련 후보 유전자를 식별하는 강력한 도구다.
그런데 문제가 있다. 기존 전사체 예측 모델은 대부분 유럽계 인구만을 대상으로 구축되었다. 인종 간 연관불균형(linkage disequilibrium, LD) 패턴과 eQTL(expression quantitative trait locus, 발현 양적 형질 좌위) 효과가 다르기 때문에, 유럽계 모델을 다른 인종에 적용하면 성능이 떨어진다. 신뢰할 수 있는 다인종 전사체 예측 모델이 절실한 상황이다.
무엇을, 어떻게 연구했나?
연구진은 NHLBI TOPMed 프로그램의 MESA(Multi-Ethnic Study of Atherosclerosis) 코호트에서 1,287명의 다인종 참가자 데이터를 활용했다. 전혈 단핵구(PBMC)의 RNA-seq 데이터와 전장 유전체 시퀀싱(WGS) 데이터를 기반으로 전사체 예측 모델을 구축했다.
| 항목 | 내용 |
|---|---|
| 참가자 수 | 1,287명 (다인종) |
| 인종 구성 | 비히스패닉 백인 41%, 아프리카계 미국인 28%, 히스패닉/라틴계 25%, 중국계 8% (일부 반올림) |
| 유전체 데이터 | TOPMed Freeze 8 WGS (약 30x) |
| 전사체 데이터 | PBMC RNA-seq |
| 외부 검증 데이터셋 | Geuvadis (449명, LCL), Jackson Heart Study (1,012명 아프리카계, PBMC) |
네 가지 예측 방법을 비교했다.
| 방법 | 설명 | FIV 활용 여부 |
|---|---|---|
| EN (elastic net) | 기준 모델. cis 영역 내 모든 변이를 사용 | X |
| EN-FM | fine-mapping으로 인과 변이 후보를 선별하여 가중치 부여 | O |
| PUMICE | 크로마틴 구조·후성유전체 정보로 변이 분류 | O |
| PUMICE-FM | PUMICE에 fine-mapping 추가 적용 | O |
세 가지 대규모 다인종 GWAS — 혈액 세포 형질 8개, 지질 형질 5개, 폐기능 형질 4개 — 와 통합하여 TWAS 성능을 평가했다.
더 적은 변이로도 비슷한 예측 정확도를 달성하다
네 가지 방법 모두 비슷한 수준의 예측 정확도를 보였다. 흥미로운 점은 모델에 포함된 변이 수의 차이다.
| 방법 | 예측 모델 수 (유전자 수) | 모델 내 변이 수 중앙값 |
|---|---|---|
| EN | 11,897 | 49 |
| EN-FM | 11,033 | 3 |
| PUMICE | 11,601 | 30 |
| PUMICE-FM | 11,000 | 24 |
EN-FM은 변이 수 중앙값이 겨우 3개인데도 EN(49개)과 비슷한 예측 정확도를 달성했다. 마치 시험 범위 전체를 공부하는 대신, 핵심 포인트만 집중 공략해도 같은 점수를 받는 셈이다. 이는 기능적으로 중요한 변이를 선별하고 가중치를 부여하는 전략의 효과를 잘 보여준다.
8,659개 공통 유전자 기준으로, 84%의 유전자가 FIV 기반 방법 중 하나 이상에서 EN보다 높은 예측 정확도를 보였고, 43%는 세 가지 FIV 방법 모두에서 EN을 능가했다.
TWAS 검정력, FIV가 만드는 차이
FIV 기반 방법들은 전반적으로 EN보다 높은 TWAS 검정력을 보였다. 구체적으로 살펴보면 다음과 같다.
| GWAS 형질 | 유의하게 높은 검정력을 보인 FIV 방법 | p값 |
|---|---|---|
| PLT (혈소판 수) | PUMICE (p = 0.0395), PUMICE-FM (p = 0.0220) | < 0.05 |
| LDL-C | PUMICE (p = 0.0419) | < 0.05 |
| TC (총콜레스테롤) | PUMICE (p = 0.0264) | < 0.05 |
다만 단일 FIV 방법이 모든 GWAS 형질에서 일관되게 EN을 압도하지는 못했다. 유전자의 유전적 구조(예: 희소 vs. 다유전자)에 따라 각 방법이 다르게 작동하기 때문이다.
옴니버스 접근법 — 세 방법을 합치면 어떨까?
단일 방법의 한계를 극복하기 위해, 연구진은 EN-FM, PUMICE, PUMICE-FM의 TWAS p값을 ACAT(aggregated Cauchy association test)로 통합하는 옴니버스 접근법을 제안했다.
결과는 인상적이다. 옴니버스 접근법은 모든 17개 GWAS 형질에서 가장 많은 Bonferroni 유의 TWAS 유전자를 산출했고, 큐레이션된 유전자와의 중첩도 가장 많았다. 혈액 세포 형질 5개와 지질 형질 2개에서 EN보다 유의하게 높은 검정력을 보였으며, TC에서는 Bonferroni 보정 수준에서도 유의했다(p = 0.0012).
옴니버스 접근법이 고유하게 식별한 유전자 중 주목할 만한 사례가 있다.
| 유전자 | 형질 | 옴니버스 TWAS p값 | EN TWAS p값 | 생물학적 의미 |
|---|---|---|---|---|
| TRAF1 | LYM (림프구) | 1.15 × 10⁻¹³ | 0.04 | 림프구 생존·증식·사이토카인 생산에 관여 |
| APOA1 | HDL-C | 5.09 × 10⁻³⁶ | EN 모델에 미포함 | HDL 입자의 주요 구성 단백질 |
| TGFBR3 | FEV₁/FVC | 가장 유의한 유전자 | EN이 놓침 | 폐 섬유화·COPD 감수성 관련 TGF-β 수용체 |
EN이 놓치거나 약한 신호로만 잡아낸 유전자를 옴니버스가 강력하게 식별해낸 점은, 여러 방법의 결과를 통합하는 전략의 실질적 가치를 보여준다.
다인종 모델은 단일 인종 모델보다 나을까?
연구진은 유럽계 전용(EUR) 예측 모델과 다인종 모델을 직접 비교했다. 다인종 모델은 17개 형질 중 14개에서 EUR 모델과 비슷하거나 더 나은 TWAS 성능을 보였다. 특히 EOS(호산구)와 LYM(림프구)에서는 다인종 모델이 유의하게 더 높은 검정력을 보였다.
현재 사용되는 세 가지 다인종 GWAS 자체가 유럽계 참가자 비율이 높음(75~81%)에도 불구하고, 다인종 모델이 전반적 우위를 보인 점은 주목할 만하다. 다양한 인종의 LD 패턴을 반영한 모델이 인종 불일치로 인한 성능 저하를 줄여주기 때문이다.
이 연구가 말해주는 것
기능적 변이 선별의 가치
EN처럼 모든 변이를 수학적으로만 선별하는 방법은, 생물학적으로 중요한 변이를 놓치거나 과소평가할 수 있다. FIV 기반 방법은 fine-mapping, 후성유전체, 3D 유전체 정보를 활용해 인과 변이에 가중치를 부여함으로써, 더 적은 변이로 더 정확한 예측을 가능하게 한다.
통합의 힘
유전자마다 유전적 구조가 다르기 때문에, 단일 방법으로 모든 유전자를 최적으로 예측하기는 어렵다. 여러 방법의 결과를 통합하는 옴니버스 접근법은 이러한 한계를 효과적으로 보완한다.
세포 유형의 중요성
JHS(PBMC 기반) 검증에서 Geuvadis(LCL 기반)보다 훨씬 높은 예측 정확도를 보인 점(Pearson 상관계수 중앙값 0.2 vs. 0.1)은, 전사체 예측 모델 구축에 사용한 세포 유형과 검증 데이터의 세포 유형이 일치할수록 성능이 좋아진다는 것을 보여준다.
연구의 한계
- 표본 크기: 1,287명의 다인종 참가자는 강력한 다인종 eQTL을 발견하기에 충분하지 않을 수 있다. 특히 fine-mapping 정확도에 영향을 미친다.
- 대리 세포주 사용: PBMC에 대한 후성유전체·3D 유전체 데이터가 없어 EBV 전환 림프구(LCL) 데이터를 대리 지표로 사용했다. 세포 유형 불일치가 PUMICE 모델 성능에 영향을 미쳤을 가능성이 있다.
- 큐레이션 유전자의 한계: TWAS 정확도 평가에 사용한 큐레이션 유전자 목록이 주로 유럽계 대상 연구에서 도출되었으며, 진정한 인과 유전자와 차이가 있을 수 있다.
- 인종 특이적 분석 부재: 현재 방법론은 인종 특이적 TWAS 유전자를 식별하거나, 인종 간 공유/특이 성분을 구분하지 못한다.
- PBMC의 한계: PBMC가 모든 형질(특히 폐기능)에 최적의 세포 유형은 아니므로, GWAS 형질과 모델 세포 유형의 관련성에 따라 성능 차이가 발생한다.
더 다양한 데이터가 더 정확한 유전학을 만든다
이 연구는 “더 많은 변이를 넣으면 더 좋은 모델이 된다”는 직관에 도전한다. 기능적으로 의미 있는 변이를 골라내고, 여러 방법의 장점을 합치는 전략이 단순히 변이 수를 늘리는 것보다 효과적이라는 것을 보여준다. 다양한 인종 배경을 포괄하는 데이터와 방법론의 발전이, 유전학 연구의 형평성과 정밀도를 함께 높여갈 수 있다는 메시지를 남긴다.