100만 명의 유전체를 뒤져보니, 반복서열이 뇌를 갉아먹고 있었다
원문: Population-scale repeat expansions elucidate disease risk and brain atrophy
게재지: Nature (2026)
DOI: https://doi.org/10.1038/s41586-026-10345-6
한 줄 요약
100만 명이 넘는 전장 엑솜(WES)·전장 유전체(WGS) 데이터에서 37개 유전자의 짧은 반복서열(short tandem repeat, STR) 확장을 계수한 결과, 반복 길이가 길어질수록 70여 개 신경질환 위험과 뇌 부피 감소·신경필라멘트 증가가 단계적으로 나타남을 보였다.
왜 100만 명을 한꺼번에 봐야 했을까
헌팅턴병(HD), 근긴장성 이영양증(DM1), 척수소뇌실조증(SCA) 같은 병은 특정 유전자 안의 짧은 DNA 조각이 정상보다 여러 번 반복되면서 발생한다. 이 짧은 반복서열(STR) 이 일정 길이를 넘어서면 “병원성 확장(pathogenic expansion)”으로 분류되고, 그 길이가 길어질수록 발병이 빨라지거나 증상이 심해진다.
문제는 이 병들이 대부분 임상 환자 중심으로 연구돼 왔다는 점이다. 일반 집단에서 반복 확장 보유자가 얼마나 되는지, 증상이 없는 보유자의 뇌는 실제로 어떤 상태인지는 거의 알려지지 않았다. 가족력 기반의 연구는 환자를 중심으로 모으기 때문에 침투도(penetrance, 변이 보유자 중 실제 발병 비율)가 과대평가되기 쉽다. 집단 규모의 관찰이 필요한 이유다.
어떻게 조사했나
연구진은 7개 코호트에서 확보한 1,020,833명의 WES와 465,021명의 WGS 데이터를 통합해 42개 질환 연관 반복 유전자(최종 37개 분석)의 반복 길이를 계산했다. 이를 전자건강기록(EHR) 기반의 7,671개 이진 형질 및 UK Biobank의 1,201개 뇌 영상 형질과 연결했다.
| 항목 | 규모 |
|---|---|
| WES 표본 | 1,020,833명 |
| WGS 표본 | 465,021명 (UKB) |
| 분석 유전자좌(loci) | 37개 |
| 질환 형질(binary traits) | 7,671개 |
| 뇌 영상 형질 | 1,201개 |
| 주요 코호트 | UKB, GHS, MCPS, Mayo Clinic, Penn Medicine, CNCD, Mt. Sinai BioMe |
| 참여 조상 집단 | 유럽(EUR), 아메리카(AMR), 남아시아(SAS), 아프리카(AFR), 동아시아(EAS) |
짧은 읽기(short-read) 시퀀싱으로 긴 반복을 재는 한계를 극복하기 위해 ExpansionHunter, GangSTR 등을 함께 쓰고, 모티프가 복잡한 부위는 PCR로 검증했다.
병원성 확장은 생각보다 흔했다
일반 집단에서 37개 좌위의 병원성 반복 보유율을 계산해 보니, 같은 질환을 가진 환자 유병률보다 대체로 1~2 자릿수 높았다.
- HTT(헌팅턴병): WES 기준 ~1/2,100, WGS 기준 ~1/1,000. 보고된 HD 유병률(약 1/7,300)보다 현저히 높다.
- DMPK(DM1): WES 기준 ~1/470, WGS 기준 ~1/200.
- C9orf72(ALS/FTD): WES 기준 ~1/1,700.
이 격차는 (1) 발병 전 보유자, (2) 낮은 침투도, (3) 진단 누락 모두를 반영한다. 즉 “병이 될 수 있는 반복 확장”을 가진 사람이 임상 현장에서 보이는 환자 수보다 훨씬 많다는 뜻이다.
조상 집단에 따라 분포가 달랐다
같은 유전자라도 조상 집단별로 반복 확장 빈도가 뚜렷이 갈렸다.
| 유전자 (질환) | 높게 관찰된 집단 | 맥락 |
|---|---|---|
| CACNA1A (SCA6) | 동아시아(EAS) | 일본에서 SCA6 유병률이 높은 것과 일치 |
| C9orf72 (ALS/FTD) | 유럽(EUR) | 백인 ALS 유병률 상승과 부합 |
| CNBP, JPH3 (프리뮤테이션) | 아프리카(AFR) | DM2·HDL2 기대 빈도 추정의 기준이 될 수 있음 |
| ATXN2 | 아메리카(AMR) | 대립형질 길이 분포가 다름 |
이 결과는 집단별로 “기준선” 유병률을 다르게 잡아야 함을 시사한다.
반복이 길수록 위험도, 침투도 모두 계단식으로 올라갔다
세 가지 대표 질환에서 반복 길이를 구간으로 쪼개고 환자 대비 위험을 보니 분명한 단계 효과가 나타났다.
| 유전자 / 질환 | 반복 구간 | 효과 크기(대략 OR) |
|---|---|---|
| HTT / HD | 상위 1% | ~22 |
| HTT / HD | 병원성(≥40) | ~2,570 |
| DMPK / DM1 | 상위 0.01% | ~5,878 |
| DMPK / DM1 | 병원성(≥50) | ~600 |
| C9orf72 / MND | 프리뮤테이션 | ~27 |
| C9orf72 / MND | 상위 0.01% | ~105 |
나이에 따른 침투도 곡선도 길이 구간마다 위로 평행이동하는 형태를 보였다. 다만 가족 기반 연구에서 보고된 침투도보다는 전반적으로 낮았다. 집단 코호트가 더 가볍게 진행하거나 늦게 발병하는 보유자를 많이 포함하기 때문으로 해석된다.
증상이 없어도 뇌는 이미 달라져 있었다
UK Biobank의 MRI 영상(약 5만 명)과 반복 길이를 연결한 분석에서는, 진단되지 않은 병원성 보유자에서도 질환 특이적인 뇌 부위가 작아져 있었다.
| 유전자 | 영향 받은 뇌 영역 | 효과 |
|---|---|---|
| HTT | 피각(putamen) | 부피 감소 (P = 4×10⁻¹⁴) |
| CACNA1A | 소뇌(CBM I–V) | 부피 ~24.6% 감소 (P = 5×10⁻¹⁴) |
| C9orf72 | 시상(thalamus) | 부피 ~9% 감소 (P = 1.5×10⁻⁴⁸) |
또한 혈장 단백체 데이터와 연결했을 때 신경필라멘트 경쇄(NfL, 신경 손상의 혈중 지표)가 HTT·C9orf72 병원성 보유자에서 증상 없이도 증가해 있었다. 질환 특이적 뇌 변화가 임상 증상보다 먼저 나타난다는 직접적인 증거다.
이 연구가 말해주는 것
집단 규모 WES/WGS로 반복 확장을 다룰 수 있다
짧은 읽기 기반 데이터로도 QC를 엄격하게 두면 HTT·DMPK·C9orf72 같은 고전적 반복 질환을 집단 수준에서 추적할 수 있음을 보였다.
유병률과 침투도를 다시 계산해야 한다
보고된 환자 유병률은 실제 변이 보유 빈도의 일부만 설명한다. 조상별 기준선, 연령별 침투도, 반복 길이 구간별 위험을 분리해서 보는 접근이 필요하다.
증상 전 단계에서 잡을 수 있는 바이오마커가 있다
뇌 영상 변화와 NfL 상승은 진단되지 않은 보유자에서도 관측된다. 향후 증상 발현 전 단계 치료 개입의 타깃이 될 가능성을 시사한다.
연구의 한계
- 짧은 읽기의 한계: 평균 삽입 길이를 넘는 긴 반복, 인트론·비번역영역의 복잡 모티프, 반복 내 중단(interruption)은 정확히 측정하기 어렵다. FMR1, FXN, AFF2/FMR2 등 일부 좌위는 QC에서 제외됐다.
- 위양성 가능성: in silico 기반 반복 길이 추정은 오차가 있고, HTT·C9orf72는 PCR 검증으로 보정했지만 모든 좌위가 검증되지는 않았다.
- 발병 연령의 우측 중도절단: 코호트 평균 연령이 57.9세라, 더 늦게 발병할 보유자까지 추적하지 못해 실제 침투도는 더 높을 수 있다.
- 진단 누락과 오분류: EHR 기반 형질은 오진, 기록 누락, 경증 환자의 초기 증상 과소평가 영향을 받는다.
- 조상 대표성: 유럽인 비중이 여전히 가장 크고, 일부 조상 집단은 표본 수가 작아 희귀 확장의 빈도 추정 불확실성이 크다.
남는 질문
반복 서열 하나의 길이가 수십 년 뒤의 뇌 부피와 혈중 단백질 수치까지 바꿔 놓는다는 사실은, 질병을 “걸린다/안 걸린다”의 이분법이 아니라 누적되는 연속 변수로 보도록 요구한다. 증상이 나타나기 한참 전부터 몸은 이미 다른 궤적을 그리고 있다. 집단 규모의 유전체 데이터가 축적될수록, 병의 정의는 임상 증상에서 생애 전반에 걸친 변화 경로로 점점 이동하게 될 것이다.