EMA의 Reflection paper on the use of real-world data in non-interventional studies to generate real-world evidence를 처음 읽으면 많은 사람이 이렇게 받아들일 수 있습니다. “유럽도 이제 RWD를 더 적극적으로 쓰겠다는 쪽으로 가는구나.” 그 해석 자체가 틀린 것은 아닙니다. 하지만 제게 이 문서는 허용의 확대보다 설계의 엄격화 쪽에 더 가깝게 읽혔습니다.
이 문서가 진짜로 하는 말은 단순하지 않습니다. “RWD를 많이 쓰자”가 아니라, RWD를 근거로 쓰고 싶다면 비중재 연구가 어디서 흔들리는지 더 정확하게 설명하라는 요구에 가깝습니다. 그래서 이 reflection paper를 읽을 때는 RWD라는 단어 자체보다, 그 뒤에 붙는 조건들, 즉 question fit, data provenance, bias structure, design transparency 같은 표현에 더 밑줄을 그어야 합니다.
저는 이 문서를 읽을 때 다섯 가지 층으로 나눠 봅니다. 질문의 층, 데이터 생성의 층, 설계의 층, 분석의 층, 그리고 해석의 층입니다. 이 다섯 층을 같이 보지 않으면 문서를 “유럽도 RWE를 한다” 정도로만 읽고 넘어가게 됩니다.
1. 이 문서의 출발점은 enthusiasm가 아니라 skepticism에 가깝다
RWD 관련 문서를 읽다 보면 가끔 암묵적인 낙관론이 섞여 있습니다. 데이터가 많고, 진료현장을 더 잘 반영하고, 실제 환자를 본다는 점이 강조되다 보니, 마치 데이터 접근성이 곧 근거의 확장처럼 들릴 때가 있습니다.
하지만 EMA의 reflection paper는 전반적인 톤이 다릅니다. 이 문서는 처음부터 “RWD는 가치가 있다”와 동시에 “비중재 연구는 구조적으로 취약하다”는 사실을 전제로 깔고 있습니다. 저는 이 태도가 중요하다고 생각합니다. 좋은 문서는 늘 도구의 장점을 말하기 전에, 그 도구가 어디서 오해를 만들고 어떤 착시를 주는지부터 밝히기 때문입니다.
그래서 이 문서를 읽을 때 첫 번째로 잡아야 하는 것은 “EMA가 RWD를 얼마나 좋아하는가”가 아니라, EMA가 어떤 종류의 불확실성을 가장 경계하고 있는가입니다. 이 질문으로 읽기 시작하면 문서의 무게중심이 보입니다.
2. 핵심은 데이터가 많으냐가 아니라 연구 질문과 얼마나 맞물리느냐이다
이 reflection paper를 읽으며 가장 먼저 드는 생각은, EMA가 결국 “무슨 데이터를 썼는가”보다 “무슨 질문을 던졌는가”를 더 중요하게 본다는 점입니다. 이건 매우 중요합니다. 많은 실무 프로젝트가 데이터 소스 중심으로 출발하기 때문입니다.
예를 들어 현실에서는 이런 식으로 말이 시작됩니다.
- 이 registry가 있으니 이걸로 해볼 수 있지 않을까
- claims 데이터가 크니 comparator를 만들 수 있지 않을까
- EHR linkage가 되니 outcome을 더 풍부하게 정의할 수 있지 않을까
물론 이런 판단은 필요합니다. 그러나 이 문서가 묻는 것은 그보다 더 앞입니다.
- 지금의 규제 질문은 정확히 무엇인가
- 그 질문은 non-interventional setting에서 답할 수 있는 질문인가
- 이 데이터는 그 질문에 relevance를 가지는가
- 데이터가 관찰된 방식이 그 질문의 인과적 해석을 얼마나 훼손하는가
즉 이 문서는 RWD의 풍부함보다 질문-데이터 정합성을 훨씬 더 강하게 요구합니다. 그리고 이 지점이 실제 연구의 품질을 가장 크게 갈라놓습니다. 왜냐하면 많은 연구가 결국 “이 데이터로 할 수 있는 것”을 연구 질문으로 착각하기 때문입니다.
3. EMA가 집요하게 묻는 것은 데이터 출처와 생성 맥락이다
제가 이 문서를 높게 보는 이유 중 하나는, 단순한 데이터 품질 체크리스트를 넘어서 데이터가 어떻게 생성되었는가라는 맥락을 반복해서 상기시킨다는 점입니다.
실제 비중재 연구에서 가장 자주 부딪히는 문제는 데이터의 양이 아닙니다. 오히려 데이터가 남은 이유, 누가 기록했는지, 무엇이 기록되지 않았는지, 어떤 행정적 목적이 기록을 지배했는지 같은 문제들입니다.
예를 들어 claims 데이터는 의료 이용과 청구 흐름을 잘 반영하지만, 임상적으로 중요한 세부 상태를 충분히 담지 못할 수 있습니다. 반대로 EHR은 풍부하지만 병원별 기록 관행 차이가 크고, missingness가 구조적일 수 있습니다. registry는 의도적으로 잘 설계되면 강력하지만, 참여센터 편향이나 completeness 문제가 생기기 쉽습니다.
EMA 문서는 이런 차이를 추상적으로 말하지 않고, 결국 data source가 다르면 bias structure도 달라진다는 사실을 전제로 읽히게 만듭니다. 저는 이 점 때문에 이 문서를 “RWD 활용법”보다 “RWD 해석의 전제조건” 문서로 읽습니다.
4. 비중재 연구의 핵심은 통계기법보다 설계 투명성이라는 메시지가 더 강하다
reflection paper를 읽다 보면 방법론적 키워드는 분명 나옵니다. confounding, missing data, misclassification, selection, temporal alignment 같은 단어들입니다. 하지만 이 문서의 진짜 강조점은 고급 통계기법 자체보다 설계를 얼마나 명시적으로 설명했는가 쪽에 있습니다.
제게 이건 매우 반가운 메시지입니다. 실제로 많은 RWE 연구가 sophisticated한 조정기법을 썼다는 사실은 강조하면서도, 더 기본적인 질문은 불투명하게 남겨두기 때문입니다.
- 누가 cohort에 들어왔는가
- time zero는 어떻게 정했는가
- comparator는 왜 이 집단인가
- outcome 정의는 실제 임상 질문과 얼마나 맞는가
- follow-up 중 treatment switching이나 discontinuation은 어떻게 다뤘는가
이 질문들이 흐릿하면, 그 다음에 어떤 weighting을 했는지, 어떤 model을 썼는지는 오히려 덜 중요해집니다. EMA 문서는 바로 그 지점을 되짚습니다. 요약하면 이렇습니다.
복잡한 통계기법이 설계의 모호함을 구제해주지는 않는다.
이건 규제 문서를 읽을 때 계속 기억해야 할 문장입니다. 특히 우리가 논문 리뷰를 할 때 “PS를 썼다”, “MSM을 썼다”, “multiple imputation을 했다”는 표면적 기술에 빨리 설득되는 경향이 있기 때문입니다.
5. 이 문서는 target trial emulation의 언어와도 자연스럽게 닿아 있다
reflection paper가 target trial emulation만을 전면에 내세우는 문서는 아닙니다. 하지만 저는 이 문서를 읽을수록, 최근 왜 target trial language가 널리 퍼지는지 다시 확인하게 됩니다.
왜냐하면 EMA가 결국 요구하는 것들이 target trial 사고방식과 많이 겹치기 때문입니다.
- 질문을 먼저 명확히 정의할 것
- eligibility, exposure, follow-up, outcome을 명시할 것
- 비교를 가능한 공정하게 설계할 것
- 시간축을 어지럽히지 말 것
- 해석 가능한 estimand를 분명히 할 것
이 문서가 직접적으로 모든 연구에 TTE를 강요한다고 말할 필요는 없습니다. 이미 그보다 더 기본적인 수준에서, “가상의 잘 설계된 연구를 먼저 상상하고 나서 데이터를 끼워 맞추라”는 방향을 요구하고 있기 때문입니다.
그래서 저는 이 reflection paper를, 유럽이 단순히 RWD를 쓰겠다는 문서가 아니라 비중재 연구도 더 protocol-driven하고 design-first한 언어로 쓰이기를 요구하는 문서로 읽습니다.
6. 실제로 이 문서를 읽고 나면 무엇이 달라져야 하는가
규제기관 문서를 읽는 목적은 문장을 외우는 데 있지 않습니다. 실제로 연구를 설계할 때 무엇을 더 신경 쓰게 되는지가 중요합니다. 이 문서를 읽고 실무자가 바꿔야 할 것은 적어도 아래 다섯 가지라고 생각합니다.
(1) 데이터 설명이 appendix 수준에서 끝나면 안 된다
데이터의 provenance, capture process, linkage quality, completeness를 본문 수준에서 설명해야 합니다. “이 데이터는 어느 병원에서 왔고 어떤 컬럼이 있다”는 설명만으로는 부족합니다.
(2) comparator justification이 더 중요해진다
특히 non-user comparator나 loosely defined external comparator는 왜 그 집단이 해석 가능한지 더 강하게 설명해야 합니다.
(3) time alignment를 모호하게 두면 안 된다
index date, exposure ascertainment period, baseline assessment window, follow-up start가 어긋나면 연구의 설득력이 급격히 떨어집니다.
(4) outcome definition은 임상적 의미와 데이터 현실을 동시에 설명해야 한다
코드 조합으로 정의했다고 끝나는 게 아니라, 그 outcome이 실제 규제 질문과 얼마나 맞는지까지 말해야 합니다.
(5) 한계는 형식적으로 적는 게 아니라 구조적으로 설명해야 한다
“residual confounding cannot be excluded”라는 문장은 이제 거의 아무 의미가 없습니다. 어떤 confounding이 왜 남는지, 어떤 방향의 편향을 만들 수 있는지 구체적으로 적어야 합니다.
7. 이 문서는 결국 해석의 겸손을 요구한다
제가 가장 인상적으로 느낀 부분은 이 문서가 연구자의 야심을 완전히 꺾지는 않으면서도, 결과 해석에서는 훨씬 더 절제된 태도를 요구한다는 점입니다.
RWD를 쓰는 이유는 현실을 더 넓게 보기 위해서입니다. 하지만 현실을 더 넓게 보는 순간, 동시에 통제가 약해지고 불확실성은 늘어납니다. EMA의 reflection paper는 바로 이 긴장을 숨기지 않습니다. 저는 이게 매우 건강하다고 봅니다.
좋은 RWE 문서는 늘 어느 정도 불편해야 합니다. 모든 것이 깔끔하게 정리된 듯 보인다면, 오히려 무엇을 단순화했는지부터 다시 의심해야 합니다. 이 reflection paper는 그 점에서 꽤 정직한 문서입니다. “RWD를 활용하라”면서도, 그 활용이 얼마나 많은 가정 위에 서 있는지를 계속 상기시키기 때문입니다.
마무리
이 문서를 한 문장으로 요약하면 이렇습니다.
EMA의 RWD reflection paper는 비중재 연구를 더 쉽게 허용하는 문서라기보다, 비중재 연구가 어떤 조건에서만 해석 가능한 근거가 되는지를 더 엄밀하게 묻는 문서다.
그래서 이 문서는 RWE 입문자에게는 약간 차갑게 느껴질 수 있습니다. 하지만 저는 오히려 그 점이 좋습니다. 좋은 규제 문서는 늘 기대보다 먼저 경계를 가르쳐 주기 때문입니다. 그리고 그 경계를 제대로 읽을 때, 비로소 우리는 “데이터가 있다”는 말에서 한 걸음 더 나아가 “이 데이터로 어디까지 말할 수 있는가”를 묻게 됩니다.
저는 앞으로 이 문서를 non-interventional study 설계를 검토할 때 자주 다시 꺼내 보게 될 것 같습니다. 특히 질문과 데이터의 정합성, time alignment, comparator justification, 그리고 데이터 생성 맥락을 다시 점검하는 기준 문서로서 말입니다.
참고 링크
[EMA reflection paper](https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-real-world-data-non-interventional-studies-generate-real-world-evidence_en.pdf)