식약처 AI 임상시험 가이드 6종을 어떻게 읽어야 하는가

식약처가 AI 관련 임상시험 가이드 6종을 배포했다는 소식을 처음 들으면, 많은 사람은 이렇게 받아들일 수 있습니다. “이제 국내에서도 AI를 본격적으로 임상시험에 쓰려는 흐름이 시작되는구나.” 이 해석은 맞습니다. 하지만 제게 더 흥미로웠던 건 AI를 쓰게 해 준다는 사실보다, 이제 무엇을 더 설명해야 하는지에 대한 기준이 생기기 시작했다는 점이었습니다.

규제 문서는 늘 허용 여부만으로 읽으면 얕아집니다. 실제로 중요한 건 그 문서가 어떤 질문을 새로 만들었는가입니다. 특히 AI 문서는 더 그렇습니다. 왜냐하면 AI는 기술 그 자체보다, 데이터가 어떻게 만들어졌고, 모델이 어떻게 바뀌며, 임상적 해석 가능성이 어디까지인지를 계속 설명해야 하는 분야이기 때문입니다.

그래서 저는 식약처의 AI 임상시험 가이드 6종을 “국내에서 AI를 어떻게 써도 된다”는 문서로 보지 않습니다. 오히려 국내 규제 환경에서 AI를 임상개발 문맥에 올릴 때 어떤 질문을 피해 갈 수 없게 되었는가를 보여주는 문서로 읽습니다.

1. 이 문서를 읽을 때 가장 먼저 봐야 하는 것은 ‘AI를 넣는다’가 아니라 ‘무엇을 검증하려는가’이다

AI 이야기가 나오면 사람들은 금방 모델 성능으로 시선을 옮깁니다. 정확도, 민감도, 특이도, AUC, 혹은 최신 모델 구조 같은 문제들 말입니다. 하지만 규제 문서의 출발점은 훨씬 다릅니다. 식약처가 정말로 궁금해하는 것은 “이 모델이 좋아 보이는가”가 아니라, 이 기술이 임상시험 안에서 어떤 역할을 하며, 그 역할을 어떻게 검증할 것인가입니다.

예를 들어 AI가 다음 중 어디에 쓰이는지에 따라 질문은 완전히 달라집니다.

대상자 선별에 쓰이는가
endpoint 판독 보조에 쓰이는가
영상/신호 해석에 쓰이는가
치료 전략 의사결정에 직접 개입하는가
trial operations를 효율화하는 수준인가

같은 “AI 활용”이라도 이 맥락이 다르면 검증해야 할 위험과 편향의 구조도 달라집니다. 그래서 이 문서를 읽을 때 첫 번째 질문은 “무슨 모델이냐”가 아니라 AI가 trial workflow에서 어디에 개입하는가여야 합니다.

2. 식약처 문서를 읽으며 가장 중요하게 봐야 하는 것은 데이터 설명 책임이 커졌다는 점이다

AI 규제 문서를 읽으면 늘 비슷한 지점에서 멈추게 됩니다. 결국 모든 논의는 데이터로 돌아옵니다. 어떤 데이터를 학습에 썼는지, 그 데이터가 한국 환자나 실제 사용 환경을 얼마나 반영하는지, 라벨은 어떻게 붙었는지, 누가 어떤 기준으로 정답을 정의했는지 같은 문제들입니다.

저는 이 지점이 중요하다고 생각합니다. 왜냐하면 많은 AI 프로젝트가 모델 아키텍처와 성능지표에 훨씬 더 많은 설명을 쓰고, 정작 데이터 생성 과정은 상대적으로 얇게 다루기 때문입니다. 하지만 규제기관의 시선에서는 종종 그 반대입니다. 데이터의 provenance와 representativeness를 설명하지 못하면, 모델의 화려한 성능도 쉽게 설득력이 생기지 않습니다.

식약처의 AI 임상시험 가이드가 실무적으로 의미 있는 이유는, 국내 개발자와 연구자에게 이제 이런 질문을 더 자주 받게 될 것이라는 신호를 준다는 점입니다.

학습 데이터는 어떤 환자군에서 왔는가
국내 사용 환경과 얼마나 가까운가
특정 병원이나 장비에 치우친 것은 아닌가
annotation 기준은 일관적인가
업데이트 가능성이나 drift 문제는 어떻게 볼 것인가

즉 이 문서는 AI를 도입하는 문서이기도 하지만, 동시에 데이터 설명 책임을 더 크게 부과하는 문서로 읽어야 합니다.

3. AI 규제 문서의 진짜 핵심은 성능보다 일관성과 변경관리다

AI를 연구해 본 사람은 금방 알게 됩니다. 초기 결과를 잘 뽑는 것과, 그 모델을 규제 가능한 형태로 유지하는 것은 전혀 다른 문제입니다. 규제기관이 관심을 갖는 것도 결국 이 지점입니다.

모델이 한 번 잘 맞았다는 사실보다 더 중요한 것은:

같은 입력에서 일관되게 작동하는가
데이터 분포가 달라질 때 성능이 흔들리는가
버전 업데이트가 생길 때 기존 결과와의 연속성을 설명할 수 있는가
사용 환경이 달라져도 해석 가능성이 유지되는가

국내 문서도 결국 이런 흐름과 멀지 않습니다. 식약처 가이드를 읽을 때 저는 늘 “여기서 바라는 건 최첨단 모델 소개가 아니라, 예측 가능하고 관리 가능한 시스템이라는 점”을 기억하려 합니다. AI는 모델이 아니라 운영 체계로 설명되어야 규제 문서에서 오래 버팁니다.

4. 임상시험 문맥에서는 AI가 만드는 새로운 편향을 따로 봐야 한다

임상시험에서 AI를 쓴다는 건 단지 기술을 얹는 문제가 아닙니다. 경우에 따라선 연구의 bias structure 자체를 바꿉니다.

예를 들어:

AI가 대상자 선별을 도우면 selection mechanism이 달라질 수 있고
endpoint 판독에 쓰이면 outcome ascertainment 구조가 달라질 수 있으며
site마다 입력 데이터 품질이 다르면 center effect와 measurement heterogeneity가 커질 수 있습니다

이건 전통적인 통계 분석의 문제와도 연결됩니다. 단순히 “AI 정확도가 높다”는 사실은, 그 AI가 임상시험의 공정성과 해석 가능성을 해치지 않는다는 뜻이 아닙니다. 그래서 규제 문서를 읽을 때는 성능표보다 AI가 trial design 안에서 새로 만드는 편향 경로가 무엇인지를 더 중요하게 봐야 합니다.

저는 이 지점에서 AI 문서와 관찰연구 문서가 닮아 있다고 생각합니다. 둘 다 결국 “좋아 보이는 결과”보다 “그 결과가 어떤 구조 위에서 나왔는가”를 설명해야 하기 때문입니다.

5. 국내 문서를 읽을 때는 해외 문서와의 접점도 같이 봐야 한다

식약처 문서는 국내 실무에 직접 영향을 준다는 점에서 중요합니다. 하지만 그 자체만 단독으로 읽기보다는 FDA나 EMA의 AI 관련 문서와 나란히 보는 것이 훨씬 유익합니다.

그 이유는 간단합니다.

FDA는 change control과 lifecycle 관리를 더 명시적으로 말하고
EMA는 medicinal product lifecycle 맥락에서 AI를 더 넓게 다루며
식약처는 국내 제출과 임상시험 실무에 가까운 언어로 정리하는 경향이 있습니다

이 세 방향을 같이 보면 국내 문서가 어디에 무게를 두는지 더 잘 보입니다. 식약처 문서만 보면 단순한 행정 안내처럼 보일 수 있지만, 해외 규제기관 문서와 함께 읽으면 한국 규제 환경이 어떤 국제 흐름을 받아들이고 어디를 더 실무적으로 강조하는지가 드러납니다.

그래서 저는 식약처 AI 문서를 읽을 때 늘 이렇게 묻습니다.

이 표현은 FDA/EMA의 어떤 질문과 닿아 있는가
국내에서는 그 질문을 어떤 실무 언어로 바꿔 말하는가
우리 조직이 앞으로 설명해야 할 문장이 하나 늘었다면, 그건 무엇인가

6. 실무적으로는 어떤 점이 가장 먼저 달라져야 하는가

이 문서를 읽고 실제 팀이 바꿔야 할 것은 생각보다 명확합니다.

(1) AI 사용 목적을 더 좁고 명확하게 써야 한다

“AI를 활용했다”는 문장은 아무 의미가 없습니다. 대상자 선별, 판독, 예측, 분류, 보조 의사결정 중 어디에 어떻게 개입하는지 먼저 명시해야 합니다.

(2) 데이터 설명이 모델 설명보다 더 중요해진다

학습·검증 데이터의 출처, 분포, 품질, 라벨링 구조, site 차이를 먼저 설명해야 합니다.

(3) 성능지표만으로는 부족하다

재현성, robustness, drift, version control, 변경관리 같은 운영적 요소를 함께 봐야 합니다.

(4) 임상시험 해석에 미치는 영향까지 설명해야 한다

AI가 들어오면서 selection, measurement, endpoint interpretation이 어떻게 달라지는지 말하지 않으면 설득력이 약해집니다.

(5) 해외 문서와의 언어 연결이 필요하다

특히 글로벌 개발이나 다기관 문맥에서는 FDA/EMA와의 비교 독해가 필수에 가까워집니다.

7. 이 문서는 결국 ‘국내 AI 임상개발의 문장’을 바꾸는 문서다

제가 이 식약처 문서를 좋게 보는 이유는, 당장 모든 것을 완성해 놓은 문서라서가 아닙니다. 오히려 반대로, 국내에서 AI 임상개발을 설명하는 문장을 바꾸기 시작했다는 점에서 의미가 큽니다.

예전에는 AI 프로젝트가 기술 소개와 성능 중심으로 정리되는 경우가 많았습니다. 하지만 이제는 그걸로는 부족합니다. 앞으로는 더 자주 이런 문장을 써야 할 겁니다.

이 모델은 어떤 데이터에서 학습되었다
어떤 사용 환경을 전제로 한다
어떤 위험과 한계를 가진다
임상시험의 어떤 단계에 영향을 준다
변경과 업데이트를 어떻게 관리한다

즉 이 문서의 진짜 의미는 “AI를 도입한다”가 아니라, AI를 규제 가능한 언어로 설명하기 시작한다는 데 있습니다.

마무리

식약처의 AI 임상시험 가이드 6종을 한 문장으로 요약하면 이렇습니다.

이 문서는 국내에서 AI를 임상시험에 올리는 것을 단순 허용하는 문서가 아니라, AI를 어떤 데이터와 어떤 운영 구조 위에서 설명해야 하는지를 더 엄격하게 묻기 시작한 문서다.

그래서 저는 이 문서를 볼 때 늘 기술보다 문장을 먼저 봅니다. 어떤 언어를 새로 요구하는지, 무엇을 더 설명하게 만드는지, 어떤 종류의 불확실성을 숨기지 못하게 하는지를 봅니다. 규제 문서는 늘 그렇게 읽어야 오래 남습니다.

앞으로 국내 AI 관련 문서가 더 쌓이면, 저는 이 문서를 초기 기준점처럼 다시 꺼내 보게 될 것 같습니다. 특히 국내 개발자와 분석가가 “AI를 썼다”를 넘어 “이 AI가 왜 임상시험 문맥에서 해석 가능하고 관리 가능한가”를 설명해야 할 때 말입니다.

참고 링크

[MFDS 보도자료](https://www.mfds.go.kr/eng/brd/m_60/view.do?seq=76562)