망각 없이 일부만 재학습···美 AI 연구진, 모델 학습비용 절감 가능성 열었다

뉴스
2025.10.164분

계층별 재학습(layer-specific retraining) 개념을 도입하는 이 접근법은 시간과 비용을 모두 절감하며 기업용 AI 개발 방식을 근본적으로 변화시킬 수 있다.

Chinese AI model
Credit: Shutterstock/SObeR 9426

일리노이대학교 어배너-섐페인(University of Illinois Urbana-Champaign) 캠퍼스의 최신 연구는 대규모 AI 모델을 미세 조정할 때 흔히 나타나는 ‘역량 상실’ 현상이 실제로는 모델이 지식을 잊는 것이 아니라 출력 결과에 일시적인 편향이 생기는 것일 가능성이 있다고 밝혔다.

연구진은 셀프 어텐션(self-attention)과 상위 MLP(Multi-Layer Perceptron) 등 특정 계층만 선별적으로 재학습하는 방식을 적용해, 모델이 기존 능력을 유지한 채 새로운 기능을 습득할 수 있음을 확인했다. 이 방법은 재학습 비용을 절감하고 모델의 안정성을 향상시키는 효과를 보였다.

연구진은 라바(LLaVA), 큐웬(Qwen) 2.5-VL 등 멀티모달 모델을 대상으로 해당 접근법을 실험했다. 모델 전체가 아닌 특정 계층만 미세 조정한 뒤 학습 성과, 안정성, 그리고 여러 작업에서의 지식 유지 수준을 측정했다.

연구 결과는 기존 성능을 훼손하지 않으면서 대규모 언어 모델과 멀티모달 모델을 효율적으로 업데이트하려는 기업과 개발자에게 잠재적으로 더 효율적인 접근법을 제시한다. 이는 특히 성능 저하 없는 재학습을 고민하는 기업 AI 팀에게 중요한 의미를 지닐 수 있다.

재학습의 한계 극복

새로운 대규모 멀티모달 모델을 처음부터 학습시키는 데에는 수백만 달러의 비용과 수주일의 시간이 소요된다. 모델과 데이터 세트의 규모가 커질수록 처음부터 다시 학습하는 과정은 점점 더 어려워지고 비효율적이 된다.

연구진은 “한 가지 대안은 새로운 작업에 맞춰 모델을 단순히 미세 조정하는 것이다. 하지만 단순 모델의 경우 미세 조정은 흔히 ‘치명적 망각(catastrophic forgetting)’을 일으킬 수 있다. 이로 인해 여러 작업에 능숙했던 모델이 특정 작업만 잘 수행하는 좁은 전문가가 되기도 한다”라고 설명했다.

이 문제가 현재의 대규모 멀티모달 모델에도 동일하게 적용되는지 확인하기 위해 연구진은 통제된 환경에서 정밀한 평가를 진행했다. 연구진은 5가지 목표 작업(조류 세분화 분류, 개체 수 카운팅, 의료 영상 질의응답, OCR 인식, 시간 판독)을 선정하고 모델을 학습시켰다. 이후 미세 조정 과정에 포함되지 않은 8가지 표준 벤치마크를 통해 성능이 얼마나 저하되는지 측정했다.

논문에 따르면 이번 실험을 통해 2가지 핵심적인 결과가 도출됐다. 우선, 어떤 입력 요소에 집중할지를 결정하는 셀프 어텐션 프로젝션 계층(Self-Attention Projection Layer, SA Proj)을 조정하는 것만으로도 모델은 새로운 작업을 거의 ‘망각 없이’ 학습할 수 있었다. 또한 처음에는 잊힌 것처럼 보였던 지식이 이후 다른 특화 작업을 학습할 때 다시 드러나는 현상이 관찰됐다. 이는 기존에 망각으로 여겨졌던 부분이 실제로는 사라진 것이 아니라, 일시적으로 출력 결과에서 가려졌던 것일 수 있음을 시사한다.

이 과정에서 연구진은 ‘좁은 범위의 특정 작업에 대해 미세 조정을 수행한 뒤 나타나는 망각이나 간섭 현상은 실제로 작업 분포 변화로 인해 발생한 출력 분포의 편향일 가능성이 있다’고 가설을 세웠다. 연구진은 “숫자 카운팅 작업을 대상으로 심층 분석을 진행한 결과 이 가설을 확인할 수 있었다”라며, “MLP 계층을 조정하면 목표 정확도는 높아지지만, 숫자 토큰을 과도하게 출력하는 경향이 함께 나타나며 그와 비례해 기존 작업의 정확도가 크게 떨어졌다. 반면 셀프 어텐션 계층을 조정했을 때는 숫자 토큰에 대한 편향이 거의 없이 목표 작업의 학습 성과를 달성했으며, 기존 작업의 정확도 손실도 발생하지 않았다”라고 설명했다.

논문에서 연구진은 “제한된 범위의 미세 조정 이후 나타나는 기존 작업의 성능 저하는 대부분 일시적인 현상으로 드러났다. 즉, 특정 시점에서 성능이 떨어지더라도 이후 학습 과정에서 다시 회복될 수 있음이 확인됐다”라고 밝혔다. 이어 “이 현상은 개념의 손실이 아니라 다음 토큰 분포의 변화에서 비롯된 것이다. 간단한 ‘카운팅 편향 탐지’ 실험을 통해 이러한 분포 이동이 시각적으로 드러났으며, 계층별 잔차-로짓(residual-to-logit) 분석 결과 변화의 대부분은 셀프 어텐션이 아닌 후반부 MLP 블록에서 발생하는 것으로 나타났다”라고 분석했다.

기업 적용 가능성과 준비 과제

업계 애널리스트들은 이번 연구 결과가 기업의 AI 모델 유지보수와 최적화 전략에 상당한 영향을 미칠 수 있다고 분석했다.

테크아크(Techarc)의 설립자이자 수석 애널리스트인 파이살 카우사는 “이번 연구는 계층별 재학습이라는 혁신적인 접근법을 제시해, 기업 개발자의 업무 방식을 재정의할 잠재력을 지니고 있다”라고 진단했다. 그는 “이 방식은 시간과 비용을 절감할 수 있을 뿐 아니라 AI 모델 재학습에서 흔히 발생하는 ‘치명적 망각’ 문제를 해결하는 데도 효과적이다. SA Proj 계층 조정은 성능 저하 없이 학습 성과를 이끌어냈다”라고 말했다.

카우사는 이번 결과가 매우 유망하지만, 추가적인 검증이 필수적이라고 지적했다. 그는 “이 접근법의 효과와 안정성을 입증하려면, 다양한 시나리오와 환경에서의 추가 테스트가 필요하다. 특히 실제 기업 환경에서 얼마나 일관된 성능을 보일 수 있는지가 중요하다”라고 언급했다.

그레이하운드리서치(Greyhound Research)의 CEO이자 수석 애널리스트인 산칫 비르 고기아는 이번 연구에서 제시한 접근법이 기술팀의 AI 유지보수 과정에서 발생하는 혼란을 크게 줄일 수 있다고 평가했다.

고기아는 “막대한 예산과 분기 단위의 시간이 소요되는 대규모 재학습 프로젝트 대신, 이제는 업데이트를 조용히, 자주 진행할 수 있을 것으로 보인다. 다시 말해 자동차 엔진을 완전히 교체하지 않고 정기 점검하는 것과 같다”하고 말했다. 하지만 그는 부분 재학습을 대규모로 도입하려면 더 견고한 개발 프로세스와 거버넌스 체계가 필요하다고 강조했다. 고기아는 “부분 재학습은 기술적 가능성만으로는 작동하지 않는다. 프로세스가 그 가능성의 속도를 따라잡아야 한다. 기업이 이를 대규모로 지속 가능하게 운영하려면 버전 관리, 모니터링, 반복 검증이 가능한 체계 등 명확한 워크플로우 구조를 갖춰야 한다”라고 분석했다.
[email protected]

Prasanth Aby Thomas is a freelance technology journalist who specializes in semiconductors, security, AI, and EVs. His work has appeared in DigiTimes Asia and asmag.com, among other publications.

Earlier in his career, Prasanth was a correspondent for Reuters covering the energy sector. Prior to that, he was a correspondent for International Business Times UK covering Asian and European markets and macroeconomic developments.

He holds a Master's degree in international journalism from Bournemouth University, a Master's degree in visual communication from Loyola College, a Bachelor's degree in English from Mahatma Gandhi University, and studied Chinese language at National Taiwan University.

이 저자의 추가 콘텐츠