세상을 바꾼 단 한 편의 논문: 트랜스포머(Transformer)와 AI 혁명의 시작

본 논문은 기존의 복잡한 순환 신경망(RNN)이나 컨볼루션 신경망(CNN) 구조를 완전히 배제하고, 오직 어텐션(Attention) 메커니즘만을 사용하는 새로운 네트워크 아키텍처인 '트랜스포머(Transformer)'를 제안한다. 기계 번역 작업에서 기존 모델보다 월등한 성능과 압도적인 병렬 연산 효율성을 입증하며 현대 생성형 AI의 근간이 되었다.

세상을 바꾼 단 한 편의 논문: 트랜스포머(Transformer)와 AI 혁명의 시작 Vol. 2017 • No. 1 Slideify Arxiv Research Seoul, KR 세상을 바꾼 단 한 편의 논문 트랜스포머(Transformer)와 AI 혁명의 시작 Authors: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin • Google Brain, Google Research, University of Toronto 본 논문은 기존의 복잡한 순환 신경망(RNN)이나 컨볼루션 신경망(CNN) 구조를 완전히 배제하고, 오직 어텐션(Attention) 메커니즘만을 사용하는 새로운 네트워크 아키텍처인 '트랜스포머(Transformer)'를 제안한다. 기계 번역 작업에서 기존 모델보다 월등한 성능과 압도적인 병렬 연산 효율성을 입증하며 현대 생성형 AI의 근간이 되었다. 서론: 2017년, AI의 역사가 다시 쓰여지다 2017년 뉴럴 정보처리 시스템 학회(NIPS)에서 발표된 구글 브레인 팀의 논문, "Attention Is All You Need" 는 현대 컴퓨터 과학 역사상 가장 영향력 있는 문서 중 하나로 꼽힙니다. 당시 자연어 처리(NLP) 학계는 LSTM(Long Short-Term Memory)과 GRU 같은 순환 신경망(RNN)이 지배하고 있었습니다. 하지만 구글 연구진은 파격적인 선언을 합니다. "복잡한 RNN이나 CNN 없이, 오직 어텐션(Attention)만으로 충분하다"는 것이었습니다. ☞ 핵심 요약 (Key Takeaways) 순환 신경망(RNN)과 컨볼루션(CNN)을 완전히 대체하는 어텐션 기반 아키텍처의 탄생. 기존 모델 대비 훈련 시간을 획기적으로 단축하면서도 기계 번역 분야 SOTA 달성. 장거리 문맥 파악 능력을 극대화하여 오늘날 생성형 AI(Generative AI)의 기술적 토대 마련. 이 한 문장은 이후 7년 동안 전 세계를 뒤흔든 GPT-4, Claude, Gemini와 같은 초거대 언어 모델(LLM)의 탄생을 알리는 서막이었습니다. 오늘날 우리가 사용하는 ChatGPT의 심장인 '트랜스포머(Transformer)' 아키텍처가 바로 이 논문에서 세상에 처음 공개되었습니다. § 1. 기존 모델의 한계 트랜스포머 이전의 세상을 이해하려면 RNN의 치명적인 약점을 알아야 합니다. RNN은 단어를 하나씩 순서대로 읽습니다. 이는 두 가지 큰 문제를 야기했습니다. 병렬 연산의 불가능 : 앞 단어의 처리가 끝나야 다음 단어를 처리할 수 있어, 최신 GPU의 강력한 성능을 제대로 활용할 수 없었습니다. 장기 의존성(Long-range Dependencies) 문제 : 문장이 길어질수록 앞부분에 나왔던 정보가 뒤로 갈수록 희미해지는 현상이 발생했습니다. 트랜스포머는 이러한 구조를 완전히 뒤엎었습니다. 문장의 모든 단어를 동시에(In Parallel) 입력받고, 각 단어 간의 관계를 직접 계산하는 Self-Attention 방식을 도입한 것입니다. 2. 트랜스포머의 핵심 엔진 트랜스포머 모델의 가장 핵심적인 계산식은 Scaled Dot-Product Attention입니다. 수식은 다음과 같이 우아하고 간결합니다. Attention(Q, K, V) = softmax( (QK T ) / √d k ) V Fig 1. The Transformer Architecture Blueprint Inputs (Embedding) + Positional Enc. Nx Multi-Head Attn Feed Forward Masked Attn Cross Attn Softmax Probabilities ENCODER DECODER 여기서 $Q$(Query)는 정보를 찾고자 하는 주체, $K$(Key)는 정보의 인덱스, $V$(Value)는 실제 정보를 의미합니다. 논문에서는 내적 결과값이 너무 커지는 것을 막기 위해 스케일링을 추가했습니다. 이 메커니즘을 통해 모델은 문장 내에서 어떤 단어가 다른 어떤 단어와 밀접한 관련이 있는지 스스로 학습합니다. 예를 들어, "The animal didn't cross the street because it was too tired"라는 문장에서 'it' 이 'street'이 아닌 'animal'을 가리킨다는 사실을 어텐션 지도를 통해 명확히 파악할 수 있게 된 것입니다. 3. 아키텍처의 혁신 트랜스포머는 단순히 한 번의 어텐션을 수행하지 않습니다. Multi-Head Attention 을 통해 여러 개의 어텐션 메커니즘을 병렬로 가동합니다. 이는 마치 문장을 읽을 때 한 명은 문법적 관계를, 한 명은 의미적 대조를, 또 한 명은 시제 정보를 파악하는 것과 같습니다. 또한, 모든 단어를 동시에 입력받기 때문에 발생하는 위치 정보의 부재는 Positional Encoding 으로 해결했습니다. 사인 함수와 코사인 함수를 사용하여 각 단어의 절대적 또는 상대적 위치를 수치화하여 입력 벡터에 더해주었습니다. § 4. 압도적인 성능 지표 트랜스포머는 당시 존재하던 모든 모델의 기록을 갈아치웠습니다. 아래 표는 논문에서 제시된 모델 간 성능 및 훈련 비용 비교입니다. 모델 (Model) WMT 2014 En-De (BLEU) WMT 2014 En-Fr (BLEU) 훈련 비용 (FLOPs) ByteNet [18] 23.75 - - GNMT + RL [38] 24.6 39.92 2.3 · 10 19 ConvS2S [9] 25.16 40.46 9.6 · 10 18 Transformer (base) 27.3 38.1 3.3 · 10 18 Transformer (big) 28.4 41.8 2.3 · 10 19 Table 1: 기계 번역 작업에서의 성능 및 비용 비교 Fig 2. Model Performance Comparison (BLEU Score) 실험 결과, 트랜스포머(big) 모델은 영어-독일어 번역에서 28.4 BLEU 점수를 기록하며 기존 최고 기록보다 2.0 BLEU 이상 향상된 성능을 보였습니다. 놀라운 점은 성능뿐만 아니라 훈련 비용입니다. 기존 모델 대비 수분의 일에 불과한 비용으로 더 높은 성능을 달성했습니다. 5. 과거에서 미래로 이 논문은 단순히 번역 기술의 발전에 그치지 않았습니다. 트랜스포머 아키텍처는 이후 BERT(Encoder 기반)와 GPT(Decoder 기반)라는 두 갈래의 거대한 줄기를 형성했습니다. 현재는 텍스트를 넘어 이미지(ViT), 오디오, 비디오를 동시에 처리하는 멀티모달(Multimodal) AI로 확장되고 있습니다. 하지만 최근에는 트랜스포머의 $O(n^2)$ 시간 복잡도 문제를 극복하기 위한 Mamba나 SSM 같은 새로운 시도들도 나타나고 있습니다. 그럼에도 불구하고, 'Attention'이 현대 AI의 가장 핵심적인 '언어'라는 사실은 변함이 없습니다. "복잡한 RNN이나 CNN 없이, 오직 어텐션(Attention)만으로 충분하다" 결론 "Attention Is All You Need"는 인공지능이 인간의 언어를 이해하고 생성하는 방식을 근본적으로 바꾸어 놓았습니다. 병렬 처리를 통한 거대화 가능성, 그리고 어텐션을 통한 깊은 문맥 이해 능력은 오늘날 우리가 목격하고 있는 AI 혁명의 진정한 출발점이었습니다. 기술적 난제를 해결하기 위해 제시된 단순하고 우아한 이 설계도는, 이제 인류의 지식 체계 전반을 지원하는 거대한 인프라로 자리매김했습니다. 참고 문헌 (References) Bahdanau et al. (2014). Neural machine translation by jointly learning to align and translate. Sutskever et al. (2014). Sequence to sequence learning with neural networks. Kingma & Ba (2015). Adam: A method for stochastic optimization. Wu et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. Sennrich et al. (2015). Neural machine translation of rare words with subword units. © 2025 Slideify.app • Generated by Slideify Arxiv