Arsitektur yang Mengubah Dunia AI: Bedah Tuntas Paper 'Attention Is All You Need'

Makalah ini memperkenalkan Transformer, sebuah arsitektur jaringan saraf baru yang sepenuhnya mengandalkan mekanisme atensi untuk menangani dependensi global antara input dan output, tanpa menggunakan rekurensi atau konvolusi.

Arsitektur yang Mengubah Dunia AI: Bedah Tuntas Paper 'Attention Is All You Need' Vol. 2017 • No. 1 Slideify Arxiv Research Attention Is All You Need Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Łukasz Kaiser Illia Polosukhin Google Brain • Google Research • University of Toronto Arsitektur yang Mengubah Dunia AI: Bedah Tuntas Paper ☞ In Brief • Menghilangkan rekurensi sepenuhnya demi mekanisme self-attention yang dapat diparalelkan. • Mengurangi waktu pelatihan secara signifikan dibandingkan arsitektur berbasis LSTM atau GRU. • Menetapkan standar baru (State-of-the-art) dalam tugas penerjemahan mesin dan pemahaman bahasa. Bayangkan sebuah dunia di mana mesin hanya bisa membaca kalimat kata demi kata, seperti anak kecil yang baru belajar mengeja, lupa apa yang ada di awal kalimat saat mencapai akhir. Itulah keterbatasan utama Recurrent Neural Networks (RNN) dan Long Short-Term Memory (LSTM) sebelum tahun 2017. Namun, sebuah tim peneliti dari Google Brain merilis paper berjudul "Attention Is All You Need", yang secara harfiah menghancurkan paradigma lama tersebut. Artikel ini akan membedah bagaimana arsitektur Transformer menjadi fondasi bagi raksasa AI modern seperti ChatGPT, Claude, dan Gemini. Kita akan menyelidiki mengapa mekanisme sederhana bernama "atensi" mampu mengalahkan kompleksitas rekurensi yang telah mendominasi industri selama satu dekade. Konteks Historis Sebelum Transformer, standar emas untuk pemrosesan bahasa alami (NLP) adalah model Encoder-Decoder berbasis RNN. Masalah utamanya adalah sifatnya yang sekuensial . Untuk menghitung status tersembunyi $h_t$, model harus menunggu hasil dari $h_{t-1}$. Ini menciptakan hambatan (bottleneck) yang tidak memungkinkan paralelisasi besar-besaran pada GPU modern. Selain itu, masalah vanishing gradient membuat model sulit mengingat hubungan antara kata-kata yang letaknya berjauhan dalam dokumen panjang. ENCODER STACK (Nx6) Self-Attention Feed Forward Keys & Values DECODER STACK (Nx6) Masked Self-Attn Encoder-Decoder Attn Feed Forward INPUT (Pos Encoded) OUTPUT PROBABILITIES Fig. 1: Blueprint of the Transformer Architecture showing information flow. Mekanisme Self-Attention Transformer membuang rekurensi dan konvolusi sepenuhnya. Sebagai gantinya, ia menggunakan Self-Attention . Mekanisme ini memungkinkan setiap kata dalam sebuah kalimat untuk "melihat" setiap kata lainnya secara langsung, terlepas dari seberapa jauh jaraknya. "Attention is all you need." Scaled Dot-Product Attention Fungsi atensi inti dapat digambarkan sebagai pemetaan Query (Q), Key (K), dan Value (V) ke dalam sebuah output. Formulanya adalah: $$ Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ Di sini, $d_k$ adalah dimensi dari kunci. Pembagian dengan $\sqrt{d_k}$ dilakukan untuk mencegah nilai dot-product tumbuh terlalu besar, yang dapat menyebabkan fungsi softmax memiliki gradien yang sangat kecil. Multi-Head Attention Alih-alih melakukan satu fungsi atensi tunggal, Transformer menggunakan Multi-Head Attention . Ini memungkinkan model untuk secara bersamaan fokus pada berbagai aspek kalimat. Misalnya, satu "head" mungkin fokus pada hubungan subjek-kata kerja, sementara yang lain fokus pada kata keterangan tempat. * * * Perbandingan Kompleksitas Jenis Lapisan Kompleksitas per Lapis Operasi Sekuensial Jalur Maksimum Self-Attention $O(n^2 \cdot d)$ $O(1)$ $O(1)$ Recurrent $O(n \cdot d^2)$ $O(n)$ $O(n)$ Convolutional $O(k \cdot n \cdot d^2)$ $O(1)$ $O(\log_k(n))$ Self-Attention (restricted) $O(r \cdot n \cdot d)$ $O(1)$ $O(n/r)$ n: panjang urutan, d: dimensi representasi Hasil & Performa Pada tugas penerjemahan mesin WMT 2014, Transformer menetapkan rekor baru. Untuk English-to-German , model ini mencapai skor 28.4 BLEU. Untuk English-to-French , mencapai 41.8 BLEU dengan biaya pelatihan yang jauh lebih rendah daripada kompetitor. Fig. 2: BLEU Score Comparison (WMT 2014 Tasks) Dampak & Masa Depan Tanpa Transformer, kita tidak akan memiliki model bahasa besar (LLM). Arsitektur ini memungkinkan pelatihan pada dataset seukuran seluruh internet (Common Crawl). Kemampuannya untuk menangani konteks panjang telah membuka jalan bagi AI yang mampu menulis esai, membuat kode pemrograman, dan berdialog secara natural. Namun, Transformer bukan tanpa kelemahan. Kompleksitas kuadratik $O(n^2)$ terhadap panjang urutan tetap menjadi tantangan untuk memproses dokumen yang sangat panjang. Inovasi terbaru seperti Linear Attention dan FlashAttention terus berupaya mengoptimalkan warisan yang ditinggalkan oleh paper legendaris ini. References Vaswani et al. (2017). Attention Is All You Need. Bahdanau et al. (2014). Neural machine translation by jointly learning to align and translate. Sennrich et al. (2015). Neural machine translation of rare words with subword units. Hochreiter & Schmidhuber (1997). Long short-term memory. Wu et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. © 2025 Slideify.app • Generated by Slideify Arxiv