Transformer: Kiến Trúc 'Attention' Đã Tái Định Nghĩa Toàn Bộ Kỷ Nguyên Trí Tuệ Nhân Tạo

Bài báo giới thiệu Transformer, một kiến trúc mạng nơ-ron mới dựa hoàn toàn trên cơ chế chú ý (attention mechanism), loại bỏ hoàn toàn sự phụ thuộc vào các lớp đệ quy (RNN) và tích chập (CNN). Transformer đạt được hiệu suất vượt trội trong các tác vụ dịch máy với khả năng song song hóa tối ưu và thời gian huấn luyện ngắn hơn đáng kể.

Transformer: Kiến Trúc 'Attention' Đã Tái Định Nghĩa Toàn Bộ Kỷ Nguyên Trí Tuệ Nhân Tạo SLIDEIFY ARXIV RESEARCH VOL. 2017 • NO. 1 Transformer: Kiến Trúc 'Attention' Đã Tái Định Nghĩa Toàn Bộ Kỷ Nguyên Trí Tuệ Nhân Tạo Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin Google Brain • Google Research • University of Toronto ☞ Tóm tắt Loại bỏ hoàn toàn tính tuần tự (Recurrence) để đạt khả năng song song hóa tối đa. Cơ chế Self-Attention cho phép kết nối mọi vị trí trong chuỗi với chi phí tính toán hằng số. Thiết lập kỷ lục mới (SOTA) về điểm số BLEU trên các tập dữ liệu dịch máy WMT 2014. Lời mở đầu: Buổi bình minh của một đế chế mới Tháng 6 năm 2017, một nhóm nghiên cứu từ Google Brain và Google Research đã công bố một bài báo có tiêu đề ngắn gọn nhưng đầy tham vọng: "Attention Is All You Need" . Vào thời điểm đó, ít ai có thể ngờ rằng tám trang tài liệu này lại chính là "vụ nổ Big Bang" khai sinh ra kỷ nguyên Generative AI, đặt nền móng cho sự ra đời của ChatGPT, BERT, và cuộc chạy đua vũ trang trí tuệ nhân tạo toàn cầu mà chúng ta đang chứng kiến ngày nay. Trước Transformer, thế giới NLP (Xử lý ngôn ngữ tự nhiên) bị thống trị bởi các mạng nơ-ron đệ quy (RNN), đặc biệt là LSTM (Long Short-Term Memory). Tuy nhiên, các kiến trúc này gặp phải một rào cản chí tử: chúng phải xử lý dữ liệu theo thứ tự tuần tự. Hãy tưởng tượng bạn đang đọc một cuốn sách nhưng chỉ có thể hiểu từ hiện tại nếu nhớ chính xác từ trước đó; đó chính là cách RNN hoạt động. Nó chậm chạp, khó song song hóa và thường "quên" ngữ cảnh khi chuỗi dữ liệu quá dài. * * * 1. Bản chất của vấn đề: Tại sao phải thay đổi? Các mô hình tuần tự như RNN tạo ra các trạng thái ẩn $h_t$ dựa trên $h_{t-1}$ và đầu vào tại vị trí $t$. Bản chất này ngăn cản việc tận dụng sức mạnh tính toán song song của GPU hiện đại. Mặc dù các kỹ thuật như Factorization hay Conditional Computation đã được thử nghiệm, nhưng giới hạn về tính tuần tự vẫn tồn tại. Trong khi đó, Convolutional Neural Networks (CNN) cố gắng giải quyết vấn đề bằng cách tính toán song song cho tất cả các vị trí. Tuy nhiên, với CNN, số lượng hoạt động cần thiết để kết nối thông tin giữa hai vị trí cách xa nhau sẽ tăng lên theo khoảng cách (tuyến tính đối với ConvS2S hoặc logarit đối với ByteNet). Điều này làm cho việc học các phụ thuộc dài hạn (long-range dependencies) trở nên vô cùng khó khăn. "Transformer đã giải quyết triệt để vấn đề này bằng cách giảm số lượng hoạt động xuống còn hằng số $O(1)$" Transformer đã giải quyết triệt để vấn đề này bằng cách giảm số lượng hoạt động xuống còn hằng số $O(1)$ , bất kể khoảng cách giữa các từ là bao nhiêu. 2. Kiến trúc Transformer: Sự kết hợp hoàn hảo Transformer kế thừa cấu trúc Encoder-Decoder nhưng thay thế hoàn toàn các lớp đệ quy bằng các lớp Multi-Head Self-Attention . ENCODER Self-Attention Feed Forward DECODER Masked Attn Enc-Dec Attn Feed Forward K, V Matrix INPUTS OUTPUTS Hình 1: Sơ đồ kiến trúc Transformer với luồng dữ liệu song song hóa. 2.1. Cơ chế Scaled Dot-Product Attention Trái tim của Transformer là cơ chế Attention. Công thức toán học của nó được định nghĩa như sau: $$ Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V $$ Trong đó: • $Q$ (Query): Truy vấn thông tin. • $K$ (Key): Chìa khóa để đối chiếu. • $V$ (Value): Giá trị nội dung thực tế. • $d_k$: Thứ nguyên của vector chìa khóa. 2.2. Multi-Head Attention: Đa góc nhìn ngữ nghĩa Thay vì chỉ tính toán Attention một lần duy nhất, mô hình chia nhỏ các vector thành nhiều "đầu" (heads). Điều này cho phép mô hình đồng thời chú ý đến thông tin từ nhiều không gian biểu diễn khác nhau. Ví dụ, trong câu "Con mèo ngồi trên tấm thảm vì nó mệt", một đầu có thể tập trung vào việc xác định "nó" là "con mèo", trong khi đầu khác tập trung vào hành động "ngồi". 3. So sánh hiệu năng tính toán Bảng dưới đây tóm tắt sự khác biệt về độ phức tạp giữa Transformer và các kiến trúc truyền thống dựa trên dữ liệu từ bài báo: Loại lớp (Layer Type) Độ phức tạp mỗi lớp Số thao tác tuần tự Chiều dài đường dẫn tối đa Self-Attention $O(n^2 \cdot d)$ $O(1)$ $O(1)$ Recurrent (RNN) $O(n \cdot d^2)$ $O(n)$ $O(n)$ Convolutional $O(k \cdot n \cdot d^2)$ $O(1)$ $O(log_k(n))$ Self-Attention (restricted) $O(r \cdot n \cdot d)$ $O(1)$ $O(n/r)$ Chú thích: $n$ là độ dài chuỗi, $d$ là số chiều biểu diễn, $k$ là kích thước kernel. * * * 4. Kết quả thực nghiệm gây chấn động Transformer không chỉ nhanh hơn mà còn thông minh hơn. Trên tập dữ liệu dịch máy WMT 2014 English-to-German, mô hình Transformer (big) đạt mức 28.4 BLEU , cải thiện hơn 2.0 BLEU so với các mô hình tốt nhất trước đó (bao gồm cả các hệ thống ensemble phức tạp). Biểu đồ 1: Điểm BLEU trên tập WMT 2014 (Anh-Đức). Transformer vượt trội so với các mô hình trước đó. Đặc biệt, trong tác vụ English-to-French, mô hình đạt mức 41.8 BLEU chỉ sau 3.5 ngày huấn luyện trên 8 GPU P100 , một con số cực kỳ ấn tượng so với hàng tuần huấn luyện của các kiến trúc cũ. 5. Từ 'Attention' đến ChatGPT: Tác động sâu rộng Mặc dù bài báo gốc tập trung vào dịch máy, nhưng kiến trúc này đã chứng minh khả năng tổng quát hóa đáng kinh ngạc. BERT (2018) : Sử dụng phần Encoder của Transformer để hiểu ngữ cảnh hai chiều. GPT (2018 - nay) : Sử dụng phần Decoder để tạo ra văn bản một cách tự hồi quy. Vision Transformer (ViT) : Áp dụng Transformer vào xử lý hình ảnh, thay thế cho CNN truyền thống. Sự ra đời của Transformer đã dẫn đến việc phát triển các mô hình ngôn ngữ lớn (LLM). Chữ 'T' trong ChatGPT chính là viết tắt của Transformer . Không có cơ chế Self-Attention, chúng ta sẽ không có những hệ thống có khả năng lập luận, viết mã và sáng tạo như hiện nay. 6. Kết luận và Tương lai "Attention Is All You Need" không chỉ là một tiêu đề, đó là một tuyên ngôn. Nó chứng minh rằng sự đơn giản và khả năng mở rộng (scalability) là chìa khóa để tiến tới trí tuệ nhân tạo tổng quát (AGI). Hiện nay, các nhà nghiên cứu đang tiếp tục cải tiến Transformer để xử lý các chuỗi dài hơn (lên tới hàng triệu token) và giảm chi phí năng lượng. Tuy nhiên, dù công nghệ có tiến xa đến đâu, kiến trúc cốt lõi được giới thiệu vào năm 2017 này vẫn sẽ mãi là một cột mốc chói lọi trong lịch sử khoa học máy tính. Tài liệu tham khảo Vaswani, A., et al. (2017). Attention Is All You Need. Bahdanau, D., et al. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Sennrich, R., et al. (2015). Neural Machine Translation of Rare Words with Subword Units. Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. © 2025 Slideify.app • Generated by Slideify Arxiv