<%= HeadlineEncoded %>

Transformer là kiến trúc cốt lõi đứng sau các mô hình AI hiện đại như GPT và BERT. Với cơ chế attention mạnh mẽ, nó đã thay thế gần như hoàn toàn các mô hình tuần tự truyền thống như RNN trong xử lý ngôn ngữ tự nhiên.

Từ dữ liệu đầu vào đến biểu diễn vector

Transformer bắt đầu bằng việc chuyển đổi văn bản thành token thông qua tokenizer. Sau đó, các token này được ánh xạ thành vector thông qua embedding. Vì mô hình không có cấu trúc tuần tự, positional encoding được thêm vào để cung cấp thông tin về thứ tự từ.

Cơ chế Attention

Attention là trái tim của Transformer. Thay vì xử lý tuần tự, mỗi token có thể "chú ý" đến tất cả các token khác. Điều này được thực hiện thông qua các vector Query, Key và Value.

Query: đại diện cho token đang xét
Key: đại diện cho các token khác
Value: thông tin thực sự được truyền

Attention cho phép mô hình hiểu ngữ cảnh toàn cục thay vì cục bộ.

Multi-Head Attention

Thay vì chỉ một phép attention, Transformer sử dụng nhiều head song song. Mỗi head học một kiểu quan hệ khác nhau, từ cú pháp đến ngữ nghĩa.

Encoder và Decoder

Transformer gồm hai phần chính:

Encoder: mã hóa thông tin đầu vào
Decoder: sinh chuỗi đầu ra

Encoder gồm nhiều lớp self-attention và feed-forward. Decoder bổ sung masked attention và cross-attention để sinh token theo thứ tự.

Huấn luyện mô hình

Đầu ra của decoder được đưa qua linear layer và softmax để tạo phân phối xác suất. Sai số được tính bằng loss function và cập nhật thông qua backpropagation.

Các biến thể nổi bật

Transformer đã tạo ra nhiều biến thể:

BERT: chỉ encoder, dùng cho hiểu ngôn ngữ
GPT: chỉ decoder, dùng cho sinh văn bản
T5: encoder-decoder đầy đủ

Kết luận

Transformer không chỉ là một kiến trúc, mà là nền tảng của kỷ nguyên AI hiện đại. Hiểu rõ cách các thành phần tương tác sẽ giúp bạn làm chủ các mô hình mạnh mẽ nhất hiện nay.

Luyện AI · Tạp chí Mỗi ngày 15 phút cùng Huấn luyện viên AI

Luyện ngay 15 phút

Transformer Architecture

Từ dữ liệu đầu vào đến biểu diễn vector

Cơ chế Attention

Multi-Head Attention

Encoder và Decoder

Huấn luyện mô hình

Các biến thể nổi bật

Kết luận

Đọc tiếp trong Đồ thị tri thức

Không khí Đà Lạt

Tầm quan trọng của AI trong công việc hiện nay

Tầm quan trọng của AI trong công việc hiện nay

Giữ lại con người, dù AI đúng