[Ebook] Nền tảng của Mô hình Ngôn ngữ Lớn (LLM)

VTCN · 14 T3 2025

"Nền tảng của Mô hình Ngôn ngữ Lớn"

Chương 1: Tiền huấn luyện (Pre-training)

Chương này trình bày về tiền huấn luyện - quá trình huấn luyện mô hình trên lượng dữ liệu lớn để tạo ra "mô hình nền tảng" có thể điều chỉnh cho nhiều tác vụ khác nhau.

Phương pháp tiền huấn luyện:

Không giám sát: Tối ưu hóa thông số mạng nơ-ron với tiêu chí không liên quan trực tiếp đến tác vụ cụ thể
Có giám sát: Tiền huấn luyện trên dữ liệu có nhãn của một tác vụ, sau đó chuyển giao cho tác vụ khác
Tự giám sát: Mô hình học từ tín hiệu giám sát do chính nó tạo ra (phổ biến nhất hiện nay)

Tác vụ tiền huấn luyện tự giám sát:

Mô hình hóa ngôn ngữ: Dự đoán token tiếp theo dựa vào ngữ cảnh trước đó
Mô hình hóa ngôn ngữ có mặt nạ: Che ngẫu nhiên các token trong chuỗi và huấn luyện mô hình dự đoán chúng
Mô hình hóa ngôn ngữ hoán vị: Dự đoán token theo thứ tự tùy ý, không nhất thiết từ trái sang phải

Các kiến trúc mô hình:

Chỉ encoder: BERT, RoBERTa, ELECTRA
Chỉ decoder: GPT và các mô hình tự hồi quy
Encoder-decoder: T5, BART

BERT: Mô hình điển hình

Kiến trúc dựa trên Transformer encoder
Huấn luyện bằng 2 tác vụ: dự đoán từ bị che (MLM) và dự đoán câu tiếp theo (NSP)
Quy trình MLM: Chọn ngẫu nhiên 15% token từ mỗi chuỗi, 80% bị thay bằng [MASK], 10% bị thay bằng token ngẫu nhiên, 10% giữ nguyên
Các phiên bản: BERT_base (110M tham số) và BERT_large (340M tham số)

Áp dụng mô hình tiền huấn luyện:

Tinh chỉnh: Điều chỉnh tham số của mô hình đã tiền huấn luyện bằng dữ liệu có nhãn
Gợi ý (Prompting): Chuyển đổi các vấn đề NLP thành nhiệm vụ sinh văn bản

Chương 2: Mô hình Sinh

Chương này tập trung vào mô hình ngôn ngữ lớn (LLM) sinh văn bản, đặc biệt là các mô hình dựa trên kiến trúc Transformer-decoder.

Kiến trúc mô hình:

Transformer chỉ decoder: Các khối Transformer xếp chồng, mỗi khối gồm một lớp tự chú ý và một lớp FFN
Cơ chế che: Đảm bảo mô hình chỉ truy cập vào ngữ cảnh bên trái (các token trước đó)
Các mô hình quy mô lớn: GPT-3 (175B tham số), Chinchilla, LLaMA, v.v.

Huấn luyện LLM:

Mục tiêu huấn luyện: Tối đa hóa xác suất của chuỗi token trong tập dữ liệu
Quy trình: Thu thập dữ liệu, tokenize, huấn luyện mô hình dự đoán token tiếp theo
Luật mở rộng: Hiệu suất tăng theo luật lũy thừa khi tăng kích thước mô hình, dữ liệu và tính toán

Tinh chỉnh và điều chỉnh LLM:

Tinh chỉnh có giám sát: Điều chỉnh mô hình với dữ liệu có nhãn
Học ít mẫu: Tinh chỉnh với lượng nhỏ dữ liệu
Điều chỉnh dựa trên hướng dẫn: Huấn luyện mô hình làm theo hướng dẫn
Học tăng cường từ phản hồi con người (RLHF): Điều chỉnh mô hình phù hợp với giá trị con người

Mô hình hóa chuỗi dài:

Thách thức: Giới hạn về bộ nhớ và tính toán khi xử lý văn bản dài
Giải pháp: Kiến trúc hiệu quả, bộ nhớ đệm, chia sẻ tham số giữa các lớp

Chương 3: Gợi ý (Prompting)

Chương này trình bày các phương pháp gợi ý để tương tác với LLM.

Thiết kế gợi ý cơ bản:

Học trong ngữ cảnh: Thêm ví dụ demo để LLM học cách thực hiện tác vụ
Chiến lược gợi ý: Các phương pháp tạo gợi ý hiệu quả

Phương pháp gợi ý nâng cao:

Chuỗi suy nghĩ (Chain of Thought): Dẫn dắt mô hình suy luận từng bước
Phân tách vấn đề: Chia nhỏ vấn đề phức tạp thành các bước đơn giản hơn
Tự hoàn thiện: Mô hình tự đánh giá và cải thiện câu trả lời
Tổng hợp đáp án: Kết hợp nhiều câu trả lời để tăng độ tin cậy
RAG và sử dụng công cụ: Tích hợp thông tin bên ngoài và công cụ

Học cách gợi ý:

Tối ưu hóa gợi ý: Phương pháp tìm gợi ý hiệu quả nhất
Gợi ý mềm: Sử dụng vectơ có thể học được thay vì văn bản

Chương 4: Điều chỉnh (Alignment)

Chương này tập trung vào việc điều chỉnh LLM phù hợp với giá trị và mong muốn của con người.

Điều chỉnh theo hướng dẫn:

Tinh chỉnh có giám sát: Huấn luyện mô hình làm theo hướng dẫn
Thu thập dữ liệu tinh chỉnh: Phương pháp tạo và thu thập dữ liệu huấn luyện
Tinh chỉnh với ít dữ liệu: Phương pháp tiết kiệm dữ liệu
Sử dụng mô hình yếu cải thiện mô hình mạnh: Kỹ thuật chưng cất

Điều chỉnh theo sở thích con người (RLHF):

Cơ bản về học tăng cường: Nguyên lý nền tảng
Huấn luyện mô hình thưởng: Mô hình hóa phản hồi của con người
Tối ưu hóa sở thích trực tiếp (DPO): Thay thế RLHF truyền thống
Tạo dữ liệu sở thích tự động: Giảm phụ thuộc vào đánh giá của con người
Điều chỉnh từng bước và thời điểm suy luận: Phương pháp tiếp cận linh hoạt

Sách cung cấp nền tảng vững chắc về cách thức xây dựng, huấn luyện và tinh chỉnh mô hình ngôn ngữ lớn, từ nguyên lý cơ bản đến kỹ thuật tiên tiến, giúp hiểu sâu về công nghệ đang định hình tương lai của xử lý ngôn ngữ tự nhiên.

[hide] https://drive.google.com/file/d/1LvXSWxwqNKIYvgYbOmwKxk-LcW74b_WP/view?usp=drive_link[/hide]

[Ebook] Nền tảng của Mô hình Ngôn ngữ Lớn (LLM)

VTCN

Moderator

"Nền tảng của Mô hình Ngôn ngữ Lớn"​

Chương 1: Tiền huấn luyện (Pre-training)​

Phương pháp tiền huấn luyện:​

Tác vụ tiền huấn luyện tự giám sát:​

Các kiến trúc mô hình:​

BERT: Mô hình điển hình​

Áp dụng mô hình tiền huấn luyện:​

Chương 2: Mô hình Sinh​

Kiến trúc mô hình:​

Huấn luyện LLM:​

Tinh chỉnh và điều chỉnh LLM:​

Mô hình hóa chuỗi dài:​

Chương 3: Gợi ý (Prompting)​

Thiết kế gợi ý cơ bản:​

Phương pháp gợi ý nâng cao:​

Học cách gợi ý:​

Chương 4: Điều chỉnh (Alignment)​

Điều chỉnh theo hướng dẫn:​

Điều chỉnh theo sở thích con người (RLHF):​