VTCN
Moderator
"Nền tảng của Mô hình Ngôn ngữ Lớn"
Chương 1: Tiền huấn luyện (Pre-training)
Chương này trình bày về tiền huấn luyện - quá trình huấn luyện mô hình trên lượng dữ liệu lớn để tạo ra "mô hình nền tảng" có thể điều chỉnh cho nhiều tác vụ khác nhau.Phương pháp tiền huấn luyện:
- Không giám sát: Tối ưu hóa thông số mạng nơ-ron với tiêu chí không liên quan trực tiếp đến tác vụ cụ thể
- Có giám sát: Tiền huấn luyện trên dữ liệu có nhãn của một tác vụ, sau đó chuyển giao cho tác vụ khác
- Tự giám sát: Mô hình học từ tín hiệu giám sát do chính nó tạo ra (phổ biến nhất hiện nay)
Tác vụ tiền huấn luyện tự giám sát:
- Mô hình hóa ngôn ngữ: Dự đoán token tiếp theo dựa vào ngữ cảnh trước đó
- Mô hình hóa ngôn ngữ có mặt nạ: Che ngẫu nhiên các token trong chuỗi và huấn luyện mô hình dự đoán chúng
- Mô hình hóa ngôn ngữ hoán vị: Dự đoán token theo thứ tự tùy ý, không nhất thiết từ trái sang phải
Các kiến trúc mô hình:
- Chỉ encoder: BERT, RoBERTa, ELECTRA
- Chỉ decoder: GPT và các mô hình tự hồi quy
- Encoder-decoder: T5, BART
BERT: Mô hình điển hình
- Kiến trúc dựa trên Transformer encoder
- Huấn luyện bằng 2 tác vụ: dự đoán từ bị che (MLM) và dự đoán câu tiếp theo (NSP)
- Quy trình MLM: Chọn ngẫu nhiên 15% token từ mỗi chuỗi, 80% bị thay bằng [MASK], 10% bị thay bằng token ngẫu nhiên, 10% giữ nguyên
- Các phiên bản: BERT_base (110M tham số) và BERT_large (340M tham số)
Áp dụng mô hình tiền huấn luyện:
- Tinh chỉnh: Điều chỉnh tham số của mô hình đã tiền huấn luyện bằng dữ liệu có nhãn
- Gợi ý (Prompting): Chuyển đổi các vấn đề NLP thành nhiệm vụ sinh văn bản
Chương 2: Mô hình Sinh
Chương này tập trung vào mô hình ngôn ngữ lớn (LLM) sinh văn bản, đặc biệt là các mô hình dựa trên kiến trúc Transformer-decoder.Kiến trúc mô hình:
- Transformer chỉ decoder: Các khối Transformer xếp chồng, mỗi khối gồm một lớp tự chú ý và một lớp FFN
- Cơ chế che: Đảm bảo mô hình chỉ truy cập vào ngữ cảnh bên trái (các token trước đó)
- Các mô hình quy mô lớn: GPT-3 (175B tham số), Chinchilla, LLaMA, v.v.
Huấn luyện LLM:
- Mục tiêu huấn luyện: Tối đa hóa xác suất của chuỗi token trong tập dữ liệu
- Quy trình: Thu thập dữ liệu, tokenize, huấn luyện mô hình dự đoán token tiếp theo
- Luật mở rộng: Hiệu suất tăng theo luật lũy thừa khi tăng kích thước mô hình, dữ liệu và tính toán
Tinh chỉnh và điều chỉnh LLM:
- Tinh chỉnh có giám sát: Điều chỉnh mô hình với dữ liệu có nhãn
- Học ít mẫu: Tinh chỉnh với lượng nhỏ dữ liệu
- Điều chỉnh dựa trên hướng dẫn: Huấn luyện mô hình làm theo hướng dẫn
- Học tăng cường từ phản hồi con người (RLHF): Điều chỉnh mô hình phù hợp với giá trị con người
Mô hình hóa chuỗi dài:
- Thách thức: Giới hạn về bộ nhớ và tính toán khi xử lý văn bản dài
- Giải pháp: Kiến trúc hiệu quả, bộ nhớ đệm, chia sẻ tham số giữa các lớp
Chương 3: Gợi ý (Prompting)
Chương này trình bày các phương pháp gợi ý để tương tác với LLM.Thiết kế gợi ý cơ bản:
- Học trong ngữ cảnh: Thêm ví dụ demo để LLM học cách thực hiện tác vụ
- Chiến lược gợi ý: Các phương pháp tạo gợi ý hiệu quả
Phương pháp gợi ý nâng cao:
- Chuỗi suy nghĩ (Chain of Thought): Dẫn dắt mô hình suy luận từng bước
- Phân tách vấn đề: Chia nhỏ vấn đề phức tạp thành các bước đơn giản hơn
- Tự hoàn thiện: Mô hình tự đánh giá và cải thiện câu trả lời
- Tổng hợp đáp án: Kết hợp nhiều câu trả lời để tăng độ tin cậy
- RAG và sử dụng công cụ: Tích hợp thông tin bên ngoài và công cụ
Học cách gợi ý:
- Tối ưu hóa gợi ý: Phương pháp tìm gợi ý hiệu quả nhất
- Gợi ý mềm: Sử dụng vectơ có thể học được thay vì văn bản
Chương 4: Điều chỉnh (Alignment)
Chương này tập trung vào việc điều chỉnh LLM phù hợp với giá trị và mong muốn của con người.Điều chỉnh theo hướng dẫn:
- Tinh chỉnh có giám sát: Huấn luyện mô hình làm theo hướng dẫn
- Thu thập dữ liệu tinh chỉnh: Phương pháp tạo và thu thập dữ liệu huấn luyện
- Tinh chỉnh với ít dữ liệu: Phương pháp tiết kiệm dữ liệu
- Sử dụng mô hình yếu cải thiện mô hình mạnh: Kỹ thuật chưng cất
Điều chỉnh theo sở thích con người (RLHF):
- Cơ bản về học tăng cường: Nguyên lý nền tảng
- Huấn luyện mô hình thưởng: Mô hình hóa phản hồi của con người
- Tối ưu hóa sở thích trực tiếp (DPO): Thay thế RLHF truyền thống
- Tạo dữ liệu sở thích tự động: Giảm phụ thuộc vào đánh giá của con người
- Điều chỉnh từng bước và thời điểm suy luận: Phương pháp tiếp cận linh hoạt
[hide] https://drive.google.com/file/d/1LvXSWxwqNKIYvgYbOmwKxk-LcW74b_WP/view?usp=drive_link[/hide]
Last edited: