1. Tạo audio podcast (NotebookLM)
︎ Vào NotebookLM và tải lên các nguồn nội dung của bạn (PDF, bài viết, video YouTube, v.v.).
︎ Sử dụng tính năng “Audio Overview” để tạo một cuộc thảo luận / tranh luận dạng “Khám Phá Sâu” dựa trên các nguồn đã tải.
︎ Tải xuống file âm thanh đã được tạo.
2. Tách track âm thanh (Speaker Split)
︎ Tải file audio lên công cụ Speaker Split.
︎ Công cụ này sẽ tách hai người nói thành hai file âm thanh riêng biệt (Speaker A và Speaker B).
︎ Điều quan trọng là: khi một người nói, track còn lại sẽ im lặng — đây là yếu tố then chốt cho bước tạo video tiếp theo.
3. Nhân bản & lồng tiếng giọng của bạn (11Labs)
︎ Tùy chọn: Nếu bạn muốn một trong các nhân vật có giọng giống bạn, hãy dùng 11Labs để nhân bản giọng nói bằng cách tải lên một đoạn mẫu ngắn.
︎ Sử dụng tính năng Dubbing của 11Labs để xử lý một trong các track âm thanh đã tách (ví dụ: Speaker A).
Tính năng này sẽ thay thế giọng AI gốc bằng giọng đã nhân bản của bạn, đồng thời giữ nguyên nội dung lời nói và nhịp thời gian.
4. Tạo avatar video (Syllaby)
︎ Cho chính bạn: Tạo “Digital Twin” trong HeyGen bằng cách tải lên một video của bạn. Công cụ sẽ tạo ra avatar có ngoại hình và giọng nói giống bạn.
︎ Cho người đồng dẫn: Chọn một avatar công khai từ thư viện của Syllaby để đại diện cho người nói thứ hai.
5. Tạo video
︎ Tạo hai dự án video riêng biệt trong Syllaby — một cho bạn và một cho người đồng dẫn.
︎ Tải lên các file âm thanh tương ứng:
︎ Cho avatar của bạn: tải lên file audio đã được lồng giọng bằng 11Labs.
︎ Cho người đồng dẫn: tải lên file audio gốc đã tách từ Speaker Split.
︎ Tạo (generate) cả hai video.
6. Chỉnh sửa cuối cùng (CapCut)
︎ Nhập cả hai file video đã tạo vào một trình chỉnh sửa video như CapCut.
︎ Đặt chúng lên timeline. Vì audio đã được tách từ đầu, cuộc trò chuyện sẽ khớp hoàn hảo — khi một người nói thì người kia lắng nghe.
︎ Sắp xếp bố cục hiển thị (ví dụ: chia đôi màn hình) để thể hiện cả hai người đang tương tác.
(From: Nguyễn Thành)