AI đánh giá con người “thông minh hơn thực tế”

Dưới đây là bản dịch tiếng Việt đầy đủ nội dung chính từ bài Yahoo Tech về nghiên cứu chỉ ra rằng các mô hình AI như ChatGPT và Claude đánh giá quá cao khả năng tư duy con người, dịch chính xác & dễ đọc:

:magnifying_glass_tilted_right: AI đánh giá con người “thông minh hơn thực tế”

Một nghiên cứu mới chỉ ra rằng các mô hình trí tuệ nhân tạo phổ biến, bao gồm ChatGPT của OpenAI và Claude của Anthropic, có xu hướng đánh giá quá cao mức độ tư duy logic và khả năng suy nghĩ chiến lược của con người. Điều này có nghĩa là khi AI cố gắng dự đoán hành vi hoặc quyết định của con người, nó thường giả định rằng con người sẽ đưa ra các lựa chọn cực kỳ “hợp lý” và chiến lược — nhưng thực tế thì không phải vậy.

:brain:Thử nghiệm đánh giá mô hình AI với tư duy con người

Để kiểm tra điều này, các nhà nghiên cứu đã dùng một bài kiểm tra trong kinh tế học gọi là Keynesian beauty contest (trò chơi chọn số), vốn yêu cầu người chơi không chỉ chọn theo suy nghĩ cá nhân mà phải dự đoán lựa chọn của người khác.

Trong bài này:

  • Mỗi người/chơi AI chọn một số từ 0 tới 100.

  • Người chiến thắng là người chọn số “gần nhất với một nửa trung bình các số được chọn”.

  • Điều này buộc người chơi phải suy nghĩ cả về những gì người khác nghĩ — tức là tư duy chiến lược sâu.

:robot:Kết quả nghiên cứu

Khi đặt các mô hình AI như ChatGPT-4o và Claude Sonnet 4 tham gia trò chơi này:

  • Chúng thể hiện chiến lược rõ rệt — tức là điều chỉnh lựa chọn dựa trên những mô tả khác nhau về đối thủ (ví dụ sinh viên mới vào hoặc chuyên gia trò chơi).

  • Tuy nhiên, các mô hình này liên tục giả định con người tư duy logic hơn thực tế, và “chơi quá thông minh” so với cách con người bình thường phản ứng.

Điều này có nghĩa là mặc dù mô hình cố gắng mô phỏng tư duy con người, chúng định hướng sai về mức độ logic thực tế của hành vi con người, dẫn tới dự đoán lệch so với hành vi thực tế.

:warning:Tại sao điều này quan trọng?

Sự khác biệt giữa cách AI “nghĩ” và cách con người thật sự hành xử có thể gây ra vấn đề khi AI được dùng để dự đoán hành vi con người trong các lĩnh vực thực tế, như:

  • Phân tích kinh tế

  • Dự đoán quyết định trong mô phỏng chiến lược

  • Ứng dụng AI tương tác người dùng
    Nó cho thấy AI hiện vẫn khó nắm bắt những hành vi không hoàn toàn logic hoặc dựa trên trực giác của con người.

:receipt: Tóm tắt ngắn gọn

Nghiên cứu cho thấy:

:check_mark: Các mô hình AI hiện đại như ChatGPT và Claude thường giả định con người sẽ tư duy chiến lược và logic hơn thực tế.

:check_mark: Trong thử nghiệm trò chơi dự đoán số, AI “chơi quá thông minh” và dự đoán sai hành vi thực tế của người chơi.

:check_mark: Mâu thuẫn giữa kỳ vọng của AI và hành vi thực tế của con người có thể ảnh hưởng tới độ chính xác khi AI dự đoán quyết định con người trong mô phỏng hay ứng dụng thực tế.