Tuần trước, OpenAI công bố bản cập nhật mới dành cho GPT-4o – mô hình ngôn ngữ đang vận hành hàng trăm triệu phiên trò chuyện trong ChatGPT. Theo công bố, bản cập nhật nhằm mục tiêu làm cho mô hình trở nên thông minh hơn và có cá tính hơn, tạo cảm giác gần gũi hơn với người dùng.
Tuy nhiên, ngay sau khi bản cập nhật được triển khai, cộng đồng người dùng đã nhanh chóng phát hiện ChatGPT trở nên quá “nịnh hót”, luôn đồng tình và thiếu trung thực, gây ra cảm giác không thoải mái. Hiện tượng này được gọi là AI sycophancy – hành vi “xu nịnh” một cách máy móc của trí tuệ nhân tạo.
Cuối tuần qua, CEO Sam Altman xác nhận nhóm phát triển đã ghi nhận vấn đề và đang điều tra nguyên nhân. Đến hôm nay, OpenAI đã chính thức thu hồi bản cập nhật GPT-4o trên toàn bộ hệ thống cho người dùng miễn phí, đồng thời đang tiến hành gỡ bỏ dần cho người dùng trả phí.
Trong bài blog đăng tải cùng ngày, OpenAI giải thích rõ điều gì đã xảy ra, tại sao điều đó lại quan trọng và cách họ sẽ xử lý tình trạng “AI nịnh bợ” trong tương lai.
“Bản cập nhật GPT-4o tuần trước hướng tới việc cải thiện tính cách mặc định của mô hình, giúp cuộc trò chuyện trở nên trực quan và hiệu quả hơn. Nhưng chúng tôi đã đặt quá nhiều trọng tâm vào phản hồi ngắn hạn và không tính đến cách người dùng tương tác lâu dài với ChatGPT. Hệ quả là mô hình trở nên quá dễ chịu, nhưng thiếu tính xác thực.”
OpenAI thừa nhận rằng một hành vi mặc định duy nhất khó lòng phù hợp với 500 triệu người dùng toàn cầu, và phản hồi kiểu nịnh hót có thể gây khó chịu hoặc khiến người dùng mất niềm tin.
Trong thời gian tới, công ty sẽ:
- Cải tiến kỹ thuật đào tạo cốt lõi và lời nhắc hệ thống để mô hình không rơi vào trạng thái “nịnh bợ”.
- Thêm rào chắn kiểm soát tính trung thực và minh bạch trong phản hồi.
- Mở rộng thử nghiệm người dùng và lắng nghe phản hồi trực tiếp trước khi triển khai chính thức.
- Nâng cao hệ thống đánh giá và tiếp tục nghiên cứu các vấn đề khác, không chỉ dừng lại ở sycophancy.
- Cho phép người dùng cá nhân hóa phản hồi theo thời gian thực và chọn từ nhiều kiểu tính cách mặc định.
- Khám phá cách tích hợp phản hồi dân chủ rộng rãi hơn để thiết lập hành vi chung của ChatGPT.
Đây là lần đầu tiên một bản cập nhật hành vi mô hình lại gây ra phản ứng mạnh mẽ đến vậy từ cộng đồng, cho thấy sự phổ biến ngày càng lớn của ChatGPT và trách nhiệm đi kèm của OpenAI trong việc điều chỉnh tính cách AI theo hướng phù hợp, chân thực và có ích.