Reddit kiện Anthropic vì dùng dữ liệu trái phép

Reddit vừa chính thức đệ đơn kiện công ty AI Anthropic lên tòa án tại San Francisco, cho rằng công ty này đã sử dụng hàng loạt bài viết trên nền tảng Reddit để huấn luyện mô hình ngôn ngữ Claude mà không có sự đồng ý và không chi trả bất kỳ khoản phí nào. Reddit cho biết hành vi này không chỉ vi phạm thỏa thuận người dùng mà còn phớt lờ các biện pháp kỹ thuật nhằm ngăn chặn hành vi truy xuất dữ liệu tự động.

Reddit nhấn mạnh rằng nội dung người dùng trên nền tảng của họ không phải là kho dữ liệu miễn phí để các công ty AI khai thác. Thực tế, họ đã ký những thỏa thuận trị giá hàng chục triệu USD mỗi năm với các ông lớn như Google và OpenAI để cấp quyền sử dụng dữ liệu. Reddit cho rằng nếu Anthropic đã sử dụng các bài viết này để huấn luyện Claude mà không xin phép, thì đây rõ ràng là hành vi “lợi dụng chất xám người dùng để tạo ra sản phẩm thương mại”.

Xem thêm

ASUS Expert Series: Đột phá bền bỉ và thông minh cho doanh nghiệp Việt

Grok và cú sốc lộ dữ liệu trò chuyện

CMC OpenAI ra mắt: Khi AI Việt Nam bắt đầu “cất cánh”

Theo nội dung đơn kiện, Anthropic bắt đầu truy cập và thu thập dữ liệu từ Reddit từ tháng 12/2021. Đáng chú ý, vào tháng 7/2024, Anthropic từng tuyên bố đã chặn bot không còn thu thập nội dung từ Reddit, nhưng sau đó, các bản ghi kiểm tra lại cho thấy bot của họ vẫn tiếp tục gửi hàng trăm nghìn lượt truy cập đến hệ thống Reddit trong nhiều tháng tiếp theo. Reddit thậm chí còn đưa vào hồ sơ đoạn trò chuyện giữa luật sư của họ và Claude – trong đó Claude trả lời rằng mình “được huấn luyện bằng dữ liệu Reddit”, dù câu trả lời này cần được xem xét cẩn trọng vì AI có thể sinh ra thông tin không chính xác.

Trong đơn kiện, Reddit cáo buộc Anthropic có hành vi “hai mặt” – bên ngoài tuyên bố phát triển AI có trách nhiệm, bên trong lại không ngần ngại phá vỡ quy tắc để phục vụ lợi ích riêng. Reddit yêu cầu bồi thường tài chính từ những lợi nhuận mà Anthropic thu được từ việc sử dụng dữ liệu Reddit, đồng thời đề nghị tòa án buộc Anthropic phải xóa bỏ mọi nội dung liên quan đến Reddit ra khỏi hệ thống, và nếu chatbot Claude được phát triển từ dữ liệu này, thì phải gỡ khỏi thị trường.

Ngoài ra, Reddit cũng yêu cầu bồi thường mang tính răn đe và đòi Anthropic phải thanh toán toàn bộ chi phí pháp lý phát sinh từ vụ kiện.

Vụ việc này không chỉ là cuộc đối đầu pháp lý giữa hai công ty công nghệ, mà còn phản ánh một câu hỏi lớn trong kỷ nguyên AI: Dữ liệu từ cộng đồng trực tuyến – vốn do con người tạo ra – liệu có thể bị các mô hình AI khai thác một cách tự do để tạo ra sản phẩm thương mại, hay cần một ranh giới rõ ràng về bản quyền và sự minh bạch?