Lo ngại từ phương pháp ‘chưng cất’ trong AI: Cạnh tranh ngày càng gay gắt.
Việc áp dụng kỹ thuật “chưng cất” (distillation) trong ngành công nghệ AI đang tạo ra những cuộc tranh cãi sôi nổi. Cụ thể, các công ty AI mới ra mắt đang sử dụng kỹ thuật này để chuyển giao và tối ưu hóa kiến thức từ các mô hình AI đã được đào tạo trước đó, làm gia tăng sự cạnh tranh trên thị trường.
“Chưng cất” là một phương pháp giúp “truyền tải” kiến thức từ một mô hình AI lớn (gọi là mô hình giáo viên) sang một mô hình nhỏ hơn (mô hình học sinh). Mô hình học sinh này vẫn có thể đạt được hiệu suất gần tương đương với mô hình lớn nhưng lại có chi phí vận hành thấp hơn nhiều. Các nhà nghiên cứu Vishal Yadav và Nikhil Pandey giải thích trên Forbes: “Kỹ thuật này giúp người dùng tận dụng sức mạnh của các mô hình ngôn ngữ lớn, đồng thời giảm đáng kể chi phí tính toán.”
Ali Ghodsi, CEO của Databricks, so sánh phương pháp này với việc phỏng vấn Einstein và bước ra với kiến thức về một lĩnh vực vật lý chỉ trong một thời gian ngắn. Thực tế, công ty AI lớn như OpenAI, Google, hay Meta thường mất hàng tháng trời và hàng triệu đô la để đào tạo một mô hình mạnh mẽ từ đầu, nhưng những công ty khác có thể tận dụng kết quả từ những mô hình này và “chưng cất” kiến thức để tạo ra mô hình AI hiệu quả chỉ trong vài tuần.
Trong một sự kiện gần đây, OpenAI đã phát hiện dấu hiệu của hành vi “chưng cất” từ một ứng dụng tên là DeepSeek. Các nhà phát triển của DeepSeek sử dụng kỹ thuật này để tạo ra mô hình nhỏ nhưng vẫn đạt được hiệu suất cao, có thể làm dấy lên mối nghi ngờ về việc vi phạm điều khoản dịch vụ của OpenAI. Cùng lúc đó, Microsoft và OpenAI đang tiến hành điều tra các tài khoản nghi vấn liên quan đến DeepSeek vì đã sử dụng giao diện lập trình ứng dụng (API) của OpenAI.
Bên cạnh đó, kỹ thuật chưng cất không phải là một ý tưởng hoàn toàn mới. Trước đây, nó đã được ứng dụng nhiều trong lĩnh vực xe tự lái, nơi các mô hình AI được tinh chỉnh để cải thiện độ chính xác trong việc phát hiện vật thể, ra quyết định và tối ưu hóa năng lượng.
Tuy nhiên, sự ra đời của DeepSeek đang khiến giới công nghệ bắt đầu lo ngại về việc các công ty lớn đã bỏ ra hàng tỷ USD để phát triển các hệ thống AI có thể bị đối thủ sử dụng phương pháp “chưng cất” để tạo ra sản phẩm tương tự với chi phí thấp hơn nhiều. Câu hỏi đặt ra là liệu những doanh nghiệp đi đầu có thể duy trì lợi thế cạnh tranh của mình hay không khi các công ty khác có thể nhanh chóng sao chép mô hình của họ với chi phí ít hơn.
Một số lãnh đạo trong ngành như Mike Volpi, giám đốc công nghệ kỳ cựu, cho rằng việc đầu tư hàng tỷ USD vào AI có thể không còn hiệu quả khi các công ty khác nhanh chóng bắt kịp và giảm thiểu chi phí. Mặc dù vậy, các chuyên gia như Yann LeCun của Meta vẫn cho rằng việc so sánh chi phí của những công ty Mỹ và những công ty như DeepSeek là không chính xác, vì phần lớn chi phí của các công ty lớn được sử dụng cho cơ sở hạ tầng, không phải chỉ để đào tạo mô hình.
Cuối cùng, dù có nhiều lo ngại, phương pháp “chưng cất” vẫn hứa hẹn sẽ là một công cụ mạnh mẽ để phát triển các ứng dụng AI tiết kiệm chi phí, khiến giá của công nghệ AI có thể giảm xuống. Các công ty AI nhỏ và các nhà nghiên cứu đang tìm cách tận dụng kỹ thuật này để cung cấp các mô hình AI chất lượng với mức giá phải chăng hơn, đồng thời thúc đẩy sự cạnh tranh trong ngành công nghiệp công nghệ này.