Với việc ra mắt mô hình AI mã nguồn mở DeepSeek-R1, phòng nghiên cứu AI của Trung Quốc, DeepSeek, đã thu hút sự chú ý toàn cầu. Mô hình này cạnh tranh trực tiếp với các ông lớn như OpenAI trong các lĩnh vực quan trọng như lý luận toán học, sinh mã (code generation) và tối ưu hóa chi phí. Đây là một bước tiến lớn, đánh dấu sự thay đổi quan trọng trong bối cảnh công nghệ AI toàn cầu.
DeepSeek là gì?
DeepSeek là một phòng nghiên cứu trí tuệ nhân tạo (AI) được tách ra từ Fire-Flyer – chi nhánh học sâu của quỹ phòng hộ định lượng High-Flyer tại Trung Quốc. Được thành lập vào năm 2015, High-Flyer nhanh chóng nổi bật nhờ tận dụng sức mạnh tính toán để phân tích dữ liệu tài chính. Đến năm 2023, nhà sáng lập Liang Wenfeng đã chuyển hướng tài nguyên của công ty để thành lập DeepSeek, với mục tiêu phát triển các mô hình AI tiên phong.
Khác với nhiều công ty AI khác ở Trung Quốc, DeepSeek hoạt động độc lập với các tập đoàn lớn như Baidu hay Alibaba. Động lực của Liang không đến từ lợi nhuận tức thời mà bắt nguồn từ niềm đam mê nghiên cứu khoa học. Ông từng chia sẻ: “Nghiên cứu khoa học cơ bản hiếm khi mang lại lợi nhuận cao ngay lập tức.”
DeepSeek-R1: Đối thủ đáng gờm của OpenAI
Mô hình DeepSeek-R1 là một hệ thống lý luận tiên tiến, vượt qua nhiều tiêu chuẩn hiện hành trong các nhiệm vụ phức tạp. Một điểm đặc biệt là mô hình này, cùng với sáu phiên bản rút gọn khác (có kích thước từ 1,5 tỷ đến 70 tỷ tham số), đều được phát hành mã nguồn mở theo giấy phép MIT. Điều này cho phép các nhà phát triển tự do điều chỉnh, tinh chỉnh và thương mại hóa công nghệ này.
So với các mô hình truyền thống, DeepSeek-R1-Zero không dựa vào huấn luyện có giám sát mà đạt được khả năng lý luận vượt trội thông qua việc sử dụng học tăng cường (RL). Ngoài ra, DeepSeek còn áp dụng các kỹ thuật thiết kế tiên tiến như multi-head latent attention (MLA) và mixture of experts, giúp giảm đáng kể chi phí tài nguyên mà vẫn duy trì hiệu suất cao. Theo báo cáo từ Epoch AI, mô hình mới nhất của DeepSeek chỉ cần một phần mười sức mạnh tính toán so với Llama 3.1 của Meta.
Ai đứng sau DeepSeek?
Liang Wenfeng, sinh năm 1985, là nhà sáng lập và CEO của DeepSeek. Trước đó, ông cũng là đồng sáng lập quỹ đầu tư định lượng High-Flyer. Liang tốt nghiệp Đại học Chiết Giang với bằng kỹ sư điện tử và sau đó lấy bằng thạc sĩ về kỹ thuật thông tin và truyền thông.
Từ năm 2016, Liang cùng đội ngũ của mình đã sử dụng AI và toán học để phát triển các chiến lược đầu tư. Đến năm 2019, ông chuyển hướng tập trung vào AI thông qua High-Flyer AI và cuối cùng thành lập DeepSeek, biến mình thành một trong những nhà tiên phong trong lĩnh vực nghiên cứu trí tuệ nhân tạo tại Trung Quốc.
Nhân tố trẻ dẫn dắt DeepSeek
Đội ngũ nghiên cứu của DeepSeek chủ yếu gồm các sinh viên trẻ tốt nghiệp từ các trường đại học hàng đầu như Đại học Bắc Kinh và Đại học Thanh Hoa. Mặc dù thiếu kinh nghiệm trong ngành, họ mang đến tư duy học thuật phong phú và tinh thần hợp tác, điều mà Liang cho rằng lý tưởng để giải quyết những thách thức lớn trong nghiên cứu AI.
Vượt qua hạn chế từ Mỹ nhờ tận dụng tài nguyên hiệu quả
Thành công của DeepSeek càng ấn tượng hơn khi xét đến các hạn chế từ cuộc cạnh tranh công nghệ giữa Mỹ và Trung Quốc. Vào tháng 10/2022, chính phủ Mỹ áp đặt lệnh kiểm soát xuất khẩu nhằm hạn chế các công ty AI Trung Quốc tiếp cận phần cứng tính toán tiên tiến, bao gồm chip Nvidia H100. Mặc dù DeepSeek bắt đầu với kho dự trữ 10.000 chip H100, nhưng họ nhanh chóng nhận ra rằng cần nhiều hơn thế để cạnh tranh với các đối thủ như OpenAI và Meta.
Để vượt qua những rào cản này, DeepSeek đã phát triển các chiến lược tối ưu hóa tài nguyên như:
- Tối ưu hóa bộ nhớ: Giảm kích thước trường dữ liệu để tiết kiệm tài nguyên.
- Giao tiếp tùy chỉnh: Cải thiện khả năng trao đổi dữ liệu giữa các chip.
- Mix-of-models: Kết hợp các mô hình nhỏ để đạt hiệu quả vượt trội.
Tác động toàn cầu và thách thức các ông lớn AI Phương Tây
Bằng cách mở mã nguồn cho các mô hình của mình, DeepSeek không chỉ thúc đẩy sự đổi mới trong nghiên cứu AI mà còn thách thức vị thế thống trị của các công ty phương Tây. Động thái này không chỉ dân chủ hóa việc tiếp cận các công cụ AI tiên tiến mà còn nâng cao vị thế của Trung Quốc trong lĩnh vực công nghệ toàn cầu.
DeepSeek đã cho thấy rằng với sự sáng tạo, khả năng tối ưu hóa và tinh thần đổi mới, ngay cả những hạn chế lớn nhất cũng không thể ngăn cản bước tiến của AI. Liệu DeepSeek có thể tiếp tục thách thức OpenAI và các ông lớn khác? Chỉ thời gian mới có câu trả lời, nhưng hiện tại, DeepSeek đang khẳng định mình là một ngôi sao sáng trong bầu trời AI quốc tế.