Các công ty AI mới nổi đang sử dụng kỹ thuật 'chưng cất' (distillation) để tận dụng tri thức từ các mô hình tiên phong, làm dấy lên lo ngại về cạnh tranh không lành mạnh và rủi ro công nghệ.
Trong lĩnh vực AI, “chưng cất” (distillation) là quá trình chuyển giao kiến thức giữa các mô hình theo cơ chế giáo viên – học sinh. Theo hai nhà khoa học Vishal Yadav và Nikhil Pandey chia sẻ với Forbes, đây là một kỹ thuật giúp truyền tải tri thức từ một mô hình AI lớn đã được huấn luyện (giáo viên) sang một mô hình nhỏ hơn (học sinh), cho phép mô hình nhỏ hoạt động với hiệu suất gần tương đương mô hình gốc, đồng thời giảm đáng kể chi phí suy luận.
Ali Ghodsi, CEO của Databricks, đã ví von điều này với việc “nếu bạn có cơ hội phỏng vấn Einstein trong vài giờ, bạn có thể bước ra với lượng kiến thức gần bằng ông ấy trong một lĩnh vực vật lý cụ thể”, nhấn mạnh sức mạnh của kỹ thuật này trong việc thu nhỏ mô hình AI mà không đánh mất quá nhiều giá trị cốt lõi.
Ứng dụng DeepSeek trên điện thoại. Ảnh: internet
Các mô hình AI tiên tiến của OpenAI, Google, Meta hay Anthropic thường được đào tạo từ lượng dữ liệu thô khổng lồ, một quá trình kéo dài nhiều tháng và tiêu tốn hàng chục triệu USD. Tuy nhiên, các công ty đi sau có thể tận dụng kết quả từ những mô hình dẫn đầu này và áp dụng phương pháp “chưng cất”, giúp họ phát triển mô hình AI chất lượng cao chỉ trong vài tuần hoặc thậm chí vài ngày, với chi phí thấp hơn đáng kể.
“Quy trình chưng cất là thứ dễ sao chép nhất”, nhà nghiên cứu cấp cao Lewis Tunstall nhận xét trên blog cá nhân vào cuối tuần trước.
Ngày 29/1, OpenAI cho biết họ đã phát hiện dấu hiệu DeepSeek sử dụng kỹ thuật chưng cất. Phương pháp này cho phép các nhà phát triển cải thiện hiệu suất của mô hình nhỏ hơn bằng cách học từ đầu ra của mô hình lớn, giúp đạt kết quả tương đương trong các tác vụ cụ thể với chi phí tối ưu hơn. Dù chưng cất là kỹ thuật phổ biến trong AI, OpenAI nghi ngờ DeepSeek có thể đã vi phạm điều khoản dịch vụ của họ.
Bloomberg cho biết OpenAI và Microsoft đang tiến hành điều tra các tài khoản nghi ngờ thuộc về DeepSeek, từng sử dụng API của OpenAI vào năm ngoái. Do nghi ngờ vi phạm điều khoản, họ đã chặn quyền truy cập.
“Kỹ thuật chưng cất giúp tạo ra một mô hình ngôn ngữ lớn (LLM) chất lượng cao với chi phí thấp hơn”, Chetan Puttagunta, chuyên gia tại Benchmark, chia sẻ với CNBC khi DeepSeek R1 ra mắt. “Họ tận dụng một mô hình lớn để đào tạo mô hình nhỏ hơn, giúp nó trở nên thông minh hơn một cách hiệu quả và tiết kiệm”.
Chưng cất không phải là khái niệm mới trong công nghệ. CNN dẫn các nghiên cứu khoa học cho thấy kỹ thuật này từng được áp dụng rộng rãi trong lĩnh vực xe tự lái. “Phương pháp học tập này có tiềm năng lớn trong nhiều ngành, từ điều khiển robot đến chăm sóc sức khỏe”, trang này nhận định. “Trong xe tự hành, chưng cất giúp tối ưu hóa đào tạo AI cho các nhiệm vụ như hợp nhất dữ liệu cảm biến, phát hiện vật thể và ra quyết định, đồng thời giảm tiêu thụ năng lượng và đảm bảo phản hồi theo thời gian thực”.
Thành công của DeepSeek đang thu hút sự chú ý và đặt ra câu hỏi về hiệu quả của việc đầu tư hàng tỷ USD để dẫn đầu lĩnh vực AI. Liệu những khoản chi khổng lồ của các công ty Mỹ có thực sự mang lại lợi thế bền vững, hay chỉ tạo cơ hội cho đối thủ có chi phí thấp hơn? Theo WSJ, các lãnh đạo AI ở Thung lũng Silicon đang xem xét lại chiến lược của mình và đặt câu hỏi liệu việc dẫn đầu có còn mang lại giá trị như trước đây.
Mike Volpi, giám đốc công nghệ kỳ cựu và nhà đầu tư của Hanabi Capital, đặt ra câu hỏi: “Có hiệu quả kinh tế khi chi gấp tám lần so với các công ty khác trong khi họ đang nhanh chóng bắt kịp?”
Sau khi DeepSeek ra mắt, CEO OpenAI Sam Altman đã ca ngợi các mô hình của DeepSeek là “ấn tượng, đặc biệt về giá trị mà chúng cung cấp”, nhưng khẳng định OpenAI sẽ tiếp tục theo đuổi lộ trình nghiên cứu của riêng mình.
Yann LeCun, Giám đốc AI của Meta, cũng chỉ trích việc so sánh chi phí đầu tư vào AI giữa DeepSeek và các công ty Mỹ. Ông giải thích rằng phần lớn số tiền mà các công ty Mỹ chi tiêu không phải để huấn luyện AI mà là để xây dựng cơ sở hạ tầng phục vụ quá trình suy luận.
Dario Amodei, CEO Anthropic, cũng không cho rằng các mô hình của DeepSeek là một đột phá thay đổi cục diện ngành AI. Theo ông, đây chỉ là một dấu mốc trong xu hướng giảm chi phí AI hiện nay.
Dù có sự nghi ngờ, cộng đồng công nghệ vẫn kỳ vọng rằng phương pháp “chưng cất” sẽ mở ra những ứng dụng AI chất lượng cao trong tương lai. Một nhóm các nhà nghiên cứu trên nền tảng Hugging Face đã bắt đầu phát triển mô hình tương tự DeepSeek.
Mặc dù các mô hình AI từ OpenAI và Google vẫn được đánh giá cao hơn, các công ty lớn này có thể duy trì ưu thế nhờ khả năng đổi mới liên tục. David Sacks, quan chức Nhà Trắng phụ trách chính sách AI và tiền điện tử, hy vọng rằng các công ty Mỹ sẽ tìm cách làm cho việc “chưng cất” các mô hình AI trở nên khó khăn hơn.
Tuy nhiên, trong bối cảnh cạnh tranh khốc liệt, người dùng và doanh nghiệp có xu hướng chọn những công nghệ có chi phí thấp. Việc gia nhập của DeepSeek và các công ty sử dụng phương pháp chưng cất có thể tiếp tục đẩy giá AI xuống thấp hơn.
Ion Stoica, giáo sư khoa học máy tính tại UC Berkeley, nhận định với WSJ: “Ngoài việc giảm giá, kỹ thuật chưng cất cũng giúp bổ sung khả năng mới cho các mô hình AI hiện có”.
Hà Trang (Nguồn tổng hợp)