QwQ-32B, bước tiến lớn của Alibaba với AI học tăng cường
Vào ngày 5/3, Alibaba cho ra mắt mô hình mới nhất QwQ-32B – QwenAI. Mô hình AI này có 32 tỷ tham số, và có hiệu suất vượt qua cả DeepSeek-R1. Đây là bước tiến lớn nhờ Học Tăng Cường (RL) giúp tối ưu hiệu suất trên nền tảng mạnh mẽ. Cùng Tenten.vn khám phá sức mạnh của QwQ-32B từ Alibaba nhé!
QwQ-32B: Sự Kết Hợp Giữa Học Tăng Cường Và Tư Duy Nhân Tạo
Điểm đột phá của QwQ-32B nằm ở việc tích hợp thành công các khả năng của tác nhân (agent) vào mô hình suy luận. Điều này giúp mô hình có thể:
- Tư duy phản biện: Khả năng đánh giá và điều chỉnh quyết định dựa trên dữ liệu đầu vào.
- Sử dụng công cụ: Áp dụng các công cụ tính toán, lập trình để giải quyết vấn đề.
- Thích ứng với phản hồi: Điều chỉnh phương pháp tiếp cận dựa trên phản hồi từ môi trường.
Hiệu Suất Ấn Tượng Của QwQ-32B
QwQ-32B đạt hiệu suất tương đương với DeepSeek-R1, một mô hình AI có đến 671 tỷ tham số (trong đó 37 tỷ được kích hoạt). Đây là minh chứng rõ ràng cho hiệu quả của RL trong việc thu hẹp khoảng cách giữa kích thước mô hình và hiệu suất thực tế.
Mô hình này đã được đánh giá qua nhiều bộ tiêu chuẩn khác nhau để kiểm tra khả năng suy luận toán học, lập trình và giải quyết vấn đề:
- AIME24: QwQ-32B đạt 79.5, gần bằng DeepSeek-R1-6718 (79.8) và cao hơn nhiều so với OpenAI-o1-mini (63.6).
- LiveCodeBench: Đạt 63.4, chỉ thấp hơn một chút so với DeepSeek-R1-6718 (65.9), nhưng cao hơn OpenAI-o1-mini (53.8).
- LiveBench: Ghi nhận điểm số 73.1, vượt qua DeepSeek-R1-6718 (71.6) và bỏ xa OpenAI-o1-mini (57.5).
- IFEval: Đạt 83.9, ngang bằng với DeepSeek-R1-6718 (83.3) và cao hơn OpenAI-o1-mini (59.1).
- BFCL: Ghi điểm 66.4, cao hơn DeepSeek-R1-6718 (62.8) và vượt xa OpenAI-o1-mini (49.3).
Là tương Lai Của AI Nguồn Mở
Một trong những điểm đặc biệt của QwQ-32B là việc nó được phát hành với mã nguồn mở trên Hugging Face và ModelScope theo giấy phép Apache 2.0. Điều này có nghĩa là cộng đồng AI có thể tiếp cận và thử nghiệm mô hình thông qua nền tảng Qwen Chat.
Nhóm Qwen coi đây là bước đầu tiên trong việc mở rộng RL để nâng cao khả năng suy luận, đồng thời hướng tới việc tích hợp các tác nhân AI với RL nhằm đạt được khả năng suy luận dài hạn.
Hướng Tới Trí Tuệ Nhân Tạo Tổng Quát (AGI)
Nhóm Qwen tin rằng mô hình nền tảng mạnh kết hợp với Học Tăng Cường (RL) sẽ là chìa khóa dẫn tối AGI. AGI là Trí tuệ Nhân tạo Tổng quát, là mục tiêu lớn của ngành công nghệ.
Nhóm nghiên cứu Qwen chia sẻ: “Thế hệ tiếp theo của Qwen sẽ tiến gần hơn đến AGI. Chúng tôi kết hợp mô hình mạnh mẽ với RL quy mô lớn.”
QwQ-32B đánh dấu bước tiến quan trọng của Alibaba. Nó cho thấy tương lai AI không chỉ dựa vào quy mô mô hình. Học Tăng Cường giúp AI hiệu quả hơn mà không cần kích thước quá lớn như trước.
Kết luận
QwQ-32B là minh chứng cho tầm nhìn của Alibaba trong AI. Học Tăng Cường (RL) mở ra mộthướng đi mới của AI. Nó giúp mô hình hiệu quả mà không cần kích thước khổng lồ. Tương lai AI sẽ sáng hơn, và cũng cạnh tranh gay gắt hơn. Hãy cùng Tenten.vn theo dõi tin tức tiếp theo của QwQ-32B nhé!