AI tạo ảnh thế hệ mới Stable Diffusion 3 có gì hấp dẫn?
22/03/2024 07:36 am | Lượt xem : 1499
Đầu tháng 2/2024, Stability AI đã công bố Stable Diffusion 3, một mô hình tổng hợp hình ảnh thế hệ mới. Đây là phiên bản tiếp theo của AI Stable Diffusion nổi tiếng thế giới, hứa hẹn sẽ mang lại cho người dùng những hình ảnh với nhiều chủ thể cùng lúc, độ chi tiết cực cao, và có nhiều cải tiến đáng kể về chất lượng lẫn độ chính xác trong khả năng chuyển văn bản thành hình ảnh.
Tăng 300% hiệu suất công việc với AI
Bạn sẽ học được gì?
|
Stable Diffusion 3 có gì “hot”? Hãy cùng Tenten.vn tìm hiểu tiếp nhé!
Contents
Thông tin chung về Stable Diffusion 3
Theo Stability AI, cha đẻ của mô hình Stable Diffusion, Stable Diffusion 3 lần này được phát triển với số lượng tham số từ 800 triệu đến 8 tỷ, tùy thuộc phiên bản. Sự khác biệt này cho phép các phiên bản khác nhau chạy mượt mà trên nhiều loại thiết bị khác nhau – từ smartphone cho đến máy chủ. Kích cỡ tham số cũng quyết định khả năng của mô hình, tức là nó có thể tạo ảnh chi tiết đến mức nào. Các mô hình cỡ lớn hiển nhiên cũng đòi hỏi nhiều VRAM trên GPU hơn.
Từ năm 2022, Stability AI đã tung ra nhiều mô hình AI tạo ảnh: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, và nay là 3. Các mô hình nguồn mở này được xem là sự thay thế hoàn hảo cho các mô hình tổng hợp hình ảnh độc quyền như DALL-E 3 của OpenAI, tuy nhiên cũng thu hút không ít sự tranh cãi do việc sử dụng dữ liệu bản quyền trong quá trình huấn luyện, tính thiên vị, và nguy cơ bị kẻ xấu lợi dụng.
Như đã nói ở trên, vì bản chất là mô hình mã nguồn mở, nên Stable Diffusion 3 có thể chạy không cần mạng và người dùng có thể tinh chỉnh mô hình để thay đổi kết quả đầu ra theo ý muốn.
Về những cải tiến công nghệ, CEO Stability Emad Mostaque cho biết: “Stable Diffusion 3 sử dụng một loại diffusion transformer mới (tương tự Sora AI) kết hợp với flow matching và nhiều cải tiến khác. Nó tận dụng được lợi thế của transformer mới và không những scale tốt hơn mà còn chấp nhận đầu vào đa phương thức nữa”.
Stable Diffusion 3 sử dụng kiến trúc diffusion transformer, vốn là một cách mới để tạo ảnh với AI thông qua việc loại bỏ các block dựng ảnh thông thường (như kiến trúc U-Net) và thay bằng một hệ thống tập trung vào các phần nhỏ trên bức ảnh. Phương thức này được lấy cảm hứng bởi các transformer, vốn rất tốt trong việc xử lý pattern và sequence. Nó không chỉ mở rộng hiệu quả hơn, mà còn cho ra ảnh với chất lượng cao hơn.
Stable Diffusion 3 còn sử dụng flow matching, một kỹ thuật dùng để phát triển mô hình AI có khả năng tạo ảnh bằng cách nghiên cứu quá trình chuyển đổi từ nhiễu hạt ngẫu nhiên thành hình ảnh có cấu trúc rõ rệt một cách mượt mà. Nó làm điều đó mà không cần giả lập từng bước một trong quy trình, thay vào đó tập trung vào flow tổng thể.
Theo Stability AI, Stable Diffusion 3 xử lý tốt hơn đáng kể việc tạo ảnh đa chủ thể so với các phiên bản trước đó. Điều này cho phép người dùng nhập vào các câu lệnh chi tiết hơn, với nhiều thành phần hơn, và nhận được kết quả tốt hơn.
Làm sao để sử dụng Stable Diffusion 3?
Ở thời điểm hiện tại, chúng ta chưa thể tiếp cận Stable Diffusion 3, nhưng các ảnh mẫu được đăng tải trên website và các tài khoản mạng xã hội của Stability AI cho thấy mô hình này hoàn toàn ngang ngửa, thậm chí có phần vượt trội, so với các mô hình tổng hợp hình ảnh tiên tiến nhất hiện nay, bao gồm DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney, và Google Imagen.
Stable Diffusion 3 hứa hẹn khả năng tạo văn bản cực tốt. Trước đây, tạo văn bản luôn là một yếu điểm đặc trưng của các mô hình tổng hợp hình ảnh, do đó một mô hình miễn phí như Stable Diffusion 3 sở hữu cải tiến ấn tượng này quả là điều đáng ngạc nhiên và đáng khen ngợi. Ngoài ra, mức độ chuẩn xác của kết quả so với câu lệnh của Stable Diffusion 3 có vẻ khá tương đồng với DALL-E 3, nhưng một lần nữa, chúng ta cần đợi phiên bản chính thức mới có thể đưa ra kết luận.
Stability AI cho biết đang hợp tác với các chuyên gia để thử nghiệm Stable Diffusion 3, từ đó đảm bảo loại bỏ được mọi rủi ro tiềm ẩn. Đây cũng là hướng đi mà OpenAI đang thực hiện với Sora AI.
Dù Stable Diffusion 3 chưa được phổ biến rộng rãi, nhưng Stability AI cho biết một khi quá trình thử nghiệm hoàn tất, nó sẽ được tải về miễn phí và chạy không cần mạng internet. “Giai đoạn thử nghiệm này, giống như với các mô hình trước đây, là tối quan trọng nhằm thu thập thông tin hữu ích để cải thiện hiệu suất và sự an toàn của mô hình trước khi ra mắt rộng rãi” – Stability AI viết trên trang chủ như vậy.
Được biết, Stability AI đã và đang thử nghiệm khá nhiều kiến trúc tổng hợp hình ảnh thời gian qua. Bên cạnh SDXL và SDXL Turbo, mới đầu tháng này, công ty đã công bố Stable Cascade, một kiến trúc sử dụng quy trình 3 tầng để tổng hợp hình ảnh từ văn bản.
Một số hình ảnh được tạo ra bởi Stable Diffusion 3
Như đã đề cập ở trên, dưới đây là một số hình ảnh tạo ra bởi Stable Diffusion 3, được Stability AI đăng tải trên website và tài khoản mạng xã hội của họ. Bạn có thể thấy rằng chất lượng của chúng phần lớn đều rất ấn tượng!
Tăng 300% hiệu suất công việc với AI
Bạn sẽ học được gì?
|
Bài liên quan
Sora AI là gì? Cách sử dụng Sora AI hiệu quả bạn cần biết