Mọi thứ bạn cần biết về DALL-E 3, chuẩn mực mới của AI tạo sinh hình ảnh

23/10/2023

Chia sẻ

12811 lượt xem

DALL-E 3 được xem là một tiêu chuẩn đánh giá mới đối với lĩnh vực AI tạo sinh hình ảnh, và là đột phá lớn trong phát triển trí tuệ nhân tạo. Nó vượt trội hoàn toàn so với các phiên bản trước đó, cho thấy công nghệ hiện nay đã tiến bộ đến mức nào, cũng như thể hiện rõ tiềm năng cách mạng hóa lĩnh vực tổng hợp hình ảnh.

Hãy cùng Tenten.vn tìm hiểu về DALL-E 3 nhé!

⬇⬇ Tham gia Group để nhận ngay bộ công cụ AI x3 hiệu suất làm việc ⬇⬇

DALL-E 3

Contents

DALL-E 3 là gì?
Những tính năng nổi bật của DALL-E 3
Cách dùng DALL-E 3
- Mẹo thu được kết quả tốt nhất với DALL-E 3

DALL-E 3 là gì?

DALL-E là một mô hình học máy được phát triển bởi OpenAI, được công bố vào tháng 1 năm 2021. Tên “DALL-E” là sự kết hợp của tên “Dali” (ký hiệu Salvador Dalí, nghệ sĩ nổi tiếng) và “Wall-E” (tên của một robot trong phim hoạt hình năm 2008 có tên “Wall-E”). DALL-E là một biến thể của mô hình GPT-3, và nó được thiết kế để tạo ra hình ảnh từ mô tả văn bản.

DALL-E có khả năng tạo ra hình ảnh tự động dựa trên mô tả văn bản. Người dùng có thể cung cấp cho DALL-E một câu mô tả, và mô hình sẽ tạo ra hình ảnh tương ứng với mô tả đó. Điều này có thể bao gồm những hình ảnh kỳ lạ, trừu tượng, hoặc thậm chí là hình ảnh chưa từng tồn tại trong thực tế.

DALL-E sử dụng một hệ thống mạng thần kinh học sâu để thực hiện tác vụ này và đã tạo ra sự chú ý lớn trong cộng đồng nghiên cứu và công chúng do tiềm năng ứng dụng trong nhiều lĩnh vực, bao gồm nghệ thuật sáng tạo, thiết kế, giáo dục và nhiều ứng dụng khác.

DALL-E 3 là phiên bản cải tiến của DALL-E 2, vốn được phát hành vào năm 2021. DALL-E 3 sử dụng một mô hình ngôn ngữ lớn, được đào tạo trên một tập dữ liệu khổng lồ gồm hình ảnh và văn bản. Mô hình này có thể hiểu mối quan hệ giữa văn bản và hình ảnh, và sử dụng nó để tạo ra hình ảnh phù hợp với mô tả văn bản.

DALL-E 3 hiện có sẵn phiên bản beta cho người dùng ChatGPT Plus và Enterprise.

Những tính năng nổi bật của DALL-E 3

– Tăng cường chi tiết và sắc thái hình ảnh: DALL-E 3 hiểu được rõ ràng những sắc thái phức tạp nhất trong câu lệnh (prompt) mà người dùng đưa ra – có thể nói khả năng này của DALL-E 3 là không có đối thủ. Nó có thể diễn dịch ý tưởng của bạn thành hình ảnh với độ chính xác cực cao, nắm bắt trọn vẹn mọi chi tiết dù là nhỏ nhất.

– Chất lượng hình ảnh tinh tế: DALL-E 3 vượt trội ở khả năng tạo hình ảnh sát với những prompt phức tạp nhất. Dù bạn đang hình dung một khung cảnh với nhiều vật thể tương tác với nhau, hay chỉ đơn giản là muốn có được một sản phẩm miêu tả chính xác những gì mình đang gõ, DALL-E 3 đủ sức đáp ứng kỳ vọng của bạn.

– Không cần prompt cầu kỳ: những ngày tháng bạn phải chọn lựa từng câu, từng chữ để cho ra một prompt ấn tượng đã xa rồi! DALL-E 3 sẽ tạo cho bạn những hình ảnh lôi cuốn ngay từ đầu, đảm bảo truyền tải chính xác hình dung của bạn ra đời thực.

Ngay cả với cùng một prompt, DALL-E 3 vẫn trả về sản phẩm với những cải tiến đáng kể so với DALL-E 2!

DALL-E 3

Cách dùng DALL-E 3

Ở thời điểm hiện tại, DALL-E 3 chỉ dành riêng cho người dùng ChatGPT Plus. Bạn cần có tài khoản ChatGPT và nâng cấp lên gói Plus với giá 20 USD/tháng.

DALL-E 3

DALL-E 3 có số lượt sử dụng hạn chế tương tự GPT-4: bạn chỉ được gửi 50 yêu cầu mỗi 3 tiếng. Về lý thuyết, điều này cho phép bạn tạo hơn 1.000 ảnh mỗi ngày! Quá nhiều so với những AI tạo sinh hình ảnh khác như Dream Studio (sử dụng Stable Diffusion) hay Midjourney.

Nếu muốn thử DALL-E 3 mà không cần tài khoản ChatGPT Plus, bạn có thể dùng Bing Image Creator (https://www.bing.com/images/create). Tuy nhiên, bạn sẽ không thể kiểm soát sâu vào quy trình tạo ảnh như khi dùng với ChatGPT. Về cơ bản, Bing Image Creator cho phép bạn tạo ảnh miễn phí, nhưng ảnh sẽ bị đóng dấu chìm, và nó còn có cả một hệ thống điểm tín nhiệm – nếu bạn dùng quá nhiều, thời gian tạo ảnh sẽ bị chậm đi.

Sau khi đã có tài khoản ChatGPT Plus, bạn vào trang https://chat.openai.com, bấm nút GPT-4 ở trên cùng, chọn DALL-E 3 Beta trong menu hiện ra.

DALL-E 3

Dùng DALL-E 3 không khác dùng ChatGPT là bao. Bạn có thể nhập prompt dạng văn bản thông thường, hoặc tương tác với nó bằng ngôn ngữ tự nhiên. Mỗi prompt sẽ mang lại cho bạn 4 ảnh khác nhau để lựa chọn.

DALL-E 3

Một sự khác biệt của DALL-E 3 so với các phiên bản trước là nó tự động cải thiện prompt của bạn. Nó cũng sử dụng một prompt hơi khác nhau cho mỗi ảnh trong số 4 ảnh tạo ra.

DALL-E 3

Để thấy từng prompt mà DALL-E 3 sử dụng cho mỗi ảnh, chỉ cần bấm vào ảnh. Để tải ảnh, rà chuột lên ảnh và bấm biểu tượng tải về ở góc trên bên trái.

DALL-E 3

Mẹo thu được kết quả tốt nhất với DALL-E 3

Dù DALL-E 3 đang ở giai đoạn beta, nó vẫn đủ khả năng cho ra những hình ảnh rất tuyệt vời. Thế mạnh của DALL-E 3 có lẽ là tranh vẽ, và các loại ảnh minh họa khác, chứ không phải tranh ảnh chân thực. Để có kết quả tốt nhất, bạn có thể làm theo một số mẹo dưới đây.

Đưa prompt chi tiết

DALL-E 3

Như đã nói ở trên, DALL-E 3 có thể tạo ảnh mà không cần prompt cầu kỳ, chi tiết. Nhưng nếu có thể, một prompt chi tiết sẽ giúp bạn thu được ảnh cụ thể và sát với kỳ vọng hơn.

Miêu tả bằng con số và các từ ngữ chỉ vị trí

DALL-E 3

DALL-E 3 hiểu các thành phần trong prompt như các con số và từ ngữ chỉ vị trí các vật thể tốt hơn nhiều so với DALL-E 2. Ví dụ, bạn có thể yêu cầu nó thêm vào một nhân vật ở tiền cảnh, hoặc ở bên trái của ảnh. Tương tự, nếu bạn đưa ra một con số cụ thể về một thứ gì đó, nó sẽ thực hiện chính xác yêu cầu của bạn!

Yêu cầu tạo các biến thể với mức độ khác biệt nhỏ

Nếu yêu cầu DALL-E 3 tạo các biến thể dựa trên một trong các kết quả, nó đôi lúc sẽ làm ảnh thay đổi khá nhiều so với prompt ban đầu. Nếu muốn mọi thứ không quá khác biệt, hãy đề nghị DALL-E 3 tạo biến thể với mức độ khác biệt nhỏ (dùng từ “subtle variatioins”).

Tăng 300% hiệu suất công việc với AI

Bạn sẽ học được gì?