Tìm hiểu về Sora AI – Công nghệ “text-to-video” mới của OpenAI

Minh Tân19 Tháng 2, 2024Last Updated: 11 Tháng 3, 2024

3.890 5 minutes read

Mới đây, 1 mô hình AI mới nhất của OpenAI kết xuất video từ những lời nhắc mà họ cho rằng “diễn giải chính xác các đạo cụ và tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sống động”. Tuy nhiên, công cụ AI mới này vấp phải sự hoài nghi và lo ngại về sự không chính xác.

OpenAI đã chia sẻ cái nhìn đầu tiên về một công cụ mới giúp tạo video ngay lập tức chỉ từ một dòng văn bản.

Bài viết liên quan: Sora AI của OpenAI có thể làm được những gì ?

Sora của OpenAI là gì ?

Sora được đặt tên theo từ tiếng Nhật có nghĩa là “空 – bầu trời”, công cụ của OpenAI đánh dấu bước nhảy vọt mới nhất của công ty trí tuệ nhân tạo khi Google, Meta và công ty khởi nghiệp Runway ML hoạt động trên các mô hình tương tự.

Công ty đằng sau ChatGPT cho biết mô hình của Sora hiểu cách các vật thể “tồn tại trong thế giới vật chất” và có thể “diễn giải chính xác các đạo cụ cũng như tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sống động”.

Trong các ví dụ được đăng trên trang web của họ, OpenAI đã giới thiệu một số video do Sora tạo ra mà “không sửa đổi”. Một đoạn clip ghi lại hình ảnh một người phụ nữ chân thực đang đi bộ trên con phố Tokyo đầy mưa.

Prompt của OpenAI như sau: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.“

Những lời nhắc bao gồm rằng cô ấy “bước đi một cách tự tin và thản nhiên”, “đường phố ẩm ướt và phản chiếu, tạo ra hiệu ứng phản chiếu của ánh đèn nhiều màu sắc” và “nhiều người đi bộ đi lại”.

Chúng ta tiến hành kiểm thử với Pika.art.

So sánh Pika.art và Sora của OpenAI

Một bức ảnh khác, với lời nhắc “một số con voi ma mút lông khổng lồ tiếp cận đồng cỏ đầy tuyết”, cho thấy những loài động vật đã tuyệt chủng gần một dãy núi tung ra bột tuyết khi chúng bước đi.

Dưới đây, mình cũng sẽ tiếp tục “kiểm thử” với Pika.art, công cụ AI được cho là đang đi đầu về “text-to-video” và “image-to-video”.

Prompt của OpenAI như sau: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.“

Rõ ràng, qua cả 2 video so sánh, Sora của OpenAI hoàn toàn hơn hẳn về toàn bộ các mặt: Thời gian, logic, vật lý, độ sáng, chân thực…v..v..

Chưa kể, Sora có độ dài lên tới 60s, trong khi Pika khi tạo lần đầu chỉ 3s.

Một video do AI tạo ra cũng cho thấy một chú chó đốm đang đi dọc bệ cửa sổ ở Burano, Ý, trong khi một video khác đưa người xem “tham quan một phòng trưng bày nghệ thuật với nhiều tác phẩm nghệ thuật đẹp mắt theo nhiều phong cách khác nhau”.

Mối quan tâm về bản quyền và quyền riêng tư

Nhưng công cụ mới nhất của OpenAI đã vấp phải sự hoài nghi và lo ngại nó có thể bị lạm dụng. Rachel Tobac, thành viên hội đồng cố vấn kỹ thuật của Cơ quan An ninh cơ sở hạ tầng và An ninh mạng (CISA) của Hoa Kỳ, đã đăng trên X rằng “chúng ta cần thảo luận về những rủi ro” của mô hình AI.

Cô nói: “Mối quan tâm lớn nhất của tôi là làm thế nào nội dung này có thể được sử dụng để lừa đảo, thao túng, lừa đảo và gây nhầm lẫn cho công chúng”.

Thiếu minh bạch

Những người khác cũng nêu lên những lo ngại về bản quyền và quyền riêng tư, khi Giám đốc điều hành của công ty AI phi lợi nhuận Fairly Trained Ed Newton-Rex nói thêm: “Bạn đơn giản là không thể tranh luận rằng những mô hình này không hoặc sẽ không cạnh tranh với nội dung mà chúng được đào tạo.” và những người sáng tạo ra nội dung đó.

“Mô hình được đào tạo dựa trên điều gì? Các nhà cung cấp dữ liệu đào tạo có đồng ý cho công việc của họ được sử dụng không? Việc OpenAI hoàn toàn thiếu thông tin về điều này không mang lại sự tự tin.”

Prompt của OpenAI như sau: “Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.“

OpenAI cho biết trong một bài đăng trên blog rằng họ đang thu hút các nghệ sĩ, nhà hoạch định chính sách và những người khác để đảm bảo an toàn trước khi phát hành công cụ mới ra công chúng.

Công ty cho biết: “Chúng tôi đang làm việc với các nhóm đỏ – các chuyên gia về lĩnh vực như thông tin sai lệch, nội dung thù địch và thành kiến – những người sẽ thử nghiệm mô hình một cách đối nghịch”.

“Chúng tôi cũng đang xây dựng các công cụ giúp phát hiện nội dung sai lệch, chẳng hạn như bộ phân loại phát hiện có thể cho biết thời điểm video được Sora tạo ra.”

OpenAI “không thể đoán trước” việc sử dụng Sora

Tuy nhiên, công ty thừa nhận rằng mặc dù đã nghiên cứu và thử nghiệm sâu rộng, “chúng tôi không thể dự đoán tất cả những cách có lợi mà mọi người sẽ sử dụng công nghệ của chúng tôi cũng như tất cả những cách mọi người sẽ lạm dụng nó”.

Họ nói thêm: “Đó là lý do tại sao chúng tôi tin rằng việc học hỏi từ việc sử dụng trong thế giới thực là một thành phần quan trọng trong việc tạo ra và phát hành các hệ thống AI ngày càng an toàn hơn theo thời gian”.

New York Times đã kiện OpenAI vào cuối năm ngoái vì cáo buộc OpenAI và nhà đầu tư lớn nhất của nó là Microsoft, đã sử dụng bất hợp pháp các bài báo của tờ báo để đào tạo và tạo ra ChatGPT .

Vụ kiện cáo buộc rằng mô hình văn bản AI hiện đang cạnh tranh với tờ báo như một nguồn thông tin đáng tin cậy và đe dọa khả năng cung cấp dịch vụ như vậy của tổ chức.

Vào Ngày lễ tình nhân, OpenAI cũng chia sẻ rằng họ đã chấm dứt tài khoản của 5 nhóm liên kết với nhà nước đang sử dụng các mô hình ngôn ngữ lớn của công ty để đặt nền móng cho các chiến dịch hack.

Họ cho biết các nhóm đe dọa – có liên quan đến Nga, Iran, Triều Tiên và Trung Quốc – đang sử dụng các công cụ của công ty cho các nhiệm vụ hack tiền thân như truy vấn nguồn mở, dịch thuật, tìm kiếm lỗi trong mã và chạy các tác vụ mã hóa cơ bản.

#source: news.sky.com

Minh Tân19 Tháng 2, 2024Last Updated: 11 Tháng 3, 2024

3.890 5 minutes read