GPT-4o – Mô hình mới “ngon, bổ, rẻ” của OpenAI ra mắt

Minh Tân14 Tháng 5, 2024Last Updated: 14 Tháng 5, 2024

735 4 minutes read

GPT-4o là gì ?

Mở rộng khả năng của ChatGPT miễn phí và ra mắt GPT-4o – một bước tiến mới hướng tới tương tác tự nhiên giữa người và máy tính.

GPT-4o (“o” nghĩa là “omni (đa năng)”) có thể tiếp nhận đầu vào là sự kết hợp của văn bản, âm thanh và hình ảnh, đồng thời tạo ra đầu ra dưới dạng văn bản, âm thanh và hình ảnh.

Chỉ trong 232 mili giây (trung bình là 320 mili giây), tương đương với thời gian phản hồi của con người trong cuộc trò chuyện, GPT-4o có thể trả lời cho các đầu vào âm thanh.

Về khả năng xử lý văn bản tiếng Anh và code, GPT-4o ngang bằng với phiên bản GPT-4 Turbo, nhưng lại có ưu điểm vượt trội về xử lý văn bản các ngôn ngữ khác ngoài tiếng Anh.

Bên cạnh đó, GPT-4o còn hoạt động nhanh hơn và tiết kiệm chi phí hơn 50% trong API. Đặc biệt, GPT-4o có khả năng hiểu hình ảnh và âm thanh tốt hơn nhiều so với các mô hình hiện có.

Bài viết liên quan: GPT-4o – Mô hình mới “ngon, bổ, rẻ” của OpenAI ra mắt

Mô hình "đa năng"

OpenAI đã cho ra mắt GPT-4o, một mô hình ngôn ngữ hàng đầu mới có khả năng xử lý lý luận đa phương thức theo thời gian thực trên cả âm thanh, hình ảnh và văn bản. Trước GPT-4o, người dùng có thể sử dụng chế độ giọng nói để trò chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4).

Để đạt được điều này, chế độ giọng nói là một chuỗi gồm ba mô hình riêng biệt: một mô hình đơn giản phiên âm âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 tiếp nhận văn bản và xuất ra văn bản, và một mô hình đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh.

Quá trình này khiến cho nguồn thông minh chính, GPT-4, mất đi rất nhiều thông tin – nó không thể trực tiếp quan sát âm sắc, nhiều người nói hoặc tiếng ồn nền, và nó cũng không thể tạo ra tiếng cười, hát hoặc thể hiện cảm xúc.

Với GPT-4o, OpenAI đã đào tạo một mô hình mới duy nhất trên toàn bộ văn bản, hình ảnh và âm thanh, nghĩa là tất cả các đầu vào và đầu ra đều được xử lý bởi cùng một mạng lưới thần kinh. Do GPT-4o là mô hình đầu tiên của OpenAI kết hợp tất cả các phương thức này, nên họ vẫn đang trong giai đoạn khám phá những khả năng và hạn chế của mô hình.

Một số ứng dụng của GPT-4o:

Sally the mailwoman
Poster creation for the movie “Detective”
Character design – Geary the robot
Poetic typography with iterative editing 1
Poetic typography with iterative editing 2
Commemorative coin design for GPT-40
Photo to caricature
Text to font
3D object synthesis
Brand placement – logo on coaster
Poetic typography
Multiline rendering – robot texting
Meeting notes with multiple speakers
Lecture summarization
Variable binding – cube stacking
Concrete poetry

Đánh giá mô hình

Dựa trên các tiêu chuẩn đánh giá truyền thống, GPT-4o đạt được hiệu suất tương đương GPT-4 Turbo về khả năng xử lý văn bản, suy luận và lập trình trí tuệ.

Đồng thời, nó cũng thiết lập những kỷ lục mới về khả năng đa ngôn ngữ, xử lý âm thanh và thị giác.

Phân tách từ

20 ngôn ngữ này được lựa chọn để làm đại diện cho khả năng nén của bộ phân chia từ ngữ mới trên các họ ngôn ngữ khác nhau.

Ngôn ngữ	Số lượng mã thông báo (Token)	Giảm so với tiếng Anh
Gujarati	33	4.4x
Telugu	45	3.5x
Tamil	35	3.3x
Marathi	33	2.9x
Hindi	31	2.9x
Urdu	33	2.5x
Arabic	26	2.0x
Persian	32	1.9x
Russian	23	1.7x
Korean	27	1.7x
Vietnamese	30	1.5x
Chinese	24	1.4x
Japanese	26	1.4x
Turkish	30	1.3x
Italian	28	1.2x
German	29	1.2x
Spanish	26	1.1x
Portuguese	27	1.1x
French	28	1.1x
English	24	–

Hướng dẫn sử dụng GPT-4o "miễn phí"

Đầu tiên, bạn truy cập vào: https://chat.openai.com/ –> tiến hành đăng nhập.

Khi bạn nhập 1 ví dụ, sau khi kết thúc, phần chọn model sẽ hiển thị ra, chọn GPT-4o.
Lưu ý: GPT-4o sẽ miễn phí, nhưng sẽ bị giới hạn nếu bạn dùng quá số lần cho phép.