ChatGPT

GPT-4o – Mô hình mới “ngon, bổ, rẻ” của OpenAI ra mắt

GPT-4o là gì ?

Mở rộng khả năng của ChatGPT miễn phí và ra mắt GPT-4o – một bước tiến mới hướng tới tương tác tự nhiên giữa người và máy tính.

GPT-4o (“o” nghĩa là “omni (đa năng)”) có thể tiếp nhận đầu vào là sự kết hợp của văn bản, âm thanh và hình ảnh, đồng thời tạo ra đầu ra dưới dạng văn bản, âm thanh và hình ảnh.

Chỉ trong 232 mili giây (trung bình là 320 mili giây), tương đương với thời gian phản hồi của con người trong cuộc trò chuyện, GPT-4o có thể trả lời cho các đầu vào âm thanh.

Về khả năng xử lý văn bản tiếng Anh và code, GPT-4o ngang bằng với phiên bản GPT-4 Turbo, nhưng lại có ưu điểm vượt trội về xử lý văn bản các ngôn ngữ khác ngoài tiếng Anh.

Bên cạnh đó, GPT-4o còn hoạt động nhanh hơn và tiết kiệm chi phí hơn 50% trong API. Đặc biệt, GPT-4o có khả năng hiểu hình ảnh và âm thanh tốt hơn nhiều so với các mô hình hiện có.

Mô hình "đa năng"

OpenAI đã cho ra mắt GPT-4o, một mô hình ngôn ngữ hàng đầu mới có khả năng xử lý lý luận đa phương thức theo thời gian thực trên cả âm thanh, hình ảnh và văn bản. Trước GPT-4o, người dùng có thể sử dụng chế độ giọng nói để trò chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4).

Để đạt được điều này, chế độ giọng nói là một chuỗi gồm ba mô hình riêng biệt: một mô hình đơn giản phiên âm âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 tiếp nhận văn bản và xuất ra văn bản, và một mô hình đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh.

Quá trình này khiến cho nguồn thông minh chính, GPT-4, mất đi rất nhiều thông tin – nó không thể trực tiếp quan sát âm sắc, nhiều người nói hoặc tiếng ồn nền, và nó cũng không thể tạo ra tiếng cười, hát hoặc thể hiện cảm xúc.

Với GPT-4o, OpenAI đã đào tạo một mô hình mới duy nhất trên toàn bộ văn bản, hình ảnh và âm thanh, nghĩa là tất cả các đầu vào và đầu ra đều được xử lý bởi cùng một mạng lưới thần kinh. Do GPT-4o là mô hình đầu tiên của OpenAI kết hợp tất cả các phương thức này, nên họ vẫn đang trong giai đoạn khám phá những khả năng và hạn chế của mô hình.

Một số ứng dụng của GPT-4o:

  • Sally the mailwoman
  • Poster creation for the movie “Detective”
  • Character design – Geary the robot
  • Poetic typography with iterative editing 1
  • Poetic typography with iterative editing 2
  • Commemorative coin design for GPT-40
  • Photo to caricature
  • Text to font
  • 3D object synthesis
  • Brand placement – logo on coaster
  • Poetic typography
  • Multiline rendering – robot texting
  • Meeting notes with multiple speakers
  • Lecture summarization
  • Variable binding – cube stacking
  • Concrete poetry

Đánh giá mô hình

Dựa trên các tiêu chuẩn đánh giá truyền thống, GPT-4o đạt được hiệu suất tương đương GPT-4 Turbo về khả năng xử lý văn bản, suy luận và lập trình trí tuệ.

Đồng thời, nó cũng thiết lập những kỷ lục mới về khả năng đa ngôn ngữ, xử lý âm thanh và thị giác.

Phân tách từ

20 ngôn ngữ này được lựa chọn để làm đại diện cho khả năng nén của bộ phân chia từ ngữ mới trên các họ ngôn ngữ khác nhau.

Ngôn ngữSố lượng mã thông báo (Token)Giảm so với tiếng Anh
Gujarati334.4x
Telugu453.5x
Tamil353.3x
Marathi332.9x
Hindi312.9x
Urdu332.5x
Arabic262.0x
Persian321.9x
Russian231.7x
Korean271.7x
Vietnamese301.5x
Chinese241.4x
Japanese261.4x
Turkish301.3x
Italian281.2x
German291.2x
Spanish261.1x
Portuguese271.1x
French281.1x
English24

Hướng dẫn sử dụng GPT-4o "miễn phí"

Đầu tiên, bạn truy cập vào: https://chat.openai.com/ –> tiến hành đăng nhập.

Khi bạn nhập 1 ví dụ, sau khi kết thúc, phần chọn model sẽ hiển thị ra, chọn GPT-4o.
Lưu ý: GPT-4o sẽ miễn phí, nhưng sẽ bị giới hạn nếu bạn dùng quá số lần cho phép.

Tiến hành thử nghiệm.

Giá cả

GPT-4o là mô hình đa phương thức tiên tiến nhất, nhanh hơn và rẻ hơn GPT-4 Turbo với khả năng thị giác mạnh mẽ hơn.

Mô hình có ngữ cảnh 128K cho phép tạo ra đầu ra dựa trên kiến ​​thức tháng 10 năm 2023.

ModelInputOutput
gpt-40$0.005/1K tokens$0.015/1K tokens
gpt-40-2024-05-13$0.005/1K tokens$0.015/1K tokens

Tổng kết

GPT4o đã cải tiến đáng kể so với GPT-3.5, vì vậy bạn cần 1 số lưu ý:

  • Đọc & hiểu được hình ảnh trực tiếp.
  • Giá rẻ hơn 1/2 mô hình GPT4.
  • Tốc độ cải thiện 2 lần mô hình GPT4.
  • Sử dụng miễn phí, nhưng sẽ giới hạn nếu sử dụng quá nhiều trong 1 thời điểm.
  • Thành thạo cả 4 kỹ năng nghe, nói, đọc, viết và có khả năng suy luận

Bài viết liên quan

Back to top button