GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API

Minh Tân15 Tháng 4, 2024Last Updated: 15 Tháng 4, 2024

222 2 minutes read

Giới thiệu về GPT-4 Turbo

OpenAI đã chính thức cung cấp rộng rãi mô hình GPT-4 Turbo mạnh mẽ với khả năng xử lý hình ảnh thông qua API của công ty, mở ra nhiều cơ hội mới cho các doanh nghiệp và nhà phát triển tích hợp các tính năng ngôn ngữ và thị giác tiên tiến vào các ứng dụng của họ.

Việc ra mắt GPT-4 Turbo với Vision trên API diễn ra sau bản phát hành ban đầu của các tính năng tải lên hình ảnh và âm thanh của GPT-4 vào tháng 9 năm ngoái và việc ra mắt mô hình GPT-4 Turbo được tăng tốc tại hội nghị dành cho nhà phát triển của OpenAI vào tháng 11.

Bài viết liên quan: Tìm hiểu về Sora AI – Công nghệ “text-to-video” mới của OpenAI

Tính năng

GPT-4 Turbo hứa hẹn cải thiện tốc độ đáng kể, cửa sổ ngữ cảnh đầu vào lớn hơn lên đến 128.000 token (tương đương khoảng 300 trang) và khả năng chi trả tăng cho các nhà phát triển.

Make Real, built by @tldraw, lets users draw UI on a whiteboard and uses GPT-4 Turbo with Vision to generate a working website powered by real code. pic.twitter.com/RYlbmfeNRZ
— OpenAI Developers (@OpenAIDevs) April 9, 2024

Mô hình cải tiến

Một cải tiến quan trọng là khả năng các yêu cầu API sử dụng các chức năng nhận dạng và phân tích hình ảnh của mô hình thông qua JSON định dạng văn bản và gọi hàm. Điều này cho phép các nhà phát triển tạo các đoạn mã JSON có thể tự động hóa các hành động trong các ứng dụng được kết nối, chẳng hạn như gửi email, mua hàng hoặc đăng bài trực tuyến. Tuy nhiên, OpenAI khuyến cáo mạnh mẽ việc xây dựng luồng xác nhận của người dùng trước khi thực hiện các hành động tác động đến thế giới thực.

Một số công ty khởi nghiệp đã tận dụng GPT-4 Turbo với Vision, bao gồm Cognition, nơi mà Devin, một trợ lý viết mã AI, dựa vào mô hình này để tự động tạo toàn bộ mã.

The @healthifyme team built Snap using GPT-4 Turbo with Vision to give users nutrition insights through photo recognition of foods from around the world. pic.twitter.com/jWFLuBgEoA
— OpenAI Developers (@OpenAIDevs) April 9, 2024

Mặc dù phải đối mặt với sự cạnh tranh gay gắt từ các mô hình mới hơn như Claude 3 Opus của Anthropic và Gemini Advanced của Google, việc ra mắt API sẽ giúp củng cố vị thế của OpenAI trong thị trường doanh nghiệp khi các nhà phát triển đang chờ đợi mô hình ngôn ngữ lớn tiếp theo của công ty.

Giá cả

Trang thông tin về giá API đã được đơn giản hóa. Giá hiện được hiển thị theo đơn vị 1 triệu token thay vì 1 ngàn token.

Điều này giúp việc sử dụng API của các nhà phát triển trở nên dễ dàng hơn và làm cho giá cả rõ ràng hơn – không cần tính toán phức tạp nữa!

Hướng dẫn gọi API Vision qua GPT-4 Turbo

Tại ví dụ này, mình sẽ sử dụng cấu trúc chat.completions của OpenAI.

Thêm key của bạn vào, sau đó dựa theo đoạn code dưới để gọi:

				
					client = OpenAI(
)

response = client.chat.completions.create(
  model="gpt-4-turbo",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Liệt kê các loại quả dưới (ghi rõ số lượng cụ thể)"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://khothietke.net/wp-content/uploads/2021/04/Khothietke.net-PNG-02488.png",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

Kết quả: