ChatGPT

GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API

Giới thiệu về GPT-4 Turbo

OpenAI đã chính thức cung cấp rộng rãi mô hình GPT-4 Turbo mạnh mẽ với khả năng xử lý hình ảnh thông qua API của công ty, mở ra nhiều cơ hội mới cho các doanh nghiệp và nhà phát triển tích hợp các tính năng ngôn ngữ và thị giác tiên tiến vào các ứng dụng của họ.

Việc ra mắt GPT-4 Turbo với Vision trên API diễn ra sau bản phát hành ban đầu của các tính năng tải lên hình ảnh và âm thanh của GPT-4 vào tháng 9 năm ngoái và việc ra mắt mô hình GPT-4 Turbo được tăng tốc tại hội nghị dành cho nhà phát triển của OpenAI vào tháng 11.

Tính năng

GPT-4 Turbo hứa hẹn cải thiện tốc độ đáng kể, cửa sổ ngữ cảnh đầu vào lớn hơn lên đến 128.000 token (tương đương khoảng 300 trang) và khả năng chi trả tăng cho các nhà phát triển.

Mô hình cải tiến

Một cải tiến quan trọng là khả năng các yêu cầu API sử dụng các chức năng nhận dạng và phân tích hình ảnh của mô hình thông qua JSON định dạng văn bản và gọi hàm. Điều này cho phép các nhà phát triển tạo các đoạn mã JSON có thể tự động hóa các hành động trong các ứng dụng được kết nối, chẳng hạn như gửi email, mua hàng hoặc đăng bài trực tuyến. Tuy nhiên, OpenAI khuyến cáo mạnh mẽ việc xây dựng luồng xác nhận của người dùng trước khi thực hiện các hành động tác động đến thế giới thực.

Một số công ty khởi nghiệp đã tận dụng GPT-4 Turbo với Vision, bao gồm Cognition, nơi mà Devin, một trợ lý viết mã AI, dựa vào mô hình này để tự động tạo toàn bộ mã.

Mặc dù phải đối mặt với sự cạnh tranh gay gắt từ các mô hình mới hơn như Claude 3 Opus của Anthropic và Gemini Advanced của Google, việc ra mắt API sẽ giúp củng cố vị thế của OpenAI trong thị trường doanh nghiệp khi các nhà phát triển đang chờ đợi mô hình ngôn ngữ lớn tiếp theo của công ty.

Giá cả

Trang thông tin về giá API đã được đơn giản hóa. Giá hiện được hiển thị theo đơn vị 1 triệu token thay vì 1 ngàn token.

Điều này giúp việc sử dụng API của các nhà phát triển trở nên dễ dàng hơn và làm cho giá cả rõ ràng hơn – không cần tính toán phức tạp nữa!

Hướng dẫn gọi API Vision qua GPT-4 Turbo

Tại ví dụ này, mình sẽ sử dụng cấu trúc chat.completions của OpenAI.

Thêm key của bạn vào, sau đó dựa theo đoạn code dưới để gọi:

				
					client = OpenAI(
)

response = client.chat.completions.create(
  model="gpt-4-turbo",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Liệt kê các loại quả dưới (ghi rõ số lượng cụ thể)"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://khothietke.net/wp-content/uploads/2021/04/Khothietke.net-PNG-02488.png",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])
				
			

Kết quả:

Chúc các bạn thành công !

Bài viết liên quan

Back to top button