Gemini AI

Gemini 1.5 Pro: Những thông tin quan trọng bạn cần biết

Sự đột phá của Gemini 1.5 Pro

Ít hơn hai tháng trước, Google đã giới thiệu mô hình trí tuệ nhân tạo thế hệ tiếp theo Gemini 1.5 Pro trong Google AI Studio để các nhà phát triển thử nghiệm. Khả năng hiểu ngữ cảnh lên đến 1 triệu token của mô hình này đã tạo ra những đột phá, giúp cộng đồng phát triển debug (kiểm tra và sửa lỗi), sáng tạo và học hỏi hiệu quả.

Hôm nay, Google chính thức cung cấp bản xem trước công khai của Gemini 1.5 Pro thông qua Gemini API trên 180 quốc gia.

Điểm nổi bật của bản cập nhật Gemini 1.5 Pro là khả năng hiểu âm thanh (ngôn ngữ) tự nhiên hoàn toàn mới, cùng với File API giúp xử lý file dễ dàng hơn.

Bên cạnh đó, các tính năng mới như system instructions (chỉ thị hệ thống) và JSON mode cung cấp cho nhà phát triển nhiều quyền kiểm soát hơn đối với đầu ra của mô hình.

Cuối cùng, Google cũng phát hành mô hình nhúng văn bản thế hệ tiếp theo, vượt trội so với các mô hình tương đương khác. Truy cập Google AI Studio để tạo hoặc lấy khoá API và bắt đầu xây dựng các ứng dụng của bạn.

Khả năng hiểu âm thanh

Công nghệ xử lý ngôn ngữ tiên tiến của chúng tôi vừa được nâng cấp đáng kể với khả năng hiểu hiểu nội dung âm thanh (giọng nói). Tính năng này có sẵn trên cả giao diện lập trình ứng dụng (API) Gemini và Google AI Studio.

Điều này có nghĩa là giờ đây, người dùng có thể cung cấp dữ liệu dạng âm thanh bên cạnh hình ảnh để phân tích và tạo ra các kết quả thông minh hơn. Ví dụ, người dùng có thể trích xuất văn bản từ các file ghi âm hoặc video, xác định ý chính của bài phát biểu, thậm chí có thể tóm tắt nội dung theo yêu cầu.

Khả năng kết hợp giữa xử lý hình ảnh và xử lý tiếng nói cũng được cải thiện. Người dùng upload video lên Google AI Studio có thể tận dụng sức mạnh của xử lý đa phương thức để phân tích toàn diện cả nội dung video và âm thanh. Tính năng này hiện đang có sẵn trên Google AI Studio và hỗ trợ API sẽ sớm được cập nhật.

Những cải tiến này mở ra cánh cửa cho vô số ứng dụng sáng tạo trong các lĩnh vực như:

  • Tự động hóa các tác vụ xử lý nội dung âm thanh
  • Cải thiện trợ lý ảo và các ứng dụng tương tác bằng giọng nói
  • Phân tích nội dung video hiệu quả hơn
  • Trích xuất thông tin từ các bài giảng, hội nghị, cuộc họp

Mình tiến hành test một vài trường hợp hoặc các bạn có thể upload trực tiếp trên trang: https://ai.google.dev/

System instructions

Gemini 1.5 Pro cung cấp tính năng hướng dẫn phản hồi của mô hình bằng các hướng dẫn hệ thống. Tính năng này hiện có sẵn trên Google AI Studio và Gemini API. Bạn có thể định nghĩa vai trò, định dạng, mục tiêu và các quy tắc để điều hướng hành vi của mô hình cho trường hợp sử dụng cụ thể của mình.

Về cơ bản, tính năng này cho phép bạn kiểm soát chi tiết hơn cách Gemini 1.5 Pro hoạt động, giúp bạn đạt được kết quả mong muốn.

Chế độ JSON Mode

Tính năng này hữu ích khi bạn cần dùng kết quả để lập trình giao diện.

API của Gemini cung cấp một tham số cấu hình để yêu cầu trả về kết quả dưới dạng JSON.

Lưu ý: Tính năng cấu hình kết quả này chỉ hỗ trợ với model Gemini 1.5 Pro.

Bạn có thể sử dụng tính năng này bằng cách đặt tham số cấu hình response_mime_type thành application/json và cung cấp cấu trúc định dạng JSON trong nội dung yêu cầu. Đoạn code ví dụ cho thấy cách yêu cầu trả về kết quả JSON cho một lời nhắc (prompt).

Improvements to function calling

Cải tiến cho việc gọi hàm: Bây giờ bạn có thể chọn các chế độ để giới hạn đầu ra của mô hình, cải thiện độ tin cậy. 

Chi tiết thêm:

  • Các chế độ đầu ra: Tính năng này cho phép bạn kiểm soát chính xác hơn những gì Gemini 1.5 Pro xuất ra. Bạn có thể chọn:
    • Chỉ văn bản: Chế độ này chỉ trả về kết quả dưới dạng văn bản, loại bỏ các đầu ra khó hiểu hoặc không mong muốn như mã code hay công thức.
    • Gọi hàm: Chế độ này cung cấp cho bạn đầu ra là một hàm, có thể hữu ích khi bạn muốn tích hợp Gemini 1.5 Pro vào quy trình làm việc của mình và tự thực thi hàm đó.

Cải thiện độ tin cậy: Bằng cách chọn chế độ đầu ra phù hợp, bạn có thể đảm bảo Gemini 1.5 Pro cung cấp kết quả chính xác và đáp ứng được nhu cầu cụ thể của bạn. Điều này giúp tránh các trường hợp nhiễu loạn hoặc đầu ra không mong muốn, nâng cao độ tin cậy khi sử dụng mô hình.

Chúc các bạn thao tác thành công.

Bài viết liên quan

Back to top button