Gemini AI

Gemini 1.5 Pro: Giới thiệu và cách đăng ký dùng thử API miễn phí

Google giới thiệu Gemini 1.5: Mô hình AI thế hệ mới với hiểu biết ngữ cảnh vượt trội.

Gemini 1.5 Pro là gì ?

Tuần trước, Google và CEO Alphabet, Sundar Pichai, đã ra mắt Gemini 1.0 Ultra, một bước tiến đáng kể trong việc nâng cao tính hữu ích của các sản phẩm Google, bắt đầu với Gemini Advanced. Kể từ hôm nay, các nhà phát triển và khách hàng của Cloud có thể bắt đầu xây dựng với 1.0 Ultra thông qua API Gemini trong AI StudioVertex AI.

Đội ngũ Google không ngừng phát triển các mô hình mới nhất, đặt vấn đề bảo mật lên hàng đầu. Và giờ đây, họ đã sẵn sàng giới thiệu thế hệ tiếp theo: Gemini 1.5 Pro. Mô hình này cho thấy sự cải tiến vượt bậc trên nhiều phương diện, trong đó 1.5 Pro đạt được chất lượng tương đương với 1.0 Ultra nhưng sử dụng ít tài nguyên tính toán hơn.

Điểm đột phá của thế hệ mới này là khả năng hiểu ngữ cảnh rộng. Google đã tăng đáng kể lượng thông tin mà mô hình có thể xử lý – lên đến 1 triệu token một cách ổn định, đạt mức ngữ cảnh dài nhất trong số các mô hình nền tảng quy mô lớn hiện nay.

Ngữ cảnh dài hơn mở ra cánh cửa cho những khả năng mới mẻ. Chúng sẽ cho phép các nhà phát triển xây dựng các mô hình và ứng dụng hữu ích hơn nhiều. Google rất vui mừng được cung cấp bản xem trước giới hạn tính năng thử nghiệm này cho các nhà phát triển và khách hàng doanh nghiệp. Demis sẽ chia sẻ thêm về tính năng, bảo mật và khả năng truy cập bên dưới.

Hiệu năng vượt trội và hiểu ngữ cảnh dài hơn

Google DeepMind tiếp tục đẩy mạnh ranh giới của AI với việc ra mắt Gemini 1.5 Pro, thế hệ tiếp theo của mô hình ngôn ngữ mạnh mẽ. Dựa trên thành công của Gemini 1.0, mô hình mới này mang đến hiệu suất được cải thiện đáng kể và một bước đột phá trong việc hiểu ngữ cảnh dài.

“Đây là một thời điểm thú vị cho AI,” Demis Hassabis, CEO của Google DeepMind, chia sẻ. “Những tiến bộ mới có khả năng khiến AI trở nên hữu ích hơn cho hàng tỷ người, và Gemini 1.5 là một bước tiến đáng kể trên hành trình này.”

Những điểm nổi bật chính của Gemini 1.5 Pro:

  • Hiệu năng tăng cường: Đạt hiệu suất tương tự như mô hình 1.0 Ultra lớn hơn với kiến trúc Trộn hợp chuyên gia (MoE) hiệu quả hơn.
  • Khả năng mở rộng: Được tối ưu hóa cho nhiều tác vụ khác nhau với mô hình đa phương thức cỡ trung.
  • Hiểu ngữ cảnh dài: Cung cấp tính năng thử nghiệm cửa sổ ngữ cảnh 1 triệu token, vượt xa bất kỳ mô hình nền tảng quy mô lớn nào khác.
  • Khả năng truy cập: Ban đầu có sẵn thông qua bản xem trước riêng tư trong AI Studio và Vertex AI dành cho nhà phát triển và doanh nghiệp.

Mở ra những khả năng mới

Cửa sổ ngữ cảnh mở rộng cho phép Gemini 1.5 xử lý thông tin phong phú hơn và hiểu các tác vụ phức tạp tốt hơn. Điều này mở ra những khả năng thú vị cho các nhà phát triển và doanh nghiệp để:

  • Tạo các ứng dụng AI mạnh mẽ hơn: Xây dựng các ứng dụng yêu cầu hiểu sâu hơn về ngữ cảnh và lịch sử.
  • Phát hiện những hiểu biết mới: Phân tích các tập dữ liệu lớn và xác định các mẫu ẩn với độ chính xác cao hơn.
  • Nâng cao trải nghiệm người dùng: Cung cấp tương tác cá nhân hóa và phù hợp hơn với các hệ thống hỗ trợ AI.

Hướng tới tương lai

Google DeepMind đang tích cực nghiên cứu để tối ưu hóa nhằm cải thiện độ trễ, giảm yêu cầu tính toán và nâng cao trải nghiệm người dùng của cửa sổ ngữ cảnh 1 triệu token. Công ty cam kết sẽ mở rộng khả năng đột phá này trong tương lai.

Thông báo này khẳng định Gemini 1.5 là một bước tiến đáng kể trong lĩnh vực AI, với tiềm năng cách mạng hóa cách chúng ta tương tác và sử dụng công nghệ mạnh mẽ này.

Hỗ trợ lên đến 1.000.000 tokens

Kiến trúc tối ưu

Gemini 1.5 Pro tận dụng nghiên cứu tiên tiến về kiến trúc Transformer và MoE. Trong khi Transformer truyền thống sử dụng một mạng nơ-ron lớn duy nhất, MoE phân chia thành các mạng “chuyên gia” nhỏ hơn.

Tùy thuộc vào loại đầu vào, MoE sẽ kích hoạt chọn lọc các đường dẫn “chuyên gia” phù hợp nhất, cải thiện đáng kể hiệu quả của mô hình.

Google là người tiên phong sử dụng MoE trong học sâu với các nghiên cứu như Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4, v.v. Nhờ đó, Gemini 1.5 Pro học các tác vụ phức tạp nhanh hơn, duy trì chất lượng, đồng thời tiết kiệm tài nguyên khi huấn luyện và vận hành. Điều này giúp nhóm phát triển liên tục cải tiến và cung cấp các phiên bản Gemini tiên tiến hơn, đồng thời tối ưu hóa hơn nữa trong tương lai.

Hiểu ngữ cảnh sâu rộng, mang đến khả năng hữu ích hơn

“Cửa sổ ngữ cảnh” của một mô hình AI được tạo thành từ token, là đơn vị xử lý thông tin cơ bản. Token có thể là toàn bộ hoặc một phần của từ, hình ảnh, video, âm thanh hoặc mã code.

Cửa sổ ngữ cảnh càng lớn, mô hình càng xử lý được nhiều thông tin trong một yêu cầu cụ thể, dẫn đến kết quả nhất quán, phù hợp và hữu ích hơn.

Thông qua các cải tiến trong học máy, chúng tôi đã mở rộng đáng kể dung lượng cửa sổ ngữ cảnh của Gemini 1.5 so với 32.000 token ban đầu của Gemini 1.0. Giờ đây, mô hình có thể xử lý tới 1 triệu token trong môi trường thực tế.

Điều này có nghĩa là 1.5 Pro có thể xử lý khối lượng thông tin khổng lồ trong một lần – bao gồm 1 giờ video, 11 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ.

Trong nghiên cứu, chúng tôi còn thử nghiệm thành công với 10 triệu token.

Lý luận phức tạp về lượng thông tin khổng lồ:

Gemini 1.5 Pro có thể phân tích, phân loại và tóm tắt một cách liền mạch lượng lớn nội dung trong một yêu cầu cụ thể.

Ví dụ, khi được cung cấp 402 trang bản ghi âm từ nhiệm vụ lên mặt trăng của Apollo 11, mô hình có thể suy luận về các cuộc trò chuyện, sự kiện và chi tiết được tìm thấy trong toàn bộ tài liệu.

Ở những video dưới đây, chúng ta tính đọc hiểu 1 hình ảnh sẽ tốn 256 tokens.

Trong như video trên, Gemini 1.5 Pro có thể đọc được 402 trang tương ứng với 326.000 tokens.

Hơn nữa, Google DeepMind đã công bố Gemini 1.5 Pro, phiên bản mới của mô hình ngôn ngữ Gemini 1.5 với khả năng hiểu biết và giải quyết vấn đề vượt trội trên nhiều phương thức dữ liệu, bao gồm cả video.

Hiểu biết sâu hơn với video

  • Gemini 1.5 Pro có thể phân tích chính xác các điểm cốt truyện và sự kiện trong phim hài câm của Buster Keaton dài 44 phút, thậm chí suy luận về những chi tiết nhỏ dễ bị bỏ qua.
  • Chỉ cần một bản vẽ đơn giản về một vật thể trong đời thực làm tài liệu tham khảo, có thể xác định cảnh quay tương ứng trong phim nói trên.

Trong như video trên, Gemini 1.5 Pro có thể hiểu và đọc được video 44 phút tương ứng với 700.000 tokens.

Phân tích và giải quyết hơn 100.000 dòng code chỉ với 816.000 tokens.

Giải quyết vấn đề hiệu quả với mã code dài hơn

  • Gemini 1.5 Pro xử lý tốt hơn các tác vụ giải quyết vấn đề liên quan đến khối mã dài hơn 100.000 dòng.
  • Từ ngữ liệu này, mô hình có thể suy luận theo ngữ cảnh, đề xuất các sửa đổi hữu ích và giải thích cách thức hoạt động của các phần khác nhau trong mã code.

Những cải tiến này của Gemini 1.5 Pro mở ra nhiều ứng dụng mới trong lĩnh vực xử lý ngôn ngữ tự nhiên, bao gồm:

  • Tạo phụ đề tự động cho video.
  • Xây dựng các trợ lý ảo thông minh hơn có thể hiểu và phản hồi các yêu cầu phức tạp.
  • Phát triển các công cụ hỗ trợ lập trình tự động hóa các tác vụ viết và phân tích mã code.

Gemini 1.5 Pro: Tuân thủ cách chính sách bảo mật

Tuân thủ Nguyên tắc AI và chính sách an toàn nghiêm ngặt, Google DeepMind đã tiến hành thử nghiệm đạo đức và an toàn sâu rộng trên các mô hình AI của mình. Những bài học nghiên cứu này sau đó được tích hợp vào quy trình quản lý, phát triển và đánh giá mô hình để liên tục cải thiện hệ thống AI của Google.

Kể từ khi giới thiệu phiên bản 1.0 Ultra vào tháng 12, nhóm nghiên cứu đã tiếp tục tinh chỉnh mô hình, đảm bảo an toàn cho việc phát hành rộng rãi hơn. Các nghiên cứu mới về rủi ro an toàn và phát triển kỹ thuật “kiểm tra thâm nhập” cũng được thực hiện để kiểm tra những nguy hại tiềm ẩn.

Trước khi phát hành 1.5 Pro, Google DeepMind đã tiến hành đánh giá toàn diện về an toàn nội dung và định kiến, tiếp tục mở rộng các thử nghiệm này với 1.5 Pro và phát triển thêm các bài kiểm tra phù hợp với khả năng ngữ cảnh dài của mô hình.

Trải nghiệm và xây dựng với Gemini:

Cam kết mang các thế hệ mô hình Gemini mới đến với hàng tỷ người dùng, nhà phát triển và doanh nghiệp trên toàn thế giới một cách có trách nhiệm, Google DeepMind cung cấp bản xem trước giới hạn của 1.5 Pro cho các nhà phát triển và khách hàng doanh nghiệp thông qua AI Studio và Vertex AI. Chi tiết được đăng tải trên Blog Google dành cho Nhà phát triển và Blog Google Cloud.

Khi sẵn sàng phát hành rộng rãi, 1.5 Pro sẽ được giới thiệu với cửa sổ ngữ cảnh tiêu chuẩn 128.000 token. Trong tương lai gần, Google sẽ thiết lập các tầng giá bắt đầu từ 128.000 token và mở rộng lên 1 triệu token theo sự cải thiện của mô hình.

Người dùng thử nghiệm ban đầu có thể trải nghiệm cửa sổ ngữ cảnh 1 triệu token miễn phí, nhưng cần lưu ý thời gian phản hồi lâu hơn với tính năng thử nghiệm này. Cải thiện tốc độ đáng kể cũng đang được triển khai.

Nhà phát triển quan tâm đến việc thử nghiệm 1.5 Pro có thể đăng ký ngay trên AI Studio, trong khi khách hàng doanh nghiệp có thể liên hệ với nhóm dịch vụ tài khoản Vertex AI của mình.

Hướng dẫn đăng ký Gemini 1.5 Pro

Hiện tại Google vẫn đang sử dụng chính sách “dùng thử” với Gemini 1.5, bạn vui lòng đăng ý waitlist để sử dụng.

Đường dẫn đăng ký: https://aistudio.google.com/app/waitlist/97445851

Chúc các bạn thao tác thành công !

Bài viết liên quan

Back to top button