“Tất tần tật” những thứ bạn cần biết về GPT-5

Minh Tân3 Tháng 6, 2024Last Updated: 3 Tháng 6, 2024

1.135 12 minutes read

GPT-5 chính thức sắp ra mắt – và tin đồn quyết định ngày phát hành sẽ sớm hơn là muộn.

Trong cuộc phỏng vấn podcast của mình với Bill Gates, CEO của OpenAI, Sam Altman, đã xác nhận vào tháng 1 năm 2024 rằng GPT-5 đang được phát triển.

Các báo cáo cho biết chúng ta có thể sẽ thấy nó sớm hơn chúng ta nghĩ: hai nguồn tin không tên gần gũi với OpenAI đã đề xuất rằng GPT-5 sẽ được phát hành vào giữa năm 2024, có lẽ vào mùa hè này.

GPT-5 là gì?

Trong khi GPT-4 hiện nay có vẻ như là một cuộc cách mạng đối với chúng ta, Sam Altman tin rằng thế giới mới chỉ bắt đầu khám phá bề mặt của trí tuệ nhân tạo. Tại Hội nghị Thượng đỉnh Chính phủ Thế giới vào tháng 1 năm 2024, Altman đã so sánh các mô hình hiện tại của OpenAI với những ngày đầu của điện thoại di động:

“Công nghệ hiện tại mà chúng ta có giống như chiếc điện thoại di động đầu tiên với màn hình đen trắng chỉ có thể hiển thị những con số… nó thực sự không làm được nhiều… Và vào thời điểm đó, [gọi điện thoại] có vẻ tuyệt vời. Và sau đó chúng ta mất… nhiều thập kỷ từ đó để đạt được những chiếc iPhone như hiện nay… Chúng ta đang ở giai đoạn của chiếc điện thoại di động vừa đủ sử dụng.”

Nếu có một điều chắc chắn, thì đó là thế hệ tiếp theo của các mô hình GPT hiện tại chưa thể tưởng tượng được đối với chúng ta. Mặc dù sẽ cần thời gian để chuyển từ phiên bản điện thoại nắp gập của GPT đến phiên bản iPhone, chúng ta sẽ tiến gần hơn một bước vào cuối năm nay.

GPT-5 sẽ là phiên bản LLM được mong đợi nhất cho đến nay. Mô hình AI này sẽ có tốc độ nhanh hơn và khả năng xử lý ngôn ngữ tự nhiên được nâng cao. Vậy nó có gì trong cửa hàng?

“Mô hình này thực sự tốt, tốt hơn rất nhiều,” một CEO có quyền truy cập sớm vào GPT-5 cho biết.

Giới thiệu về GPT-5

Dựa vào hình ảnh, ta sẽ thấy được:

Kích thước dữ liệu huấn luyện: Được so sánh với một dãy kệ thư viện dài 650 km, trong đó mỗi kệ đại diện cho 100.000 token và tổng cộng có 13 nghìn tỷ token.
Yêu cầu tính toán: Kích thước tính toán cần thiết để đào tạo, ước tính là 2,15 triệu tỷ (10 ^ 18) phép toán FLOP, được minh họa mất 7 triệu năm trên một máy tính xách tay cỡ trung bình với hiệu suất 100 GFLOP/giây.
Kích thước mô hình: Với 1,8 nghìn tỷ tham số, được so sánh với 30.000 bảng tính Excel có kích thước bằng một sân bóng đá cộng lại.

Sự khác biệt giữa GPT-5 và GPT-4

Giống như GPT-4 là một sự gia tăng đáng kể so với người tiền nhiệm của nó, không có nghi ngờ gì rằng phiên bản tiếp theo cũng sẽ làm được điều tương tự.

Mặc dù chưa có bản cập nhật nào được OpenAI xác nhận – và có thể sẽ không có trước khi nó được ra mắt bất ngờ – những dự đoán sau đây về những gì có thể mong đợi từ GPT-5 đã được lấy từ các cuộc phỏng vấn nội bộ, các bản cập nhật GPT trước đó và các xu hướng AI từ các LLM đối thủ.

GPT-5 sẽ "smart" hơn GPT-4

Sự khác biệt lớn nhất ở đây là gì ?

Theo Sam Altman: “Mô hình GPT-5 chắc chắn sẽ thông minh hơn.”

Tại Hội nghị Thượng đỉnh Chính phủ Thế giới, Altman nhấn mạnh rằng bước tiến lớn nhất từ GPT-4 đến GPT-5 tưởng chừng như đơn giản nhưng lại rất quan trọng: đó là sự thông minh hơn. “Điều làm cho những mô hình này trở nên kỳ diệu là chúng có tính tổng quát,” ông giải thích. “GPT-5 sẽ thông minh hơn, nên sẽ làm mọi thứ tốt hơn trên mọi phương diện.”

Mặc dù có nhiều cải tiến được mong đợi – các tính năng mới, tốc độ nhanh hơn và khả năng đa phương tiện, theo phỏng vấn của Altman – một mô hình thông minh hơn sẽ nâng cao tất cả các tính năng hiện có của các LLM hiện tại.

Tăng độ tin cậy

Giám độc OpenAI cho rằng rằng độ tin cậy sẽ là trọng tâm chính trong sự phát triển của GPT (Generative Pre-trained Transformer) trong hai năm tới.

“Nếu bạn hỏi GPT-4 hầu hết các câu hỏi 10.000 lần, một trong số 10.000 câu trả lời đó có thể khá tốt, nhưng nó không phải lúc nào cũng biết cái nào, và bạn muốn nhận được câu trả lời tốt nhất trong 10.000 lần mỗi lần hỏi, do đó việc tăng độ tin cậy sẽ rất quan trọng.”

Độ tin cậy từ lâu đã là một vấn đề đối với người dùng GPT-4, với GPT-4 Turbo được phát triển một phần để thực hiện các cập nhật cần thiết nhằm cải thiện sự nhất quán và độ chính xác của kết quả đầu ra của mô hình Turbo đã thấy sự gia tăng trong sự ổn định của mô hình và ít hiện tượng ảo giác của AI hơn.

Vì vậy, nếu các khiếu nại của người dùng có cơ sở được lắng nghe, mô hình mới gần như chắc chắn sẽ được đào tạo để đáng tin cậy hơn GPT-4.

Thực tế, một người trong nội bộ OpenAI giấu tên đã xác nhận rằng đội ngũ đang hy vọng tăng độ tin cậy trong phiên bản tiếp theo.

Khả năng lý luận cải thiện

Trung tâm của trí tuệ tổng quát của GPT-5 là khả năng lý luận nâng cao hơn. “Có lẽ những tiến bộ quan trọng nhất sẽ xoay quanh khả năng lý luận,” Altman chia sẻ với Gates. “Hiện tại, GPT-4 chỉ có thể lý luận theo những cách rất hạn chế.”

Không thiếu những người dùng đăng tải những thất bại của GPT-4 trên Reddit và Medium, từ những lời chỉ trích về khả năng giải quyết vấn đề của nó đến những giải thích chính thức về khả năng lý luận hạn chế của nó. Dễ hiểu tại sao: lý luận là một kỹ năng nổi tiếng khó khăn. Bất kỳ cải tiến đáng kể nào về mặt này sẽ dẫn đến những bước tiến lớn cho hiệu suất của mô hình AI.

Khả năng lý luận được cải thiện có nghĩa là GPT-5 sẽ tốt hơn trong việc hiểu ngữ cảnh, đưa ra suy luận và giải quyết vấn đề so với GPT-4. Kết hợp với một cơ sở kiến thức lớn hơn, điều này sẽ giúp GPT-5 hiểu rõ hơn ý định của người dùng và cung cấp thông tin phù hợp hơn.

Và nếu may mắn, GPT-5 sẽ là mô hình cuối cùng tìm ra cách trả lời những câu đố, đưa nó vượt xa GPT-4.

Đa phương thức

Đa phương thức đã là trọng tâm trong những phiên bản gần đây của GPT. OpenAI không có dấu hiệu chậm lại trong việc này.

OpenAI đã giới thiệu GPT-4o vào tháng 5 năm 2024, mang đến khả năng tăng cường về văn bản, giọng nói và thị giác. Khác xa so với GPT-4 Turbo, nó có thể tham gia vào các cuộc trò chuyện tự nhiên, phân tích đầu vào hình ảnh, mô tả hình ảnh và xử lý âm thanh phức tạp.

Những thay đổi trong đa phương thức tạo ra những biến đổi lớn trong cách chúng ta tương tác với GPT.

Cuộc trò chuyện tự nhiên khi mô hình có thể diễn giải chính xác các thay đổi về giọng điệu và theo các mẫu phát âm giống con người, như GPT-4o là một bước tiến lớn trong xử lý ngôn ngữ tự nhiên của AI.

Và không chỉ dừng lại ở giọng nói và văn bản được nâng cao. OpenAI đã không ngần ngại giới thiệu mô hình văn bản thành video sắp tới của họ, Sora. Mô hình AI này được phát triển để mô phỏng các chuyển động camera phức tạp và tạo ra các nhân vật cũng như cảnh quan chi tiết trong các đoạn clip dài lên đến 60 giây.

Nếu lịch sử phát triển đa phương thức của họ chưa đủ thuyết phục, hãy nghe từ chính CEO của OpenAI. Altman đã xác nhận với Gates rằng xử lý video, cùng với khả năng lý luận, là ưu tiên hàng đầu cho các mô hình GPT trong tương lai.

Đa phương thức là một trong những từ khóa nổi bật nhất trong tương lai của các mô hình AI, và điều này hoàn toàn có lý do.

Mặc dù GPT-4o đã nhấn mạnh vào việc mở rộng khả năng đa phương thức của mình, sẽ không ngạc nhiên khi thấy có nhiều tính năng về giọng nói, hình ảnh hoặc video hơn nữa với sự ra mắt của mô hình mới.

Tăng kích thước tham số

Mỗi bản cập nhật của GPT đều tăng kích thước tham số, và GPT-5 thế hệ tiếp theo có khả năng sẽ không ngoại lệ.

Trong một mô hình transformer như GPT, các tham số bao gồm trọng số và độ chệch của các lớp mạng nơ-ron, như cơ chế chú ý, các lớp feedforward và ma trận nhúng. Kích thước của các tham số này ảnh hưởng trực tiếp đến khả năng học hỏi từ dữ liệu đầu vào của mô hình.

Mặc dù OpenAI giữ bí mật về kích thước tham số chính xác của họ, ước tính đặt nó vào khoảng 1,5 nghìn tỷ tham số – một sự gia tăng đáng kể so với 175 tỷ của GPT-3 (và một bước nhảy không tưởng từ 1,5 tỷ của GPT-2).

Chuyên gia AI Alan Thompson, cố vấn tích hợp AI cho Google và Microsoft, dự đoán số lượng tham số sẽ nằm trong khoảng 2-5 nghìn tỷ. Phân tích của ông dựa trên sự gia tăng gấp đôi của cả sức mạnh tính toán và thời gian huấn luyện – một sự gia tăng đáng kể trong thời gian thử nghiệm từ GPT-4.

Độ dài context sẽ tăng lên

Độ dài context đại diện cho số lượng token (từ hoặc tiểu từ) mà một mô hình có thể xử lý cùng một lúc. Context lớn hơn cho phép mô hình hấp thụ nhiều thông tin hơn từ văn bản đầu vào, dẫn đến sự chính xác cao hơn trong câu trả lời.

Một trong những thiếu sót của GPT-4 là khả năng tương đối hạn chế trong việc xử lý lượng lớn văn bản. Ví dụ, GPT-4 Turbo và GPT-4o có cửa sổ ngữ cảnh là 128.000 token. Tuy nhiên, mô hình Gemini của Google có cửa sổ ngữ cảnh lên đến 1 triệu token.

Hiện tại, nếu mối quan tâm duy nhất của bạn là một mô hình ngôn ngữ lớn có thể nạp lượng lớn thông tin, GPT-4 có thể không phải là lựa chọn hàng đầu của bạn.

Mình xin recommend sử dụng Gemini 1.5.

Dự kiến OpenAI sẽ giải quyết những sự khác biệt này trong mô hình mới.

Alan Thompson dự đoán gì?

Một sự gia tăng khổng lồ lên 40 nghìn tỷ token. Thay đổi này sẽ là một bước tiến đáng kể so với mô hình Gemini, bổ sung khả năng phản hồi với các tập dữ liệu khổng lồ được người dùng nhập vào. Điều này sẽ là một sự thay đổi lớn cho hiệu suất của mô hình AI, đặc biệt đối với các khách hàng doanh nghiệp của OpenAI và người dùng có nhu cầu nhập dữ liệu lớn.

Cải thiện độ "custom"

GPT-4 thường được sử dụng như một công cụ phù hợp cho mọi mục đích. Nhưng các phiên bản tương lai sẽ trở nên cá nhân hóa hơn.

Trong podcast của Gates, Altman đã nhấn mạnh rằng tính tùy chỉnh và cá nhân hóa sẽ là chìa khóa cho các mô hình OpenAI trong tương lai. “Mọi người muốn những thứ rất khác nhau từ GPT-4: phong cách khác nhau, các giả định khác nhau.”

OpenAI đã giới thiệu Custom GPTs, cho phép người dùng tùy chỉnh một GPT cho một nhiệm vụ cụ thể, từ việc dạy một trò chơi board game đến giúp trẻ em hoàn thành bài tập về nhà. Mặc dù tùy chỉnh có thể không phải là trọng tâm của bản cập nhật tiếp theo, nhưng dự kiến sẽ trở thành một xu hướng lớn trong tương lai.

Trong thời gian chờ đợi, bạn có thể cá nhân hóa một chatbot AI được trang bị sức mạnh của GPT-4o miễn phí. Đó là điều chúng tôi làm tốt nhất. Bắt đầu tại đây.

GPT-5 ngày phát hành là khi nào ?

Dự đoán về ngày ra mắt của OpenAI cho GPT-5 rất khác nhau, dao động từ tháng 5 năm 2024 đến tháng 12 năm 2024.

Một số chuyên gia dự đoán rằng mô hình mới sẽ không được ra mắt cho đến sau cuộc bầu cử ở Hoa Kỳ sắp tới, với ngày phát hành gần hơn vào tháng 11 hoặc tháng 12 năm 2024. Phần lớn các dự đoán này dựa trên lịch trình phát hành của GPT-4 và thông tin từ nội bộ.

Thời gian huấn luyện dự kiến sẽ kéo dài từ 4-6 tháng, gấp đôi thời gian huấn luyện 3 tháng của OpenAI cho GPT-4. Mô hình mới sẽ có khả năng trải qua học tăng cường, kiểm tra nghiêm ngặt và thử nghiệm thêm trước khi được phát hành, mặc dù đây là một lịch trình không chắc chắn – OpenAI có thể phải điều chỉnh ngày ra mắt nếu gặp phải những tình huống không lường trước được.

Dữ liệu huấn luyện GPT-5 sẽ là gì ?

GPT-5 sẽ gần như chắc chắn tiếp tục sử dụng thông tin có sẵn trên internet làm dữ liệu huấn luyện.

Nếu có điều gì đó mà OpenAI đã gặp phải trên con đường lên đỉnh ngành công nghiệp, đó là loạt các vụ kiện liên quan đến quá trình huấn luyện của các mô hình này.

Các mô hình GPT được huấn luyện trên các tập dữ liệu khổng lồ lấy từ internet, phần lớn trong số đó là có bản quyền.

Việc sử dụng dữ liệu trái phép này đã dẫn đến những khiếu nại và hành động pháp lý rộng rãi: một vụ kiện từ The New York Times, một vụ kiện từ một loạt các cơ quan tin tức của Mỹ và các tuyên bố rằng quá trình huấn luyện của mô hình vi phạm Quy định Bảo vệ dữ liệu Chung của EU.

Một thẩm phán ở California đã bác bỏ một trong những vụ kiện bản quyền đối với OpenAI do một nhóm nhà văn, bao gồm cả những người nổi tiếng như Sarah Silverman và Ta-Nehisi Coates.

Hiện tại, chưa có gợi ý nào cho thấy OpenAI sẽ bị ảnh hưởng đáng kể bởi những khiếu nại này.

Giá của GPT-5 sẽ là bao nhiêu ?

Nếu OpenAI tiếp tục sử dụng mô hình định giá hiện tại, GPT-5 sẽ có chi phí cao hơn để sử dụng. Hiện tại, ChatGPT với GPT-4 chỉ có sẵn cho người dùng trả phí với giá $20 mỗi tháng, trong khi ChatGPT với GPT-3.5 có sẵn miễn phí.

Về giá API, GPT-4 hiện có giá $30,00 cho mỗi 1 triệu token đầu vào và $60 cho mỗi 1 triệu token đầu ra (giá này gấp đôi cho phiên bản 32k).

Nếu mô hình mới mạnh mẽ như dự đoán, giá cả có khả năng sẽ cao hơn so với các mô hình GPT trước đó của OpenAI.

Tuy nhiên, mô hình mới nhất của OpenAI có giá cả phải chăng hơn nhiều. GPT-4o chỉ có giá $5 cho mỗi 1 triệu token đầu vào và $15 cho mỗi 1 triệu token đầu ra.

Mặc dù sự khác biệt về giá cả không phải là vấn đề quyết định đối với khách hàng doanh nghiệp, OpenAI đang thực hiện một bước đáng khen ngợi hướng tới việc tiếp cận cho các cá nhân và doanh nghiệp nhỏ.

Sự ra mắt của GPT-5 có thể hi vọng GPT 4 sẽ trở thành mô hình miễn phí tiếp theo của OpenAI.

Tương lai của ChatGPT

Thế hệ tiếp theo của các mô hình ngôn ngữ lớn sẽ cách mạng hóa cách chúng ta tương tác với AI trong cuộc sống hàng ngày.

Tại hội nghị công nghệ của Bloomberg, COO của OpenAI, Brad Lightcap, đã gợi ý về kế hoạch của công ty để cách mạng hóa tương tác giữa con người và máy tính, đưa GPT từ một mô hình ngôn ngữ lớn trở thành một mô hình có khả năng giống như tác nhân.

Một mô hình có khả năng và cá nhân hóa hơn với nhiều khả năng đa phương thức hơn hứa hẹn đúng như những gì Altman và OpenAI mong đợi: điều không thể tưởng tượng được. GPT-5 được kỳ vọng sẽ là một bước tiến gần hơn đến mục tiêu đó.

source: botpress

Minh Tân3 Tháng 6, 2024Last Updated: 3 Tháng 6, 2024

1.135 12 minutes read