Google Gemini không ngang bằng GPT-3.5 Turbo, các nhà nghiên cứu phát hiện ra

Ôi, Google. Liệu bạn có bao giờ phát hành một sản phẩm trí tuệ nhân tạo đúng lần đầu không?

Chưa đầy một tháng sau khi Google giới thiệu Gemini, đối thủ của ChatGPT được đồn đoán từ lâu, đến thế giới thông qua một video demo bóng bẩy – chỉ để công ty đối mặt với sự chỉ trích vì những tương tác được cho là đã được dàn dựng giữa người trình bày và trí tuệ nhân tạo – nghiên cứu mới phát hiện ra rằng phiên bản mạnh nhất của Gemini hiện có sẵn cho người dùng, Gemini Pro, kém hơn mô hình ngôn ngữ lớn (LLM) GPT-3.5 Turbo của OpenAI đối với hầu hết các nhiệm vụ.

Đúng vậy, bạn đã đọc đúng: LLM mới nhất của Google, một sản phẩm đã được phát triển trong ít nhất vài tháng, thực hiện kém hơn trong hầu hết các nhiệm vụ so với mô hình miễn phí cũ hơn của OpenAI. Sau tất cả, người dùng trả phí của ChatGPT Plus và Enterprise đã có thể truy cập và sử dụng GPT-4 và GPT-4V (phiên bản đa phương thức) LLMs cơ bản thường xuyên, và đã có quyền truy cập vào phiên bản trước đó trong phần lớn năm nay.

Đó là theo công việc của một nhóm nghiên cứu từ Đại học Carnegie Mellon và một nhóm từ một doanh nghiệp được xác định là BerriAI.

Bài báo của họ, “Một cái nhìn sâu sắc về khả năng ngôn ngữ của Gemini,” đã được xuất bản vào ngày hôm qua trên trang arXiv.org, trang web khoa học trước khi được đồng nghiệp đánh giá và truy cập mở. Như nó nêu rõ ở đầu: “Tóm lại, chúng tôi đã phát hiện ra rằng trên tất cả các nhiệm vụ, tính đến thời điểm này (ngày 19 tháng 12 năm 2023), mô hình Pro của Gemini đạt được độ chính xác tương đương nhưng hơi thấp hơn so với phiên bản hiện tại của GPT 3.5 Turbo của OpenAI.”

Đối với các nhà nghiên cứu của Google đã dành nhiều giờ làm việc vất vả trên Gemini – và nhà lãnh đạo của họ – kết luận đó phải là một cú sốc. Chúng tôi đã liên hệ với các người phát ngôn của Google để biết ý kiến của công ty về các kết quả này và sẽ cập nhật khi chúng tôi nhận được phản hồi.

Những gì các nhà nghiên cứu đã kiểm tra

Bài báo tiếp tục ghi nhận rằng nhóm nghiên cứu thực tế đã kiểm tra bốn LLM khác nhau: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo và Mixtral 8x7B, mô hình mã nguồn mở mới từ startup Pháp Mistral được đầu tư mạnh mẽ gây sốc cho cộng đồng trí tuệ nhân tạo tuần trước với sự xuất hiện đột ngột, không có tài liệu hướng dẫn và hiệu suất cao và điểm đánh giá chuẩn hóa (đánh giá hiệu suất trí tuệ nhân tạo).

Các nhà nghiên cứu đã sử dụng một trang web tổng hợp trí tuệ nhân tạo, LiteLLM, trong một khoảng thời gian 4 ngày, từ ngày 11 đến ngày 15 tháng 12 năm 2023, và chạy tất cả các mô hình thông qua một loạt các yêu cầu khác nhau, bao gồm việc hỏi 57 câu hỏi lựa chọn nhiều lựa chọn khác nhau “trong các lĩnh vực STEM, nhân văn học và khoa học xã hội,” như một phần của bài kiểm tra “dựa trên kiến thức QA”.

Trong bài kiểm tra đó, “Gemini Pro đạt được độ chính xác thấp hơn so với GPT 3.5 Turbo và thấp hơn nhiều so với GPT 4 Turbo,” cụ thể là 64,12/60,63 (trên 100/100) so với 67,75/70,07 của GPT-3.5 Turbo và 80,48/78,95 của GPT-4 Turbo. Xem hàng đầu của bảng sau đây được bao gồm trong bài báo của họ.

Thú vị là, các nhà nghiên cứu đã phát hiện ra rằng khi yêu cầu các LLM khác nhau chọn giữa các câu trả lời được gắn nhãn A, B, C hoặc D, Gemini chọn “D” nhiều lần hơn so với các mô hình khác, bất kể đó có phải là câu trả lời đúng hay không.

“Gemini có một phân phối nhãn rất lệch, thiên vị chọn lựa cuối cùng ‘D’ mà trái ngược với kết quả của mô hình GPT, mô hình này cân bằng hơn,” bài báo nêu. “Điều này có thể cho thấy Gemini chưa được điều chỉnh hướng dẫn mạnh mẽ để giải quyết các câu hỏi lựa chọn nhiều, điều này có thể làm cho các mô hình thiên vị đối với việc sắp xếp câu trả lời.”

Ngoài ra, các nhà nghiên cứu cũng quan sát thấy rằng Gemini kém hơn GPT-3.5 Turbo trong một số loại câu hỏi cụ thể, bao gồm tình dục con người, logic hình thức, toán học cơ bản và y khoa chuyên nghiệp. Các nhà nghiên cứu cho biết điều này chủ yếu là do Gemini từ chối trả lời một số câu hỏi, nói rằng nó không thể tuân thủ do các hạn chế về an toàn và nội dung của nó, điều mà các nhà nghiên cứu đã tính là một câu trả lời sai trong việc đánh giá/đánh giá.

Gemini Pro đã vượt trội hơn GPT-3.5 Turbo trong hai loại câu hỏi lựa chọn nhiều lựa chọn – an ninh và kinh tế học trung học, nhưng “đối với hai nhiệm vụ mà Gemini Pro vượt trội hơn GPT 3.5 Turbo, sự tiến bộ là không đáng kể,” các nhà nghiên cứu cho biết. Ngoài ra, GPT-4 vẫn là vua của tất cả các mô hình đã được kiểm tra.

Để công bằng với Gemini, các nhà nghiên cứu đã chú ý rằng nó vượt trội hơn GPT-3.5 trong một trường hợp khác: khi đầu ra của các LLM dài hơn 900 token (token đề cập đến các giá trị số được gán cho các từ, kết hợp chữ cái và ký hiệu khác nhau, phản ánh tổ chức nội bộ của mô hình về các khái niệm khác nhau).

Các nhà nghiên cứu đã kiểm tra các mô hình trên một loại câu hỏi khác, “luận lý mục đích chung,” nơi không có tùy chọn câu trả lời được trình bày. Thay vào đó, các LLM được yêu cầu đọc một vấn đề logic và trả lời với những gì họ cho là câu trả lời đúng.

Một lần nữa, các nhà nghiên cứu đã phát hiện ra rằng “Gemini Pro đạt được độ chính xác hơi thấp hơn so với GPT 3.5 Turbo và thấp hơn nhiều so với GPT 4 Turbo… Gemini Pro hoạt động kém trên các câu hỏi dài, phức tạp hơn trong khi các mô hình GPT lại mạnh mẽ hơn với điều này. Điều này đặc biệt đúng đối với GPT 4 Turbo, mô hình này thậm chí không bị suy giảm nhiều trên các câu hỏi dài, cho thấy khả năng hiểu câu hỏi dài và phức tạp một cách ấn tượng.”

Tuy nhiên, Gemini đã vượt trội hơn “tất cả các mô hình GPT,” bao gồm GPT-4, trong hai phân loại con ở đây: sắp xếp từ và xử lý ký hiệu (công việc ngôn ngữ Dyck). Như các nhà nghiên cứu đã nêu: “Gemini đặc biệt giỏi trong việc sắp xếp từ và tạo ra các ký hiệu theo thứ tự chính xác.”

Khi nói đến toán học và lập luận toán học, các nhà nghiên cứu đã xác định một kết quả tương tự như khi kiểm tra các vấn đề khác: “Gemini Pro đạt được độ chính xác thấp hơn một chút so với GPT 3.5 Turbo và thấp hơn rất nhiều so với GPT 4 Turbo.”

Nghĩ rằng Gemini có thể khôi phục lại bản thân trong lập trình? Nghĩ lại đi. Khi được cho hai chuỗi mã Python không hoàn chỉnh để hoàn thành, Gemini thực hiện “thấp hơn GPT 3.5 Turbo và thấp hơn rất nhiều so với GPT 4 Turbo trên cả hai nhiệm vụ.”

Và khi được yêu cầu hoạt động như một “đại lý web”, điều hướng trên internet công cộng và hoàn thành các nhiệm vụ thay mặt người dùng dựa trên hướng dẫn, “Gemini-Pro thực hiện tương đương nhưng kém hơn so với GPT-3.5-Turbo.”

Gemini đã vượt trội hơn tất cả các mô hình khác trong một lĩnh vực có vẻ phù hợp với bộ kỹ năng trước đây của Google: dịch nội dung giữa các ngôn ngữ. Như các nhà nghiên cứu ghi nhận: “Gemini Pro vượt trội hơn cả GPT 3.5 Turbo và GPT 4 Turbo trên 8 trong số 20 ngôn ngữ và đạt được hiệu suất cao nhất trên 4 ngôn ngữ.”

Nhưng kết quả này cũng bị ảnh hưởng bởi việc “Gemini Pro có xu hướng chặn các phản hồi trong khoảng 10 cặp ngôn ngữ,” cho thấy hệ thống kiểm duyệt/nhóm an toàn quá nhiệt tình.

Điều này có ý nghĩa gì đối với hoài bão trí tuệ nhân tạo của Google và người dùng?

Kết quả rõ ràng là một đòn giáng đối với hoài bão của Google trong cuộc đua trí tuệ nhân tạo sáng tạo với OpenAI, và với mô hình Google Gemini Ultra mạnh mẽ hơn không được ra mắt cho đến năm sau, điều này có nghĩa là Google sẽ tiếp tục đứng sau về hiệu suất trí tuệ nhân tạo ít nhất cho đến khi đó.

Thú vị là, nghiên cứu cũng cho thấy rằng LLM Mixtral 8x7B mới của Mistral – sử dụng phương pháp “hỗn hợp chuyên gia”, trong đó có nhiều mô hình trí tuệ nhân tạo nhỏ khác được kết nối với nhau, mỗi mô hình xử lý các tập hợp nhiệm vụ khác nhau mà chúng được chuyên biệt – cũng thực hiện kém hơn rất nhiều so với GPT-3.5 Turbo của OpenAI trên hầu hết các lĩnh vực. Và Gemini Pro “vượt trội hơn Mixtral trong mọi nhiệm vụ chúng tôi xem xét,” theo nhận định của các nhà nghiên cứu.

Điều đó cho thấy một điểm sáng cho công việc trí tuệ nhân tạo của Google: nó vẫn tốt hơn nguồn mở tiên tiến.

Tuy nhiên, tổng thể, khó có thể không rời xa nghiên cứu này với cảm giác rằng OpenAI vẫn là vua của trí tuệ nhân tạo sáng tạo dành cho người tiêu dùng và doanh nghiệp ít nhất là trong lúc này.

Các nhà ảnh hưởng trí tuệ nhân tạo như giáo sư Ethan Mollick của Trường Kinh doanh Wharton thuộc Đại học Pennsylvania rất có vẻ đồng ý. Như Mollick đăng trên X hôm nay: “Đối với hầu hết các trường hợp cá nhân, bạn muốn sử dụng trí tuệ nhân tạo tốt nhất và rõ ràng là vẫn là GPT-4…ít nhất cho đến khi Gemini Ultra được ra mắt vào năm mới.”

Để lại một bình luận Hủy

Đăng nhập