Bước tới nội dung

Gemini (mô hình ngôn ngữ)

Bách khoa toàn thư mở Wikipedia
Gemini
Websitedeepmind.google/technologies/gemini/ Sửa đổi tại Wikidata

Gemini là một họ các mô hình ngôn ngữ lớn (LLM) đa phương thức tiên tiến được phát triển bởi Google DeepMind, đóng vai trò là thế hệ kế thừa trực tiếp và mạnh mẽ hơn của LaMDAPaLM 2. Dòng sản phẩm này bao gồm các biến thể với kích thước và năng lực khác nhau: Gemini Pro, Gemini Deep Think, Gemini Flash, Gemini Flash Lite và Nano. Mô hình được công bố lần đầu vào ngày 6 tháng 12 năm 2023 và hiện là công nghệ lõi vận hành toàn bộ hệ sinh thái AI của Google.

Tính đến tháng 12 năm 2025, phiên bản tiên tiến nhất là Gemini 3 Pro. Trong bài kiểm tra chuẩn mực Humanity's Last Exam (Bài kiểm tra cuối cùng của nhân loại) công bố vào tháng 11 năm 2025, Gemini 3 Pro đã đạt độ chính xác **41%**, vượt qua đối thủ cạnh tranh trực tiếp là GPT-5 Pro của OpenAI (31,64%), đánh dấu vị thế dẫn đầu của Google trong cuộc đua trí tuệ nhân tạo tổng quát (AGI).[1]

Lịch sử phát triển

[sửa | sửa mã nguồn]

Bối cảnh và Khởi đầu (2023)

[sửa | sửa mã nguồn]

Sau sự ra mắt bùng nổ của ChatGPT vào cuối năm 2022, Google đã ban bố tình trạng "Code Red" nội bộ. Vào tháng 4 năm 2023, Google sáp nhập hai phòng thí nghiệm AI hàng đầu của họ là Google BrainDeepMind thành một đơn vị duy nhất là **Google DeepMind**, dưới sự lãnh đạo của Demis Hassabis. Mục tiêu chính của sự sáp nhập này là phát triển Gemini.[2]

Đồng sáng lập Google, Sergey Brin, đã quay trở lại làm việc trực tiếp tại trụ sở Mountain View để viết mã (code) và giám sát quá trình huấn luyện các mạng nơ-ron của Gemini, nhấn mạnh tầm quan trọng chiến lược của dự án này.[3]

Khác với các mô hình GPT-4 của OpenAI (vốn huấn luyện các thành phần hình ảnh và văn bản riêng biệt rồi ghép lại), Gemini được thiết kế là **"đa phương thức bản địa" (native multimodal)**. Điều này có nghĩa là nó được huấn luyện ngay từ đầu (pre-trained) trên một tập dữ liệu hỗn hợp khổng lồ bao gồm văn bản, hình ảnh, âm thanh, video và mã nguồn, giúp mô hình có khả năng suy luận chéo giữa các giác quan một cách liền mạch.

Thế hệ thứ nhất: Gemini 1.0 (Cuối 2023)

[sửa | sửa mã nguồn]

Ngày 6 tháng 12 năm 2023, Google ra mắt Gemini 1.0 với ba phiên bản:

  • Gemini Ultra: Mô hình lớn nhất, dành cho các trung tâm dữ liệu. Đây là mô hình đầu tiên trong lịch sử vượt qua các chuyên gia con người trong bài kiểm tra MMLU (Massive Multitask Language Understanding) với số điểm 90,0%.
  • Gemini Pro: Mô hình tầm trung, cân bằng giữa hiệu suất và chi phí, được tích hợp vào chatbot Bard (sau này đổi tên thành Gemini).
  • Gemini Nano: Mô hình nhỏ gọn, hiệu quả cao, được thiết kế để chạy trực tiếp trên thiết bị di động (on-device) như Pixel 8 Pro và Samsung Galaxy S24 mà không cần kết nối internet.

Thế hệ thứ hai: Kỷ nguyên ngữ cảnh dài (2024)

[sửa | sửa mã nguồn]

Năm 2024 đánh dấu sự chuyển dịch sang kiến trúc Mixture of Experts (MoE) và khả năng xử lý ngữ cảnh siêu lớn (Long-context).

  • **Gemini 1.5 (Tháng 2/2024):** Giới thiệu cửa sổ ngữ cảnh lên tới **1 triệu token** (và sau đó là 2 triệu token trong bản thử nghiệm). Khả năng này cho phép Gemini "đọc" toàn bộ các bộ truyện Harry Potter, phân tích hàng nghìn dòng mã nguồn hoặc xem video dài 1 giờ chỉ trong một lần nhập liệu (prompt).[4]
  • **Gemini 1.5 Flash (Tháng 5/2024):** Một biến thể nhẹ hơn, nhanh hơn và rẻ hơn của 1.5 Pro, được tối ưu hóa cho các tác vụ cần độ trễ thấp và tần suất cao.

Thế hệ 2.5 và 3.0: Suy luận sâu và Thống trị (2025)

[sửa | sửa mã nguồn]

Năm 2025 là năm bùng nổ nhất của Gemini với hàng loạt cải tiến về khả năng "suy nghĩ" (reasoning) và tính năng đại lý (agentic).

  • **Tháng 1/2025 (Gemini 2.0):** Ra mắt tính năng **Multimodal Live API**, cho phép người dùng trò chuyện video thời gian thực với AI, AI có thể nhìn và nghe môi trường xung quanh với độ trễ gần như bằng không.
  • **Tháng 3/2025 (Gemini 2.5 Pro):** Giới thiệu "Thinking Model" (Mô hình tư duy). Khi gặp câu hỏi khó, mô hình sẽ dành thời gian "suy nghĩ" thông qua chuỗi suy luận (chain-of-thought) ẩn trước khi đưa ra câu trả lời cuối cùng, giúp cải thiện đáng kể khả năng giải toán và lập trình.
  • **Tháng 11/2025 (Gemini 3):** Google công bố **Gemini 3 Pro** và **Gemini 3 Deep Think**.
   * Hiệu năng: Gemini 3 Pro đã chiến thắng 19/20 bài kiểm tra chuẩn mực quốc tế.
   * Tác động thị trường: Sự vượt trội của Gemini 3 đã khiến đối thủ OpenAI phải ban bố tình trạng khẩn cấp và vội vã phát hành bản cập nhật GPT-5.2 vào tháng 12/2025 để nỗ lực bắt kịp.[5]

Nano Banana (Hiện tượng Viral)

[sửa | sửa mã nguồn]

Vào tháng 8 năm 2025, cộng đồng AI trên toàn cầu xôn xao về một mô hình bí ẩn có tên mã là **"Nano Banana"** xuất hiện trên bảng xếp hạng ẩn danh LMArena.

  • **Đặc điểm:** Mô hình này có khả năng tạo hình ảnh (text-to-image) với tốc độ cực nhanh và khả năng hiểu các lời nhắc trừu tượng (abstract prompts) vượt trội so với Midjourney v7 hay DALL-E 4.
  • **Xác nhận:** Đến ngày 26 tháng 8 năm 2025, Google xác nhận "Nano Banana" chính là phiên bản thử nghiệm của **Gemini 2.5 Flash Image**. Cái tên "Banana" xuất phát từ một trò đùa nội bộ của đội ngũ kỹ sư DeepMind liên quan đến kích thước nhỏ gọn nhưng "giàu dinh dưỡng" (giàu dữ liệu) của mô hình.
  • **Phiên bản Pro:** Vào ngày 20 tháng 11 năm 2025, phiên bản **Nano Banana Pro** (tích hợp trong Gemini 3) được phát hành, giải quyết triệt để vấn đề hiển thị văn bản (text rendering) trong ảnh, cho phép AI tạo ra các biển hiệu, logo và văn bản dài một cách chính xác hoàn hảo.[6]

Thông số kỹ thuật chi tiết

[sửa | sửa mã nguồn]

Kiến trúc

[sửa | sửa mã nguồn]

Gemini được xây dựng dựa trên kiến trúc Transformer chỉ giải mã (decoder-only) được cải tiến.

  • **Mixture-of-Experts (MoE):** Từ phiên bản 1.5, Gemini sử dụng kiến trúc MoE thưa thớt (Sparse MoE). Thay vì kích hoạt toàn bộ mạng lưới nơ-ron khổng lồ cho mỗi câu hỏi, mô hình chia nhỏ thành các "chuyên gia" (experts) và chỉ kích hoạt những chuyên gia phù hợp nhất. Điều này giúp giảm đáng kể chi phí tính toán trong khi vẫn duy trì độ thông minh cao.
  • **Huấn luyện:** Mô hình được huấn luyện trên các cụm siêu máy tính (Pod) sử dụng hàng nghìn chip **TPU v4** và **TPU v5e** (Tensor Processing Unit) do Google tự thiết kế.

Khả năng Đa phương thức

[sửa | sửa mã nguồn]

Gemini có thể nhận đầu vào và tạo đầu ra ở nhiều định dạng khác nhau (Native Multimodality):

  • **Hình ảnh:** Hiểu biểu đồ, sơ đồ phức tạp, nhận diện chữ viết tay.
  • **Video:** Phân tích video frame-by-frame, hiểu hành động và cảm xúc nhân vật.
  • **Âm thanh:** Nghe và phân tích giọng nói, âm nhạc với sắc thái cao.
  • **Mã nguồn (Code):** Gemini 3 được đánh giá là mô hình lập trình tốt nhất thế giới hiện nay, được tích hợp vào công cụ "Jules" trên GitHub.

Bảng so sánh các phiên bản

[sửa | sửa mã nguồn]
Danh sách các phiên bản Gemini (Cập nhật tháng 12/2025)
Phiên bản Ngày ra mắt Trạng thái Kiến trúc Điểm nổi bật
1.0 Nano 06/12/2023 Ngừng hỗ trợ Dense Chạy offline trên Pixel 8.
1.0 Pro 13/12/2023 Ngừng hỗ trợ Dense Cốt lõi của Bard cũ.
1.0 Ultra 08/02/2024 Ngừng hỗ trợ Dense Mô hình đầu tiên đạt 90% MMLU.
1.5 Pro 15/02/2024 Ngừng hỗ trợ MoE Cửa sổ ngữ cảnh 1-2 triệu token.
1.5 Flash 14/05/2024 Ngừng hỗ trợ MoE Tối ưu tốc độ, giá rẻ.
2.0 Flash 30/01/2025 Ngừng hỗ trợ MoE Live API thời gian thực.
2.5 Pro 25/03/2025 Hoạt động MoE + Reasoning Khả năng suy luận chuỗi (CoT).
Nano Banana 26/08/2025 Hoạt động Diffusion/Trans Tạo ảnh siêu tốc (Gemini Image).
3 Pro 18/11/2025 Hoạt động Sparse MoE v2 Đứng đầu thế giới, vượt GPT-5 Pro.
3 Deep Think 04/12/2025 Hoạt động Reasoning Engine Chuyên giải toán Olympic và code phức tạp.
3 Flash 17/12/2025 Hoạt động Sparse MoE v2 Thay thế 2.5 Flash, hiệu năng/giá tốt nhất.

Tranh cãi và Chỉ trích

[sửa | sửa mã nguồn]

Video Demo dàn dựng (2023)

[sửa | sửa mã nguồn]

Ngay sau khi ra mắt Gemini 1.0, Google đã bị chỉ trích vì đoạn video demo "Hands-on with Gemini". Video cho thấy AI phản hồi giọng nói và hình ảnh theo thời gian thực một cách mượt mà. Tuy nhiên, Bloomberg News sau đó phát hiện ra rằng video không được quay trực tiếp (live) mà được cắt ghép từ các khung hình tĩnh và sử dụng lời nhắc văn bản (text prompt) để tạo ra phản hồi, tạo cảm giác sai lệch về tốc độ và khả năng thực tế của mô hình lúc bấy giờ.[7]

Sự cố tạo ảnh lịch sử (2024)

[sửa | sửa mã nguồn]

Vào tháng 2 năm 2024, tính năng tạo ảnh của Gemini (tích hợp mô hình Imagen 2) gặp phản ứng dữ dội khi từ chối tạo hình ảnh người da trắng hoặc tạo ra những hình ảnh sai lệch lịch sử nghiêm trọng nhân danh sự "đa dạng". Ví dụ: Khi được yêu cầu tạo ảnh "lính Đức Quốc xã năm 1943" hoặc "các nhà lập quốc Mỹ", AI đã tạo ra những người da màu, người gốc Á trong trang phục Đức Quốc xã. Google đã phải xin lỗi, gọi đây là sự cố "hoàn toàn không thể chấp nhận được" và tạm ngưng tính năng tạo ảnh người trong vài tuần để điều chỉnh thuật toán căn chỉnh (alignment).[8]

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ The Verge (ngày 18 tháng 11 năm 2025). "Google releases Gemini 3 Pro to leapfrog OpenAI".
  2. ^ "Google DeepMind: The merger that changed AI history". Wired. ngày 20 tháng 4 năm 2023.
  3. ^ "Sergey Brin is back in the code mines". The Wall Street Journal. ngày 21 tháng 7 năm 2023.
  4. ^ Google DeepMind (ngày 15 tháng 2 năm 2024). "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context" (PDF). {{Chú thích web}}: |tác giả= có tên chung (trợ giúp)
  5. ^ "OpenAI declares internal 'code red' as Gemini 3 dominates benchmarks". Bloomberg. ngày 20 tháng 11 năm 2025.
  6. ^ "The legend of Nano Banana: How a test model became a meme". TechCrunch. ngày 28 tháng 8 năm 2025.
  7. ^ "Google's best Gemini demo was faked". TechCrunch. ngày 7 tháng 12 năm 2023.
  8. ^ "Google pauses Gemini AI image generator of people after historical inaccuracies". CNBC. ngày 22 tháng 2 năm 2024.

Liên kết ngoài

[sửa | sửa mã nguồn]