AlphaZero

Bách khoa toàn thư mở Wikipedia
Bước tới điều hướng Bước tới tìm kiếm

AlphaZero là một chương trình máy tính được phát triển bởi trí tuệ nhân tạo Công ty nghiên cứu DeepMind để làm chủ các trò chơi của cờ vua, shogicờ vây. Thuật toán này sử dụng một cách tiếp cận tương tự như AlphaGo Zero.

Vào ngày 5 tháng 12 năm 2017, nhóm DeepMind đã phát hành bản tiền xuất bản giới thiệu AlphaZero, trong vòng 24 giờ đào tạo đã đạt được mức độ chơi siêu phàm trong ba trò chơi này bằng cách đánh bại các chương trình vô địch thế giới Stockfish, elmo và phiên bản 3 ngày của AlphaGo Zero. Trong mỗi trường hợp, nó đã sử dụng các đơn vị xử lý tensor tùy chỉnh (TPU) mà các chương trình Google được tối ưu hóa để sử dụng. AlphaZero chỉ được đào tạo thông qua "tự chơi" bằng cách sử dụng 5.000 TPU thế hệ đầu tiên để tạo ra các trò chơi và 64 TPU thế hệ thứ hai để huấn luyện các mạng thần kinh, song song, không có quyền truy cập vào kho khai cuộc và tàn cuộc. Sau bốn giờ đào tạo, DeepMind ước tính AlphaZero đã chơi ở mức Elo cao hơn Stockfish 8; Sau 9 giờ huấn luyện, thuật toán đã đánh bại Stockfish 8 trong một giải đấu 100 ván được giới hạn thời gian (28 trận thắng, 0 trận thua và 72 trận hòa).[1][2] Thuật toán được đào tạo đã chơi trên một máy đơn có bốn TPU.

Bài viết của DeepMind về AlphaZero đã được xuất bản trên tạp chí Science vào ngày 7 tháng 12 năm 2018.[3] Vào năm 2019, DeepMind đã xuất bản một bài báo mới chi tiết về MuZero, một thuật toán mới có thể khái quát hóa trên AlphaZero khi chơi cả Atari và các trò chơi trên bàn mà không có kiến thức về các quy tắc hoặc biểu diễn của trò chơi.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Knapton, Sarah; Watson, Leon (ngày 6 tháng 12 năm 2017). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (bằng tiếng Anh). Telegraph.co.uk. Truy cập ngày 6 tháng 12 năm 2017.
  2. ^ Vincent, James (ngày 6 tháng 12 năm 2017). “DeepMind's AI became a superhuman chess player in a few hours, just for fun”. The Verge. Truy cập ngày 6 tháng 12 năm 2017.
  3. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (ngày 7 tháng 12 năm 2018). “A general reinforcement learning algorithm that masters chess, shogi, and go through self-play”. Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106.