Bước tới nội dung

AlphaGo đấu với Lee Sedol

AlphaGo đấu với Lee Sedol
4–1
Seoul, Hàn Quốc, 9–15 tháng 3 năm 2016
9 tháng 3 năm 2016
Hiệp thứ nhấtAlphaGo thắng.
10 tháng 3 năm 2016
Hiệp thứ haiAlphaGo thắng.
12 tháng 3 năm 2016
Hiệp thứ baAlphaGo thắng.
13 tháng 3 năm 2016
Hiệp thứ tưLee Sedol thắng.
15 tháng 3 năm 2016
Hiệp thứ nămAlphaGo thắng.

AlphaGo đấu với Lee Sedol, hoặc Trận thách đấu của Google DeepMind (Google DeepMind Challenge Match), là một trận đấu cờ vây gồm 5 ván giữa Lee Sedol - người từng 18 lần vô địch thế giới - và AlphaGo, một phần mềm cờ vây máy tính được phát triển bởi Google DeepMind, được tổ chức tại Seoul, Hàn Quốc, từ ngày 9 đến ngày 15 tháng 3 năm 2016. AlphaGo thắng tất cả trừ ván thứ tư;[1] tất cả các ván đều kết thúc bằng việc nhận thua.[2] Trận đấu này được so sánh với trận đấu cờ vua lịch sử giữa Deep Blue và Garry Kasparov vào năm 1997.

Người thắng trận đấu dự kiến sẽ nhận được số tiền thưởng 1 triệu USD. Từ khi AlphaGo giành chiến thắng, Google DeepMind tuyên bố giải thưởng sẽ được trao tặng cho các tổ chức từ thiện, bao gồm UNICEF và các tổ chức về cờ vây.[3] Lee nhận được 170.000 USD (150.000 dành cho việc tham gia trận đấu năm ván và khoản thưởng 20.000 USD cho một ván thắng).[4]

Sau trận đấu, Hiệp hội cờ vây Hàn Quốc đã phong cho AlphaGo danh hiệu cao nhất của kì thủ cờ vây – một danh hiệu "9 dan danh dự". Danh hiệu này được đưa ra như một sự công nhận những "nỗ lực chân thành" của AlphaGo để đạt tới mức độ bậc thầy trong cờ vây.[5] Trận đấu này được chọn bởi tạp chí Science là một trong những á quân của giải thưởng Đột phá của Năm được công bố vào ngày 22 tháng 12 năm 2016.[6]

Bối cảnh[sửa | sửa mã nguồn]

Thử thách khó khăn với trí tuệ nhân tạo[sửa | sửa mã nguồn]

Cờ vây là một trò chơi phức tạp, với việc đòi hỏi trực giác, sự sáng tạo và tư duy chiến lược.[7][8] Môn thể thao này từ lâu đã được coi là một thách thức khó khăn trong lĩnh vực trí tuệ nhân tạo (AI), và nó tỏ ra khó khăn[9] để giải quyết hơn một cách đáng kể so với cờ vua. Nhiều chuyên gia trong lĩnh vực trí tuệ nhân tạo cho rằng cờ vây đòi hỏi nhiều yếu tố bắt chước suy nghĩ của con người hơn cờ vua.[10] Nhà toán học I. J. Good viết trong năm 1965:[11]

Cờ vây trên một chiếc máy tính? – Để lập trình cho một chiếc máy tính chơi được một ván cờ vây hợp lý, chứ không phải chỉ đơn thuần là một ván cờ đúng luật – sẽ là cần thiết với việc chính thức hoá các nguyên tắc của chiến lược tốt, hoặc thiết kế một chương trình học tập. Các nguyên tắc này tỏ ra định tính và bí ẩn hơn cờ vua, và phụ thuộc nhiều hơn vào sự phán xét. Vì vậy, tôi nghĩ rằng sẽ còn khó khăn hơn cho một chương trình máy tính để chơi một ván cờ hợp lý của cờ vây hơn là của cờ vua.

Trước năm 2015,[12] các chương trình chơi cờ vây tốt nhất chỉ đạt đến mức độ dan nghiệp dư.[13] Trên cỡ bàn nhỏ 9×9, máy tính ở tình trạng tốt hơn, và một vài phần mềm đã giành chiến thắng một phần nhỏ của các ván đấu 9×9 trước các kì thủ chuyên nghiệp. Trước AlphaGo, một số nhà nghiên cứu đã khẳng định rằng máy tính sẽ không bao giờ đánh bại được những người hàng đầu trong cờ vây.[14] Elon Musk, một nhà đầu tư ngay từ ban đầu của Deepmind, đã phát biểu vào năm 2016 rằng những người giỏi nhất trong lĩnh vực này nghĩ rằng AI sẽ phải mất 10 năm nữa mới đạt được một chiến thắng với một kì thủ cờ vây chuyên nghiệp hàng đầu.[15]

Trận đấu giữa AlphaGo và Lee Sedol được so sánh với trận đấu cờ vua năm 1997 giữa Deep Blue đấu với Garry Kasparov. Chiến thắng của máy tính Deep Blue của IBM trước đương kim vô địch Kasparov được xem là điểm nhấn mang tính biểu tượng, nơi mà máy tính trở nên tốt hơn con người trong cờ vua.[16]

AlphaGo là chương trình có sự khác biệt đáng kể nhất so với những nỗ lực AI trước đó ở chỗ nó được áp dụng mạng thần kinh nhân tạo, trong đó phương pháp tự giải quyết vấn đề bằng cách đánh giá, thử nghiệm và rút kinh nghiệm (evaluation heuristics) không bị mã hóa cứng bởi con người, mà thay vào đó là sự tự học ở mức độ lớn bởi bản thân chương trình, thông qua hàng chục triệu ván cờ vây cũng như những ván cờ tự chơi của chính nó. Thậm chí đội ngũ phát triển AlphaGo còn không thể chỉ ra được cách mà AlphaGo đánh giá các vị trí quân cờ và chọn bước đi tiếp theo. Phương pháp duyệt cây Monte Carlo cũng được dùng như phương pháp chính để nâng cao hiệu quả lý luận của chương trình.

Các kết quả nghiên cứu có liên quan đang được áp dụng cho các lĩnh vực như khoa học nhận thức, nhận dạng mẫuhọc máy.[17]

Trận đấu với Phiền Huy[sửa | sửa mã nguồn]

Phiền Huy đấu với AlphaGo – Ván thứ 5

AlphaGo đánh bại nhà vô địch châu Âu Phiền Huy (Fan Hui), một kì thủ chuyên nghiệp 2 dan, với tỉ số 5–0 vào tháng 10 năm 2015, đây là lần đấu tiên một thực thể AI đánh thắng một kì thủ con người chuyên nghiệp trong một ván cờ với cỡ bàn lớn nhất và không sử dụng lợi thế.[18][19] Một số nhà bình luận nhấn mạnh khoảng cách lớn về thực lực giữa Phiền và Lee, người được xếp hạng 9 dan chuyên nghiệp.[20] Các chương trình máy tính Zen và Crazy Stone trước đó đã đánh bại những kì thủ là con người đạt 9 dan chuyên nghiệp với lợi thế chấp từ 4 đến 5 quân.[21][22] Chuyên gia về AI người Canada Jonathan Schaeffer, cho ý kiến ​​sau chiến thắng trước Phiền, so sánh AlphaGo với một "thần đồng" vẫn còn thiếu kinh nghiệm, và cho rằng, "thành tích thực sự sẽ là khi chương trình chơi với một kì thủ trong loạt những người cao cấp thực sự." Ông sau đó tin rằng Lee sẽ chiến thằng trận đấu vào tháng 3 năm 2016.[19] Hajin Lee, một kì thủ cờ vây chuyên nghiệp và là tổng thư ký của Liên đoàn cờ vây quốc tế, nhận xét rằng cô "rất vui mừng" trước viễn cảnh một thực thể AI thách thức Lee, và nghĩ rằng hai kì thủ có một cơ hội chiến thắng ngang nhau.[19]

Sau kết quả của trận đấu trước AlphaGo, Phiền Huy lưu ý rằng ván đấu đã dạy anh trở thành một kì thủ tốt hơn, và thấy được những thứ mà anh chưa từng thấy trước đó. Tới tháng 3 năm 2016, Wired báo cáo rằng thứ hạng của anh ta đã tăng từ 633 lên tới top 300.[23]

Sự chuẩn bị[sửa | sửa mã nguồn]

Các chuyên gia cờ vây đã tìm ra những lỗi trong các nước đi của AlphaGo trước Phiền, đặc biệt chú ý đế sự thiếu nhận thức trên toàn bàn cờ, nhưng trước ván đấu mở màn trước Lee, người ta không biết chương trình đã cải thiện các ván đấu được bao nhiêu từ trận đấu vào tháng 10.[20][24] AlphaGo không được thiết kế để đấu với Lee Sedol, điều khó có thể thực hiện được trong bất kì trường hợp nào, bởi việc huấn luyện AlphaGo cần tới hàng chục triệu ván đấu, và một vài trăm hoặc vài nghìn ván đấu từ một kì thủ cụ thể sẽ không đủ để thay thế lối chơi của AlphaGo. Thay vào đó, việc huấn luyện của AlphaGo được bắt đầu với những ván đấu của những người chơi mạnh thuộc cấp độ nghiệp dư từ các máy chủ cờ vây trên internet, sau những ván mà AlphaGo luyện tập bằng cách tự đấu với chính mình; không có ván cờ nào của Lee Sedol có trong dữ liệu huấn luyện của AlphaGo.[25][26]

Người chơi[sửa | sửa mã nguồn]

AlphaGo[sửa | sửa mã nguồn]

Logo của AlphaGo

AlphaGo là một chương trình máy tính được phát triển bởi Google DeepMind để có thể chơi môn thể thao cờ vây. Thuật toán của AlphaGo sử dụng một sự kết hợp của các kỹ thuật máy họcduyệt cây, kết hợp với đào tạo mở rộng, cả từ nước đi của con người và máy tính. Hệ thống mạng thần kinh nhân tạo ban đầu được nạp chương trình mồi (bootstrapping) từ sự tinh thông cách chơi trong một ván cờ của con người. AlphaGo ban đầu được huấn luyện bắt chước cách chơi của con người bằng cách cố gắng đi những nước đi giống với những kì thủ xuất sắc trong lịch sử trò chơi được ghi chép lại, sử dụng một cơ sở dữ liệu của KGS Go Server chứa khoảng 30 triệu nước cờ từ 160.000 ván cờ của những người chơi có trình độ từ 6 đến 9 dan KGS.[12][27] Một khi đã đạt đến một mức độ nhất định về trình độ, nó được tiếp tục đào tạo bằng cách thiết lập để chơi một số lượng lớn các ván cờ đối đầu với các phiên bản khác của bản thân, sử dụng học tăng cường để cải thiện cách chơi của nó.[28] Hệ thống này không sử dụng một "cơ sở dữ liệu" các bước đi để chơi. Như mộtr trong những người sáng tạo nên AlphaGo giải thích:[29]

Mặc dù chúng tôi đã lập trình cỗ máy này để chơi cờ, chúng tôi không biết đâu sẽ là nước đi tiếp theo của nó. Các nước đi của nó là một hiện tượng mang tính đột sinh từ quá trình huấn luyện. Chúng tôi chỉ tạo các bộ dữ liệu và các thuật toán huấn luyện. Nhưng các nước đi mà nó sẽ thực hiện nằm ngoài sự kiểm soát của chúng tôi—và tốt hơn những nước đi mà chúng ta, những kì thủ cờ vây, sẽ thực hiện.

Phiên bản AlphaGo đấu với Lee sử dụng một số lượng tương tự của sức mạnh tính toán như trong trận đấu với Phiền Huy,[30] trận mà chúng sử dụng tới 1.202 CPU và 176 GPU.[12] The Economist báo cáo rằng nó sử dụng 1.920 CPU và 280 GPU.[31] Google cũng đã tuyên bố rằng các bộ xử lý tensor (tensor processing unit) độc quyền của nó đã được sử dụng trong trận đấu với Lee Sedol.[32]

Lee Sedol[sửa | sửa mã nguồn]

Lee Sedol năm 2012

Lee Sedol là một kì thủ cờ vây chuyên nghiệp 9 dan[33] và là một trong những kì thủ mạnh nhất trong lịch sử cờ vây. Anh bắt đầu sự nghiệp vào năm 1996 (thăng cấp bậc dan chuyên nghiệp ở tuổi 12), thắng 18 giải đấu quốc tế kể từ đó.[34] Anh là một "anh hùng dân tộc" tại quê hương Hàn Quốc của mình, được biết đến với lối đánh khác thường và sáng tạo.[35] Lee Sedol ban đầu dự đoán sẽ đánh bại AlphaGo trong một trận đấu "long trời lở đất".[35] Vài tuần trước trận đấu, anh đã đạt được danh hiệu Hàn Quốc Myungin, một giải đấu chính.[36]

Các ván[sửa | sửa mã nguồn]

Trận đấu được tổ chức theo thể thức đấu 5 ván với giải thưởng lớn là 1 triệu USD,[3] sử dụng Luật Trung Quốc với 7.5 điểm komi.[4] Trong mỗi ván, mỗi người chơi có một khoảng thời gian là 2 giờ cho các nước đi, sau đó là giai đoạn byo-yomi, mỗi người chơi có 60 giây để đưa ra mỗi nước đi, không được phép vượt quá 60 giây quá ba lần.[4] Mỗi ván đấu bắt đầu vào 13:00 KST (04:00 GMT).[37]

Trận đấu được tổ chức tại Four Seasons HotelSeoul, Hàn Quốc vào tháng 3 năm 2016 và được quay truyền hình trực tiếp với phần bình luận của Michael Redmond (9-dan chuyên nghiệp) và Chris Garlock.[38][39][40] Aja Huang, một thành viên của đội ngũ DeepMind và là một kì thủ cờ vây nghiệp dư 6-dan, phụ trách việc đặt quân cờ bàn cờ vây cho AlphaGo, được chạy thông qua nền tảng điện toán đám mây Google Cloud Platform với máy chủ đặt tại Mỹ.[41]

Tổng kết[sửa | sửa mã nguồn]

Ván Ngày Quân đen Quân trắng Kết quả Số nước đi
1 9 tháng 3 năm 2016 Lee Sedol AlphaGo Lee Sedol chịu thua 186 (Ván thứ nhất)
2 10 tháng 3 năm 2016 AlphaGo Lee Sedol Lee Sedol chịu thua 211 (Ván thứ hai)
3 12 tháng 3 năm 2016 Lee Sedol AlphaGo Lee Sedol chịu thua 176 (Ván thứ ba)
4 13 tháng 3 năm 2016 AlphaGo Lee Sedol AlphaGo chịu thua 180 (Ván thứ tư)
5 15 tháng 3 năm 2016 Lee Sedol[ct 1] AlphaGo Lee Sedol chịu thua 280 (Ván thứ năm)
Kết quả:
AlphaGo 4 – 1 Lee Sedol
^ chú thích 1: Trong ván thứ 5, theo các quy định chính thức, người ta dự định rằng sự lựa chọn màu sắc sẽ được thực hiện một cách ngẫu nhiên.[42] Tuy nhiên, trong cuộc họp báo sau ván đấu thứ tư, Lee yêu cầu "... từ khi tôi thắng với quân trắng, tôi thực sự tin rằng ván thứ năm này tôi có thể thắng với quân đen, vì chiến thắng với quân đen đáng giá hơn nhiều."[43] Hassabis đồng ý với đề xuất của anh.

Ván thứ nhất[sửa | sửa mã nguồn]

AlphaGo (trắng) thắng ván đầu tiên. Lee giành quyền kiểm soát trong hầu hết ván đấu, nhưng AlphaGo đạt được lợi thế trong 20 phút cuối cùng và Lee chịu thua.[44] Lee nói sau đó rằng anh đã phạm phải một sai lầm nghiêm trọng ở khai cuộc; anh nói rằng chiến lược của máy tính trong giai đoạn đầu của ván đấu là "tuyệt vời" và rằng AI đã thực hiện một nước đi bất thường mà không có người chơi cờ vây là con người nào sẽ thực hiện điều đó.[44] David Ormerod, nhận xét về ván đấu trên Go Game Guru, mô tả nước đi thứ bảy của Lee như "một nước lạ để kiểm tra sức mạnh của AlphaGo trong giai đoạn khai cuộc", biểu thị đặc trưng của nước đi này như một lỗi sai và phản ứng của AlphaGo là "chính xác và hiệu quả". Ông mô tả vị trí quân cờ của AlphaGo tỏ ra thuận lợi trong phần đầu của trận đấu, xem xét rằng Lee bắt đầu quay trở lại với nước thứ 81, trước khi thực hiện những nước "có vấn đề" tại nước thứ 119 và 123, tiếp nối với một nước "thua cuộc" ở nước thứ 129.[45] Kì thủ cờ vây chuyên nghiệp Cho Hanseung nhận xét rằng ván đấu của AlphaGo đã được cải thiện đáng kể từ khi nó đánh bại Phiền Huy vào tháng 10 năm 2015.[45] Michael Redmond mô tả ván đấu của máy tính này là căng thẳng hơn so với lần đối đầu với Phiền.[46]

Theo kì thủ cờ vây kì cựu 9-dan Kim Seong-ryong, Lee dường như bị kinh ngạc bởi nước đi mạnh mẽ của AlphaGo ở nước thứ 102.[47] Sau khi AlphaGo đi nước thứ 102 của ván đấu, Lee đã nghiền ngẫm những lựa chọn của mình trong hơn 10 phút.[47]

99 nước đầu
Nước 100–186.

Ván thứ hai[sửa | sửa mã nguồn]

AlphaGo (đen) thắng ván thứ hai. Lee sau đó nói rằng "AlphaGo đã chơi một ván đấu gần như hoàn hảo",[48] "ngay từ những nước đầu của ván đấu, tôi đã không cảm thấy có một thời điểm nào mà tôi đang dẫn trước".[49] Một trong những người sáng tạo ra AlphaGo, Demis Hassabis, nói rằng hệ thống đã tự tin vào một chiến thắng từ nửa sau của ván đấu, mặc dù các nhà bình luận chuyên nghiệp không thể cho biết được ai đang dẫn trước.[49]

Michael Redmond (9p) lưu ý rằng quân thứ 19 của AlphaGo (nước thứ 37) là "sáng tạo" và "độc đáo".[29] Lee mất một thời gian dài bất thường để phản ứng với nước đi.[29] An Younggil (8p) gọi nước thứ 37 của AlphaGo là "một nước đâm vai (shoulder hit) hiếm và có toan tính" nhưng nói rằng nước phản công của Lee là "tinh tế". Ông nói rằng sự kiểm soát đó được đối đáp qua lai giữa hai bên một vài lần trước khi thu quan, và đặc biệt ca ngợi nước thứ 151, 157 và 159 của AlphaGo, gọi chúng là những nước đi "sáng chói".[50]

AlphaGo cho thấy những sự dị thường và các nước đi từ một góc nhìn rộng hơn, mà các kì thủ cờ vây chuyên nghiệp mô tả là trông như nước đi sai lầm ở cái nhìn đầu tiên, nhưng là một chiến lược có chủ định trong nhận thức.[51] Như một trong những người sáng tạo của hệ thống giải thích, AlphaGo không cố gắng tối đa hóa điểm hoặc số đất chiến thắng của mình, nhưng sẽ cố gắng phát huy tối đa khả năng chiến thắng của mình.[29][52] Nếu AlphaGo phải lựa chọn giữa một kịch bản mà nó sẽ giành chiến thắng với khoảng cách 20 mục với xác suất 80% và một kịch bản khác mà nó sẽ thắng một mục rưỡi với xác suất 99%, nó sẽ chọn lựa chọn sau, ngay cả khi phải từ bỏ điểm số của mình để đạt được.[29] Đặc biệt, nước thứ 167 bởi AlphaGo có vẻ như tạo cho Lee một cơ hội đối đầu và được các bình luận viên quả quyết rằng có vẻ như là một sai lầm rõ ràng. An Younggil nói "Vì vậy, khi AlphaGo đi một nước đi có vẻ như chùng xuống, chúng ta có thể coi đó là một sai lầm, nhưng có lẽ nó nên được nhìn nhận chính xác hơn như là một lời tuyên bố chiến thắng?"[53]

99 nước đầu
Nước 100-199