Alphago là gì

Những người quan tâm đến Cờ vây – bộ môn board game đối kháng, băn khoăn rằng, bằng cách nào một thuật toán AI nào có thể chiến thắng được trí tuệ của người chơi vĩ đại nhất trong bộ môn Cờ Vây? Bài viết ngày hôm nay chính là lời giải đáp về câu hỏi này.

Bạn đang xem: Alphago là gì

Cờ vây (tiếng Anh: Go) là một trò chơi cổ xưa của loài người, và là một trong những trò chơi bảng (board game) lâu đời nhất còn tồn tại đến ngày nay. Luật chơi của Cờ vây đơn giản, mục tiêu chính tập trung vào việc bao vây được một vùng lãnh thổ lớn hơn so với đối thủ. Một kỳ thủ (người chơi cờ) cầm quân cờ trắng, còn người còn lại sẽ cầm quân màu đen. Quân cờ trong Cờ vây còn được gọi với một cái tên khác là “quân cờ đá” (stone). Tất cả quân cờ trong một bộ cờ chỉ có một hình dạng duy nhất (cong đều hai mặt hoặc một mặt phẳng, một mặt lồi lên). Một bàn Cờ vây tiêu chuẩn có kích cỡ lưới 19×19 đường kẻ, ngoài ra còn có một số kích thước khác như 13×13 hay 9×9; thậm chí kích thước 17×17 cũng đã từng được sử dụng trong lịch sử.

Hình ảnh một bàn Cờ vây 19×19 tiêu chuẩn cùng các quân cờ đá (stone).1. Luật chơi

Các kỳ thủ lần lượt đặt quân cờ trên các nút giao còn trống. Nút giao (điểm nút, tiếng Anh: point) là giao điểm của các đường kẻ. Sau khi một quân cờ được đặt lên bàn, quân cờ đó sẽ không thể di chuyển. Tuy nhiên, một quân cờ có thể bị “bắt” (capture) và bị loại khỏi bàn cờ khi nó bị bao vây bởi những quân cờ đối thủ ở tất cả các điểm nút lân cận gần kề. Ván cờ sẽ kết thúc khi có một bên chịu nhận thua (resign), hoặc hai bên không muốn thực hiện tiếp nước đi nào nữa. Thắng thua được xác định bằng cách đếm vùng lãnh thổ cùng với quân cờ bị bắt và điểm komi (số điểm thêm vào tổng điểm của người chơi cầm quân trắng để tạo một lợi thế bù đắp cho việc bắt đầu ván cờ sau người còn lại – cầm quân đen). Bên nào có tổng điểm lớn hơn sẽ giành chiến thắng.

Quy tắc chơi Cờ vây tương đối đơn giản, nhưng về mặt chiến thuật, Cờ vây lại vô cùng thiên biến. Bạn biết rõ mình được phép làm gì, nhưng khi ngồi xuống chơi, bạn lại không biết nên làm gì cả. So với Cờ vua, số nước đi khả thi cho một vị trí lớn hơn rất nhiều lần: ở Cờ vua, con số này là 20, nhưng ở Cờ vây con số này là 200. Nếu xét số lượng khả năng cho toàn bộ các nước đi trên bàn cờ, thậm chí nó còn nhiều hơn tổng số nguyên tử trong vũ trụ. Đây là thách thức cực lớn đối với các nghiên cứu về AI khi muốn tạo ra một phần mềm đánh Cờ vây với con người.

2. DeepMind và AlphaGo

DeepMind (hay Google DeepMind sau khi được Google mua lại vào năm 2014) là một công ty Trí tuệ nhân tạo (AI) của Anh được thành lập vào tháng 9 năm 2010 với tên DeepMind Technologies. Kể từ tháng 1/2014, sau khi về tay Google, DeepMind đã bắt tay vào thực hiện các dự án chuyên sâu về AI. Hiện nay, CEO và đồng sáng lập của công ty là Tiến sĩ Demis Hassabis.

AlphaGo là một chương trình máy tính được DeepMind phát triển để có thể chơi Cờ vây. Trước năm 2015, các chương trình chơi Cờ vây tốt nhất thế giới chỉ đạt được đến mức độ nghiệp dư. Thậm chí từ nhiều thập niên qua, người ta tin rằng Cờ vây khó có thể bị đánh bại bởi các máy tính do nó chứa nhiều nước cờ sáng tạo và phức tạp mà chỉ bộ óc con người mới làm chủ được. AlphaGo là chương trình có sự khác biệt đáng kể nhất so với những nỗ lực AI trước đó ở chỗ: nó được áp dụng mạng thần kinh nhân tạo, trong đó phương pháp tự giải quyết vấn đề bằng cách đánh giá, thử nghiệm và rút kinh nghiệm không bị mã hóa cứng bởi con người, mà thay vào đó là sự tự học ở mức độ lớn bởi bản thân chương trình, thông qua hàng chục triệu ván cờ vây cũng như những ván cờ tự chơi của chính nó.

Logo AlphaGo – chương trình máy tính chơi Cờ vây của Google DeepMind.3. Trận đấu lịch sử giữa AlphaGo và Lee Sedol

Trước hết hãy tìm hiểu một chút về hệ thống xếp hạng của Cờ vây. Đẳng cấp của Cờ vây được phân tách trên hai hệ thống riêng biệt: hệ thống đẳng cấp nghiệp dư và hệ thống đẳng cấp chuyên nghiệp. Người ta sử dụng thuật ngữ kyu và thuật ngữ dan để xếp hạng kỳ thủ. Đối với một kỳ thủ chuyên nghiệp, đẳng cao nhất mà họ có thể đạt tới được là chuyên nghiệp 9-dan (9p).

Bối cảnh trận đấu

Tháng 10 năm 2015, AlphaGo đánh bại nhà Vô địch Cờ vây châu Âu Fan Hui. Fan Hui khi đó là một kỳ thủ chuyên nghiệp 2-dan (2p). Đây là lần đầu tiên một sản phẩm của Trí tuệ nhân tạo (AI) có thể đánh bại một kỳ thủ con người chuyên nghiệp trong một trận đấu sử dụng bàn cờ cỡ lớn tiêu chuẩn 19×19 và không sử dụng lợi thế. Trận đấu kết thúc với kết quả thắng lợi hoàn toàn của AlphaGo trước Fan Hui (5-0). Sau trận đấu quá chóng vánh ấy, giới Cờ vây chuyên nghiệp hoài nghi về sức mạnh thực sự của AlphaGo. Họ đặt ra câu hỏi “Sức mạnh thực sự của AlphaGo là gì?” và “Cần thêm bao lâu nữa để nó có thể đánh bại các kỳ thủ giỏi nhất thế giới?” Những câu hỏi này thúc giục các nhà nghiên cứu của DeepMind tiếp tục cải thiện chương trình, và họ muốn đẩy thuật toán AI đến giới hạn để xem quá trình tự học tập và cải thiện này có thể đi bao xa. Để kiểm tra điều đó, các chuyên gia của DeepMind cần phải tìm một đối thủ mới mạnh hơn…

Lee Sedol là một kỳ thủ chuyên nghiệp 9-dan (đẳng cấp cao nhất của Cờ vây) người Hàn Quốc. Anh là người hùng, niềm tự hào dân tộc của xứ sở kim chi và là một trong những kỳ thủ mạnh nhất trong lịch sử Cờ vây. Lee Sedol bắt đầu thi đấu chuyên nghiệp vào năm 13 tuổi (thăng cấp bậc dan chuyên nghiệp ở tuổi 12). Lee Sedol thống trị Cờ vây thế giới trong hơn một thập kỷ với 18 chức Vô địch thế giới. DeepMind lựa chọn Lee Sedol vì họ muốn chọn một người chơi huyền thoại, người mà được công nhận là kỳ thủ Cờ vây vĩ đại nhất trong thập kỷ vừa qua.

Lee Sedol – Kỳ thủ Cờ vây vĩ đại người Hàn Quốc.

Demis Hassabis nói về trận đấu đặc biệt giữa AlphaGo và Lee Sedol: “Đây là khoảnh khắc lịch sử của cả thế giới Trí tuệ nhân tạo lẫn thế giới Cờ vây. Đến hiện tại, AlphaGo đã đánh bại mọi thử thách mà chúng tôi đưa ra. Nhưng chúng tôi không thể biết sức mạnh thực sự của nó cho tới khi chúng tôi cho đấu với kỳ thủ Cờ vây hàng đầu thế giới như Lee Sedol.”

Fan Hui cũng đưa ra bình luận: “Cả thế giới đang đặt áp lực lên Lee Sedol. Trước đây, anh ấy tham gia các giải đấu vì tổ quốc, vì bản thân anh ta. Còn lần này, anh ấy thi đấu nhân loại, ví trí tuệ con người.”

Trái ngược lại, Lee Sedol cảm thấy tự tin về trận đấu này. Anh ấy tin rằng trực giác của con người vẫn còn quá cao cấp để cho Trí tuệ nhân tạo có thể bắt kịp. Lee Sedol hi vọng sẽ giành được chiến thắng 5-0 hoặc 4-1 trước AlphaGo.

Trận đấu chính thức

Trận thách đấu của DeepMind trước kỳ thủ Cờ vây mạnh nhất thế giới Lee Sedol diễn ra từ ngày 8 tháng 3 năm 2016 đến ngày 15 tháng 3 năm 2016 tại khách sạn Four Seasons ở Seoul, Hàn Quốc. Michael Redmond (9-dan chuyên nghiệp) cùng Chris Garlock là 2 bình luận viên của trận đấu. 5 ván đấu được diễn ra vào các ngày 9/3, 10/3, 12/3, 13/3 và 15/3 và được truyền hình trực tiếp dưới sự theo dõi của 8 triệu người chơi Cờ vây tại Hàn Quốc. Hai bên sẽ thi đấu theo luật Trung Quốc, với 7.5 điểm komi. Trong mỗi ván, thời gian thi đấu giới hạn trong 2 giờ, sau đó là giai đoạn byo-yomi, mỗi người có 60 giây để đưa ra mỗi nước đi, không quá 3 lần để hoàn thành ván cờ. Aja Huang là đại diện bên phía DeepMind chịu trách nhiệm đặt quân cờ vào bàn cờ vây cho AlphaGo.

Tiến sĩ Demis Hassabis (trái) và kỳ thủ Lee Sedol (phải).

Xem thêm: subgrade là gì

Liệu Lee Sedol có bảo vệ được trí thông minh của con người hay AlphaGo sẽ viết nên lịch sử?

Trong ván đấu đầu tiên này, AlphaGo cầm quân trắng. Lee Sedol đi trước. Lee đã giành quyền kiểm soát trong hầu hết cả ván đấu, nhưng AlphaGo đã đạt được lợi thế trong 20 phút cuối và Lee Sedol đã chịu thua. Trận đấu kết thúc sau 186 nước đi. Đen 123 và Đen 129 là lỗi sai cuối cùng của Lee và anh đã không thể lật ngược tình thế. Lee tự trách mình với lỗi sai ở Đen 123 và 129 ngay sau khi ván đấu kết thúc.

Ván đấu thứ nhất – AlphaGo (Trắng) thắng.

AlphaGo cầm quân đen trong ván đấu thứ hai và có lợi thế đi trước đã tiếp tục giành chiến thắng. Lee Sedol sau đó đã nói rằng “AlphaGo có một ván đấu gần như hoàn hảo”. Nước đi 37 của AlphaGo được đánh giá là một nước đi vô cùng đẹp, sáng tạo và độc đáo. AlphaGo đã cho thấy những sự dị thường từ các nước đi, nó nhìn ở một khía cạnh rộng hơn khi các kỳ thủ Cờ vây chuyên nghiệp nghĩ rằng đó là một nước đi sai lầm nhưng thực ra AlphaGo đã đi một nước đi có chủ ý.

Ván đấu thứ hai – AlphaGo (Đen) thắng.

Ván thứ ba AlphaGo cầm quân trắng. Nó đã có một trận đấu vô cùng thuyết phục và thực tế nó đã chơi tốt đến mức… gần như là đáng sợ. Trận đấu kết thúc ở nước đi thứ 176 và AlphaGo đã viết nên lịch sử khi có 3 chiến thắng liên tiếp trước Lee Sedol.

Ván đấu thứ ba – AlphaGo (Trắng) thắng.

Ván thứ tư là một ván đấu đặc biệt. Lee Sedol đã giành được chiến thắng đầu tiên trước AlphaGo. 3 chiến thắng liên tiếp đã khiến nhà bình luận Chris Garlock phải thốt lên “Liệu AlphaGo có điểm yếu nào không?”. Thế nhưng, trong ván đấu thứ tư này, AlphaGo đã mắc phải một sai lầm lẽ ra không đáng có ở nó: Quá tự tin. Nước đi thứ 78 của Lee Sedol được mô tả là “thần thánh” (Lee Sedol magic!) và ở ngay nước đi sau đó, AlphaGo đã mắc sai lầm. Tỉ lệ thắng mà nó ước tính đang ở 70% đột nhiên giảm mạnh ở nước đi thứ 87. Lee Sedol khiến AlphaGo phải “đầu hàng” sau 180 nước thi đấu. Chiến thắng này có ý nghĩa rất lớn với Lee Sedol và những người cổ vũ. Nó thể hiện rằng trí tuệ của con người vẫn có thể đứng vững, mặc dù trong tương lai có lẽ sẽ rất khó để đánh bại AI.

Ván đấu thứ tư – Lee Sedol (Trắng) thắng.

Ván đấu thứ năm, Fan Hui cho rằng “Dường như điểm yếu của Lee Sedol lại quay trở lại khiến anh ấy có một số nước đi rất tệ.” Ván đấu kết thúc nhẹ nhàng với chiến thắng giành cho AlphaGo sau 280 nước đi.

Ván thứ năm – AlphaGo (Trắng) thắng.4. Bài học từ AlphaGoNam Chi-hyung (Giáo sư nghiên cứu Cờ vây – Đại học Myongji): “Chúng ta đã nói nhiều về những nước đi rất ‘dị’ và kỳ lạ của AlphaGo, trông thì có vẻ như đó là nước đi lỗi. Cho đến khi ván đấu kết thúc, chính chúng ta phải nghi ngờ về bản thân mình, nghi ngờ về những đánh giá của mình.”Frank Lantz (Giám đốc Trung tâm Trò chơi – Đại học New York): “Với tôi, điều thú vị nhất mà tôi học được ở trò chơi này xuất phát từ việc xem cách mà AlphaGo chơi, nó gọi là ‘những nước đi chùng xuống’. AlphaGo muốn dạy cho chúng ta một điều, chúng ta đang quá phụ thuộc vào điểm số, và dựa vào đó để xác định cơ hội giành chiến thắng. Ở thời điểm này bạn có thể vây được nhiều đất hơn, có được nhiều điểm hơn, tôi đang ít điểm và thất thế, điều đó không có nghĩa là bạn sẽ thắng. Tôi chỉ cần một điểm nút duy nhất để đảo ngược tình hình. Tại sao tôi phải giành thêm đất trong khi tôi không thực sự cần đến nó? Đó là điều mà AlphaGo muốn thay đổi chúng ta về cách nhìn nhận trò chơi này trong tương lai.”Lee Sedol: “Điều làm tôi bất ngờ nhất là cách AlphaGo chỉ cho chúng ta những nước đi mà con người nghĩ rằng ‘thật sáng tạo’, thực chất với nó lại là rất bình thường.”5. Bình luận

DeepMind đã sử dụng công nghệ mạng lưới thần kinh – mô phỏng mạng nơ ron thần kinh của não người cho AlphaGo. AlphaGo tự học chơi cờ vây bằng cách phân tích hàng ngàn hàng vạn nước đi của người chơi trước. Sau đó, kết hợp với công nghệ học tăng cường (reinforcement learning), nó tự chơi cờ với chính bản thân mình để đẩy trình độ của mình lên các đẳng cấp cao hơn. Về bản chất, các lần tự chơi này giúp tạo ra các nước đi mới mà máy tính có thể sử dụng để đào tạo lại chính bản thân. Vì vậy, đây không phải là nước đi của con người. Nói cách khác, hệ thống AlphaGo không vận hành để chơi theo cách thông thường, nó chơi theo cách con người sẽ không bao giờ làm.

Chiến thắng chung cuộc 4-1 của AlphaGo trước Lee Sedol là một cột mốc quan trọng trong nghiên cứu Trí tuệ nhân tạo. Nó đã đập tan quan điểm cho rằng “máy tính sẽ không bao giờ đánh bại được những người hàng đầu trong Cờ vây.” Nó là động lực để các chuyên gia DeepMind tiếp tục phát triển thêm các phiên bản nâng cấp như Alpha Zero hay Alpha Star sau này.

Xem thêm: Edamame Là Gì – đậu Nành Nhật Bản Giá Tốt Nhất

Video về Hành trình đánh bại Lee Sedol của AlphaGo:

Vũ Duy Long – FPT Software

FPT thienmaonline.vn chính thức ra mắt chuyên mục mới – “GÓC NHÌN BẠN ĐỌC” là nơi bạn đọc có thể chia sẻ những bài viết về công nghệ mới, kinh nghiệm lập trình, tham gia dự án,… đến cộng đồng yêu công nghệ. Các bài viết chất lượng và được đăng tải trên website FPT thienmaonline.vn sẽ nhận được một khoản nhuận bút hấp dẫn thay lời cảm ơn vì những đóng góp của tác giả cho cộng đồng.

Chuyên mục: Hỏi Đáp