Share to:

AlphaZero

AlphaZero là một chương trình máy tính được phát triển bởi trí tuệ nhân tạo của DeepMind để làm chủ các trò chơi của cờ vua, shogicờ vây. Thuật toán này sử dụng một cách tiếp cận tương tự như AlphaGo Zero.

Vào ngày 5 tháng 12 năm 2017, nhóm DeepMind đã phát hành bản tiền xuất bản giới thiệu AlphaZero, trong vòng 24 giờ đào tạo đã đạt được mức độ chơi siêu phàm trong ba trò chơi này bằng cách đánh bại các chương trình vô địch thế giới Stockfish, elmo và phiên bản 3 ngày của AlphaGo Zero. Trong mỗi trường hợp, nó đã sử dụng các đơn vị xử lý tensor tùy chỉnh (TPU) mà các chương trình Google được tối ưu hóa để sử dụng. AlphaZero chỉ được đào tạo thông qua "tự chơi" bằng cách sử dụng 5.000 TPU thế hệ đầu tiên để tạo ra các trò chơi và 64 TPU thế hệ thứ hai để huấn luyện các mạng thần kinh, song song, không có quyền truy cập vào kho khai cuộc và tàn cuộc. Sau bốn giờ đào tạo, DeepMind ước tính AlphaZero đã chơi ở mức Elo cao hơn Stockfish 8; Sau 9 giờ huấn luyện, thuật toán đã đánh bại Stockfish 8 trong một giải đấu 100 ván được giới hạn thời gian (28 trận thắng, 0 trận thua và 72 trận hòa).[1][2] Thuật toán được đào tạo đã chơi trên một máy đơn có bốn TPU.

Bài viết của DeepMind về AlphaZero đã được xuất bản trên tạp chí Science vào ngày 7 tháng 12 năm 2018.[3] Vào năm 2019, DeepMind đã xuất bản một bài báo mới chi tiết về MuZero, một thuật toán mới có thể khái quát hóa trên AlphaZero khi chơi cả Atari và các trò chơi trên bàn mà không có kiến thức về các quy tắc hoặc biểu diễn của trò chơi.

Tham khảo

  1. ^ Knapton, Sarah; Watson, Leon (ngày 6 tháng 12 năm 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (bằng tiếng Anh). Telegraph.co.uk. Truy cập ngày 6 tháng 12 năm 2017.
  2. ^ Vincent, James (ngày 6 tháng 12 năm 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Truy cập ngày 6 tháng 12 năm 2017.
  3. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (ngày 7 tháng 12 năm 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. Quyển 362 số 6419. tr. 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya