PHP DM Gate v0.9 » AlphaZero - как работает??

Mystic © (22.02.19 13:38) [140]

> Alpha Zero шахматная программа на этом принципе появилась
> почти сразу, а для го по-прежнему нет?

Го программа появилась раньше, и при написании шахматной программы использовался опыт го-программы.

<Цитата>
java_guy © (22.02.19 15:11) [141]

Вот интересное в википедии прочитал: "In early 2018, another team branched Leela Chess Zero from the same code base, also to verify the methods in the AlphaZero paper as applied to the game of chess. AlphaZero's use of Google TPUs was replaced by a crowd-sourcing infrastructure and the ability to use graphics card GPUs via the OpenCL library. Even so, it is expected to take a year of crowd-sourced training to make up for the dozen hours that AlphaZero was allowed to train for its chess match in the paper"

<Цитата>
java_guy © (22.02.19 16:16) [142]

Мистик, а если бы вы решили написать свою шашечную программу на принципах AlphaZero/LeelaZero, то как бы вы тренировали ее? Сколько миллиардов партий должен сыграть движок, чтобы сильно заиграть? Вряд ли это получится с одним домашним ноутбуком

<Цитата>
Mystic © (22.02.19 16:23) [143]

Ну... 1600 TPU умножить на 10 часов... Эквивалентно работе одного GPU в течение 10 * 1600 * 3 = 48 000 часов = 2000 дней = 5½ лет

<Цитата>
xayam © (23.02.19 20:52) [144]

в чате сказали, исторический момент - стокфиш выигрывает tcec в последний раз :)

<Цитата>
Mystic © (24.02.19 00:32) [145]

> Мистик, а если бы вы решили написать свою шашечную программу
> на принципах AlphaZero/LeelaZero, то как бы вы тренировали
> ее? Сколько миллиардов партий должен сыграть движок, чтобы
> сильно заиграть?

Ну... AlphaZero это 6 миллионов партий вроде. Для шашек, я думаю, хватит одного миллиона с головой. А если добавить базы окончаний, то ещё на порядок меньше.

<Цитата>
java_guy © (25.02.19 12:53) [146]

Мистик, смотрите, что я нашел:
In Komodo's MCTS mode the search tree is expanded in best-first manner based on winning probabilities determined neither by random playouts nor by a neural network, but a tiny alpha-beta searchplus quiescence and static evaluation, also similar to UCT, dealing with the crucial trade-off between exploration and exploitation. While playing strength is lower with MCTS, positional play and judgement may well be better in many positions, not to mention a more risky and entertaining playing style.

Комодо не играет партии до конца случайным образом, а оценивает узлы в MCTS-дереве маленькой альфа-бетой.

<Цитата>
Mystic © (25.02.19 12:57) [147]

Тут об этом не сказано, что Komodo не играет партии до конца. Тут сказано про расширение дерева поиска, т. е. для нового узла проводится короткий alpha-beta анализ позиции, на основании которого сортируются ходы для дальнейшего включения в MCTS.

И судя по адекватности оценок в окончаниях (0.00 в случае крепости) Komodo MCTS таки доигрывает.

<Цитата>
java_guy © (25.02.19 13:34) [148]

determined neither by random playouts

<Цитата>
java_guy © (25.02.19 13:37) [149]

В классическом MCTS нужно сыграть партию для каждого созданного узла. Просто времени не хватит для построения дерева с приемлемым Depth. Может только в эндшпиле

<Цитата>
java_guy © (25.02.19 14:04) [150]

Вот здесь Ларри Кауфман всё объясняет: http://www.talkchess.com/forum3/viewtopic.php?f=2&t=67441

Большая ветка. Поражен, как агрессивно на него нападают. Думал, только у нас так

<Цитата>
Mystic © (25.02.19 14:25) [151]

Правильно, Komodo MCTS доигрывает партию до конца, но не случайными ходами. Если узел неизвестный, в нём запускается alpha-beta перебор, который выдаёт ожидаемый процент очкой для каждого хода. А дальше работает UTC.

<Цитата>