-
> 100% рыба
ты же вроде за комодомцст болел?
-
а что значит "позиции будут всё более разбалансированы"?
-
> ты же вроде за комодомцст болел?
Да, мне Komodo MCTS представляется более интересным.
> позиции будут всё более разбалансированы
Например, королевский гамбит. Удержат ли белые ничью или проиграют? Вот, SF удержал ничью, а Lc0 нет.
-
Мистик, а вот такой вопрос. Я лет 7-8 назад увлекался немного темой MCTS with UCT. И я помню две вещи:
1. Монте-Карло хорош для игр, где оценочную функцию трудно написать (го, например). В шахматах ОФ давно получена хорошая. По идее шахматам не нужен MCTS, главное хорошо дерево вариантов резать. То есть Stockfish рано хоронить и там еще не всё сказано
2. У MCTS, как известно, четыре стадии (selection, expansion, playout, backpropagation). Самая интересная часть - playout. И тут вопрос: как проиграть партию? Если чисто случайными ходами, то сила программы, основанной на Монте-Карло, будет невысока. Желательно сыграть максимально безошибочную партию, тогда и оценки узлов будут корректными.
-
1. Скорее наоборот, Alpha-beta хороша для игр, где позволяет ветвистость игры и можно написать оценочную функцию. Поэтому для шахмат такой подход следует рассмотреть. А вот лучший это подход или нет надо экспериментировать. MCTS же хорошо подходит для многих игр. Как показывает пример Komodo MCTS, результаты можно сравнивать.
Если сравнивать вообще алгоритмы MCTS и alpha-beta, то... alpha-beta имеет проблему горизонта, и сейчас в чистом виде у сильных движков почти не встречается. Даже тот же Stockfish делает случайные доигрывания. Проблемой для alpha-beta являются крепости (по мнению SF у белых есть лишняя ладья, но в силу замкнутости пешечных цепей её не реализовать). Ну и разные долгоиграющие факторы, например, оценка долгосрочной инициативы соперника. MCTS имеет тот недостаток, что может пропустить тактику (меньше узлов в поиске).
2. Komodo MCTS доигрывает при помощи усечённой alpha-beta со специфической оценочной функцией. При этом оценка Komodo в окончаниях часто точнее SF, потому что хорошо понимает, что такое крепость (нулевой процент побед при доигрывании). AlphaZero доигрывала в первых версиях на основании предложения нейросети. Потом от этого отказались, там сейчас нейросеть возвращает оценку и на основании температуры выбирается узел для последующего рассмотрения. Оценка в окончании часто не соответствует действительности при таком подходе. Мои шашки — чистый рандом. Ну а так playout + инициализация начальных оценок ходов — простор для творчества.
-
А как вам такая идея? Играет движок сам с собой методом MCTS, строится дерево Монте-Карло, playout-ы при этом играются так: смотрятся все первые ходы, делаются, возвращается оценка и выбирается ход с лучшей оценкой. То есть никакого рандома. По итогам определенного количества партий выбирается лучший набор параметров для ОФ и идет дальше коррекция весов для ОФ.
-
похоже сбой в железе случился
-
да похоже лиле засчитали падение, она пока на очко впереди. А партия будет переигрываться?
-
> А партия будет переигрываться?
Дали переиграть. По правилам, крэш считается поражением, дисконнект переигрывается.
> А как вам такая идея?
Хотите — пробуйте. Пока описано нечётко, но я вижу две возможные проблемы: №1 позиции после разных ходов будут похожи, и сложно придумать ОФ, чтобы на это реагировала; №2 непонятно на каких данных обучать ОФ?
-
Мистик, а вы смотрели исходный код Lc0?
Я вот не могу понять, что на выходе получается после кучи сыгранных партий самообучения? какой-то файл с trained data?
-
> что на выходе получается после кучи сыгранных партий самообучения? > какой-то файл с trained data?
вот же ссылка http://lczero.org/networks/
-
xayam, спасибо за ссылку
-
> xayam, спасибо за ссылку
вообще первая ссылка в гугле по запросу "Lc0" ведёт на этот сайт :)
-
А Leela Chess во время игры использует шахматные знания? Дебютную библиотеку? Таблицы Налимова, Sygyzy? Или только свое?
-
> А Leela Chess во время игры использует шахматные знания? > Дебютную библиотеку? Таблицы Налимова, Sygyzy? Или только > свое?
ну вот сейчас идет tcec на сайте chessdom и там все это используется, но а так это по желанию - можно отключить
-
И насколько пунктов ЭЛО меньше, если отключить?
-
> java_guy © (19.02.19 11:23) [135] > И насколько пунктов ЭЛО меньше, если отключить?
трудно сказать, но если у противника lc0 тоже отключить, то я думаю для lc0 это преимущество. Думаю, до 100 Эло не больше, если противник будет иметь дебютные и эндшпильные базы
-
> Я вот не могу понять, что на выходе получается после кучи > сыгранных партий самообучения? какой-то файл с trained data? >
Не знаю, не смотрел. Но логично, чтобы в обучающей выборке была позиция, ход который приводил к набору очков (½, 1). Плюс оценка результата доигрывания (статистика).
-
Как думаете, почему после публикации материалов от разработчиков Alpha Zero шахматная программа на этом принципе появилась почти сразу, а для го по-прежнему нет?
-
> появилась почти сразу, а для го по-прежнему нет?
вообще то го раньше появилась. Первоначальный автор https://en.wikipedia.org/wiki/Leela_ZeroLeelaZero назвал программу в го и только потом из нее сделали LeelaChessZero или Lc0
|