Обучение с утвърждение

В контекста на Изкуствения Интелект, терминът „Обучение с утвърждение“ (анг. Reinforcement Learning) обозначава група от методи за автоматично самообучение. Тези методи се отличават със способността си да функционират без необходимост от примерни решения на поставения проблем. Обучението протича като последователност от пробни действия, които постепенно водят до утвърждаване на добрите действия и избягване на неподходящите.

Проблеми от този тип често се представят като агент, разположен в някакво обкръжение, който взима решения в зависимост от състоянието на това обкръжение. На свой ред обкръжението реагира с награда или наказание, в зависимост от това колко уместно е било избраното действие.

Резултатът от обучението е оптимална стратегия за действие във всяка ситуация. Стратегията е оптимална ако успява да максимизира сумата от всички награди получени по време на изпълнението си.

История и връзка с други области

Сред първите алгоритми за Обучение с утвърждение са т.нар. TD-Learning, разработен от Ричард Сътън през 1988, и Q-Learning, разработен 1989 и публикуван 1992 година.

Тези методи са също така свързани с теорията на оптималния контрол. Обучението с утвърждение често пъти се разглежда като дискретен Марковски процес. Агентът взима решения на дискретни стъпки и всяко следващо решение зависи само от текущото състояние на обкръжението, а не цялата история от предишни състояния. Тази формулировка на проблема е въведена от Белман през 1957 година.

Обучението чрез утвърждение може да се разглежда като комбинация от три елемента:

Обикновено наградата в близките състояния на обкръжението е много по-важна от тази на далечните бъдещи състояния. Тази зависимост може да бъде отразена чрез въвеждането на коефициент гама:

Беше ли полезна тази статия?

Оцени я!

Среден рейтинг / 5. Брой гласове:

Ако намираш статията за полезна...

Последвай ни в социалните мрежи!

Съжаляваме, че тази статия не ти беше полезна!

Помогни ни да променим това!