Алгоритъм, който овладял 'Pong' Сега отличен в 'Flappy Bird', Still Single

$config[ads_kvadrat] not found

unboxing turtles slime surprise toys learn colors

unboxing turtles slime surprise toys learn colors
Anonim

Усъвършенстване на метода за дълбоко обучение, за който е разработена Pong, Космически нашественици и други игри Atari, студентът по компютърни науки в Станфордския университет Кевин Чен създаде алгоритъм, който е доста добър в класическия страничен скрол 2014 Flappy Bird, Чен е използвал концепция, известна като „q-learning“, в която агентът цели да подобри наградата си с всяка повторение на играта, за да усъвършенства почти невъзможно и невъзможно пристрастяваща игра.

Чен създава система, в която алгоритъмът му е оптимизиран, за да търси три награди: малка положителна награда за всеки кадър, който остава жив, голяма награда за преминаване през тръба и еднакво голяма (но отрицателна) награда за умиране. Така мотивирана, така наречената дълбока мрежа може да надхитри хората, според доклада на Чен: „Успяхме успешно да играем играта Flappy Bird чрез учене направо от пикселите и резултата, постигайки суперчовешки резултати."

Оригиналната книга Atari, публикувана през 2015 г. в природа, дошъл от компанията на DeepMind, собственост на Google (сега известна със своето майсторство на древната китайска настолна игра Go). Постижението на DeepMind е пробив в това, че е необходима визуална - или пикселна, поне - информация, и с минимален принос е в състояние да максимизира наградите. Такава система за възнаграждение е оприличена на допаминергичния отговор на мозъка, просто опростен.

Това не е първият път, в който алгоритъм е завладял развяващи се птици: Една по-ранна класа от студенти по компютърни науки в Станфордския университет създаде програма, която, след като е обучена за една нощ, нейният резултат се е подобрил от 0 до 1,600.

$config[ads_kvadrat] not found