Дълбокото „укрепване на укрепването“ е обучението на новите умения, по-бързо от всякога

Время и Стекло Так выпала Карта HD VKlipe Net

Время и Стекло Так выпала Карта HD VKlipe Net
Anonim

Роботите се учат как да изпълняват задачи в ускорени виртуални светове, развивайки умения в рамките на часове, които иначе биха могли да отнемат месеци. Симулирано учене с дълбоко усилване (или Deep RL) означава умение, което обикновено отнема 55 дни за A.I. да се учи в реалния свят отнема само един ден в хипер-ускорената класна стая.

"Това е потенциалът наистина да революционизира това, което можем да направим в областта на роботиката," каза Рая Хадсел, изследовател в Google DeepMind, на срещата на върха за повторно обучение в Лондон в четвъртък. "Можем да научим умения на човешко ниво."

Може да звучи контра-интуитивно, тъй като сигурно целият робот е, че програмистите могат да ги научат да правят неща, нали? При проектирането на машина, която работи в реалния свят, обаче, роботите се нуждаят от много данни, за да разберат как да направят задача в непозната ситуация. А.С. може да използва тези данни, за да "научи" умение въз основа на всички случаи, които са били преди.

Учението за дълбоко подсилване събира тези данни по подобен начин на това как хората се учат: роботът ще изпълни задачата многократно, като улавяне на топка, и записва данните, за да изгради картина за това как най-добре да улови топката в нова ситуация. Когато DeepMind използва модела през 2013 г., за да научи робот как да овладее Atari игри, просто като го седи пред екрана и му казва крайната цел, научната общност го обича.

Проблемът е, че това отнема вечно. Трябва да хвърляте топки на робот многократно, или в случая Atari, оставете робота сам в спалнята си за известно време. Осъществявайки симулация на MuJoCo, комбинирана с прогресивна невронна мрежа, обучителите могат да изпълняват програма, която имитира робота, прехвърля научените поведения към робота и картира виртуалните движения в реалния свят.

- Можем да управляваме тези симулатори цял ден и цяла нощ - каза Хадсел.

Резултатите говорят сами за себе си. Този робот, който е получил дипломата си за хващане, сега може да следва виртуални топки, сякаш са истински, да го подготвят за големия ден, когато е поискано да хване истинска топка: