Дълбокото „укрепване на укрепването“ е обучението на новите умения, по-бързо от всякога

Роботите се учат как да изпълняват задачи в ускорени виртуални светове, развивайки умения в рамките на часове, които иначе биха могли да отнемат месеци. Симулирано учене с дълбоко усилване (или Deep RL) означава умение, което обикновено отнема 55 дни за A.I. да се учи в реалния свят отнема само един ден в хипер-ускорената класна стая.

"Това е потенциалът наистина да революционизира това, което можем да направим в областта на роботиката," каза Рая Хадсел, изследовател в Google DeepMind, на срещата на върха за повторно обучение в Лондон в четвъртък. "Можем да научим умения на човешко ниво."

Може да звучи контра-интуитивно, тъй като сигурно целият робот е, че програмистите могат да ги научат да правят неща, нали? При проектирането на машина, която работи в реалния свят, обаче, роботите се нуждаят от много данни, за да разберат как да направят задача в непозната ситуация. А.С. може да използва тези данни, за да "научи" умение въз основа на всички случаи, които са били преди.

Учението за дълбоко подсилване събира тези данни по подобен начин на това как хората се учат: роботът ще изпълни задачата многократно, като улавяне на топка, и записва данните, за да изгради картина за това как най-добре да улови топката в нова ситуация. Когато DeepMind използва модела през 2013 г., за да научи робот как да овладее Atari игри, просто като го седи пред екрана и му казва крайната цел, научната общност го обича.

Проблемът е, че това отнема вечно. Трябва да хвърляте топки на робот многократно, или в случая Atari, оставете робота сам в спалнята си за известно време. Осъществявайки симулация на MuJoCo, комбинирана с прогресивна невронна мрежа, обучителите могат да изпълняват програма, която имитира робота, прехвърля научените поведения към робота и картира виртуалните движения в реалния свят.

- Можем да управляваме тези симулатори цял ден и цяла нощ - каза Хадсел.

Резултатите говорят сами за себе си. Този робот, който е получил дипломата си за хващане, сега може да следва виртуални топки, сякаш са истински, да го подготвят за големия ден, когато е поискано да хване истинска топка:

Научните фантазии на Ада Палмър са исторически измислици от дълбокото бъдеще

В Ask a Prophet ние използваме нашите извънземни изследвания върху мозъците на научно-фантастичните, фантастичните и спекулативните писатели. Тази седмица говорихме с авторката Ада Палмър, чиято работа често е между езика, който използва и историята, която тя разказва. Нейният стил на писане прилича на Дикенс, но нейните дистопични занимания са много повече ...

Защо укрепването на обучението ще отключи автономните автомобили за масите

Вместо да програмират колите, за да очакват всеки възможен сценарий, инженерите могат да програмират колите, за да се научат как да се придвижват към сценарии чрез обучение за укрепване.

18 Укрепване на причините да обичаш да си лесбийка

Не мислите, че да бъдете лесбийка е толкова забавно, колкото другите предпочитания? Тук сме, за да дадем представа за най-добрите неща за това да бъдеш с други момичета!

Дълбокото „укрепване на укрепването“ е обучението на новите умения, по-бързо от всякога

ÐÑÐµÐ¼Ñ Ð¸ Ð¡ÑÐµÐºÐ»Ð¾ Ð¢Ð°Ðº Ð²ÑÐ¿Ð°Ð»Ð° ÐÐ°ÑÑÐ° HD VKlipe Net

Научните фантазии на Ада Палмър са исторически измислици от дълбокото бъдеще

Защо укрепването на обучението ще отключи автономните автомобили за масите

18 Укрепване на причините да обичаш да си лесбийка

ÐÑÐµÐ¼Ñ Ð¸ Ð¡ÑÐµÐºÐ»Ð¾ Ð¢Ð°Ðº Ð²ÑÐ¿Ð°Ð»Ð° ÐÐ°ÑÑÐ° HD VKlipe Net