AI Startup Ecosystems in The US and China | Henry Shi | Talks at Google
Речтачката върви след Google. Британският стартъп отне тайна от автоматичния лингвист миналия месец, мощен изкуствен интелект, който може да научи всеки език за транскрипция на реч-текст в рамките на няколко дни. Екипът иска да даде възможност на технологията за всеки един от приблизително 7000 езика в света, с потенциал за трансформиране на живота.
От стартирането на езиковия инструмент Speechmatics работи върху Omniglot, предизвикателство за изграждане на език на ден. Миналата седмица компанията постигна голям крайъгълен камък: официално победи Google с общо 72 уникални езика.
Системата използва машинно обучение, за да съвпада с аудио данни с копие от транскрипция. След това той използва езикови модели от други езици, за да направи процеса възможно най-опростен, като идентифицира приликите между звуците и граматичните структури и ги прилага към новите езици. Процесът е много ефективен: като пример, работата на Speechmatics по Hindi отне само две седмици, за да достигне 80% точност. Когато крайният продукт беше тестван срещу усилията на Google, той направи 23% по-малко грешки.
обратен разговаря с Бенедикт фон Тюнген, главен изпълнителен директор на Speechmatics, за да научи повече.
Как започнахте да работите по проекта?
Започнахме проекта Omniglot като предизвикателство за себе си - да видим колко езика ще можем да построим за шест седмици. Ние осъзнахме известно време, че традиционният подход за изграждане на всеки език поотделно вече не е жизнеспособен, когато се търси с мащабен темп. Имайки предвид това, трябваше да преосмислим какъв език е, как е структуриран и какви прилики има между различните езици. Намерихме начин да използваме тези общи черти, за да идентифицираме модели и да помогнем на нашата рамка с автоматичен лингвист (АЛ) да изгради езици по-бързо от всякога - 46 за шест седмици, за да бъдем точни, или за един език на ден в продължение на шест седмици !
Как това се различава от усилията на Google?
Нашият подход към изграждането на езици е един от основните аспекти, който ни отличава от Google. Докато приемаме, че те изграждат своите езици поотделно (или с това, което наричаме „груба сила“), ние използваме силата на A.I. усъвършенстване и ускоряване на процеса на изграждане на езици. Освен това, докато други услуги като Google се фокусират върху изграждането на диалекти, а не на уникални езици, ние сме горди да кажем, че усилията ни бяха насочени към уникални езици от цял свят, включително области, които преди това бяха недостатъчно обслужвани от големите технологични компании.
Какви са някои от реалните приложения за това?
Сега имаме технологии и знания, за да направим нашата услуга по-далеч по-далечна от всякога и да въведем автоматично разпознаване на реч (ASR) на всички. Това е особено важно в страни с ниски нива на грамотност, където способността да се използва преди това недостъпна технология за общуване на текст и текст може да направи всичко различно за хората. Други реални случаи, в които ASR технологията може да помогне с въпросите на достъпността - хора с увреден слух и / или зрение от цял свят вече могат да използват устройство толкова просто като телефон, за да взаимодействат с хората около тях.
Това подобрява ли точността на добре покритите езици като английския?
Тъй като ние продължаваме да развиваме повече езици, нашият A.I. рамката ще става все по-умела при идентифицирането на езикови характеристики и модели. Ние ще използваме тези знания, за да продължим да усъвършенстваме настоящата си езикова база, включително английски.
Това може ли да подобри нещо като инструментите за превод в реално време на Google Pixel Buds?
Определено ще видим проекти като Omniglot, които помагат за подобряване на инструментите за превод в реално време. С инвестирането на повече ресурси в разширяването на обхвата и точността на езиците, ще видим непрекъснато подобрение в сектора на преводаческите услуги.
Работи ли това с всеки език, дори с изградени езици като клингонски?
Все още не сме се опитали да изградим каквито и да било конлагменти, но не виждаме причини, поради които да не работят. Тъй като тези езици все още се говорят от хората, те също следват подобни структурни правила и ограничения като ежедневните езици (като например броя на фонемите), които биха дали достатъчно данни на АЛ за изграждане.
Отворен ли сте с проекта?
Не, нямаме планове за това.
Как ще работи лицензирането?
Езиците, предлагани по проект Omniglot, са безплатни и не могат да бъдат използвани за търговски цели. В този смисъл в обозримото бъдеще няма да има прикрепени към тях лицензи.
Какви са следващите стъпки от тук?
Проектът Omniglot е само началото за нас. Искаме накрая да изградим всеки език в света, така че ще работим усилено за постигането на тази цел!
Високоскоростно видео на котешки езици дава друга причина, поради която те са по-висши
Когато учените от Georgia Tech превърнаха високоскоростна камера на котешки език по време на сесия, те разкриха уникална биологична характеристика, която ги прави елитни. Техните резултати показват, че котките не се нуждаят от човешка помощ, за да останат свежи
Лингвистите на MIT казват, че човешките езици могат да бъдат предсказуеми
Универсалният преводач е стандартен sci-fi троп: Вавилонската риба е съществувала в много форми (мислете: C-3P0, "Microsofts" на Gibson и матрицата на linguacode). Лингвистите на IRL отдавна са смятали създаването на подобна технология за пълен пъзел и вид ендшпил на крекинг на код. Сега изследователите в ...
Защо играта на тронове може да бъде много объркваща на други езици
Спойлери напред! Игра на престоли е международен хит. Той се излъчва в над 170 страни, и в по-голямата си част, блестящо stabb-y действие се превежда, независимо от езика. Има едно нещо, което не работи толкова добре в други езици: portmanteaus. GoT не е точно игра на думи или портал ...