Достижения в области искусственного интеллекта, чипы улучшают распознавание голоса Новости

Отдельные разработки в области технологии распознавания речи, разработанные IBM и Калифорнийскими университетами в Сан-Франциско и Беркли, предлагают многообещающие новости для пациентов, страдающих голосовым параличом и потерей речи.

IBM сообщила о создании более быстрого и энергоэффективного компьютерного чипа, способного ускорять вывод модели распознавания речи.

С бурным ростом больших языковых моделей для проектов искусственного интеллекта выявились ограничения производительности аппаратного обеспечения, приводящие к более длительным периодам обучения и растущему потреблению энергии.

Что касается затрат энергии, MIT Technology Review недавно сообщил, что при обучении одной модели искусственного интеллекта выделяется более 626 000 фунтов углекислого газа, что почти в пять раз превышает количество, выделяемое среднестатистическим американским автомобилем за весь срок его службы.

Ключевым фактором, стоящим за огромной утечкой энергии в операциях искусственного интеллекта, является обмен данными между памятью и процессорами.

Исследователи IBM, ищущие решение, говорят, что их прототип включает в себя устройства памяти с фазовым переходом внутри чипа, оптимизирующие фундаментальные процессы искусственного интеллекта, известные как операции многократного накопления (MAC), которые значительно ускоряют работу чипа. Это позволяет обойти стандартную процедуру передачи данных между памятью и процессором, отнимающую много времени и энергии.

“Насколько нам известно, это первые демонстрации коммерчески значимых уровней точности на коммерчески значимой модели”, – сказал Стефано Амброджиа из IBM в исследовании, опубликованном 23 августа в онлайн-журнале Nature.
14-нм аналоговый чип искусственного интеллекта на тестовой плате.

“Наша работа показывает, что в сочетании с экономичной по времени, площади и энергопотреблению реализацией встроенных вспомогательных вычислений высокая энергоэффективность и пропускная способность … могут быть распространены на всю систему аналогового искусственного интеллекта”, – сказал он.

При выполнении операций распознавания речи с интенсивным использованием процессоров прототип IBM выполнил 12,4 триллиона операций в секунду на ватт, что в сотни раз выше, чем у самых мощных процессоров и графических процессорных систем, используемых в настоящее время.

Тем временем исследователи из Калифорнийского университета в Сан-Франциско и Калифорнийского университета в Беркли говорят, что они разработали интерфейс мозг-компьютер для людей, потерявших способность говорить, который генерирует слова на основе мыслей пользователя и усилий по вокализации.

Эдвард Чанг, заведующий кафедрой неврологической хирургии Калифорнийского университета в Сан-Франциско, сказал: “Наша цель – восстановить полноценный, воплощенный способ общения, который является для нас наиболее естественным способом общения с другими”.

Чанг и его команда имплантировали два крошечных датчика на поверхность мозга женщины, страдающей боковым амиотрофическим склерозом, нейрогенеративным заболеванием, которое постепенно лишает своих жертв подвижности и речи.

Хотя испытуемая все еще могла произносить звуки, БАС ограничивал использование ее губ, языка и гортани для произнесения связных слов.

Датчики были подключены через интерфейс мозг-компьютер к банкам компьютеров, на которых размещалось программное обеспечение для расшифровки языка.

300-миллиметровая пластина, используемая для изготовления аналоговых чипов искусственного интеллекта. Автор: Райан Лавин из IBM

Женщина прошла 25 тренингов продолжительностью по четыре часа каждый, в ходе которых она прочитала наборы из 260-480 предложений. Активность ее мозга во время чтения переводилась декодером, который распознавал фонемы и собирал их в слова.

Затем исследователи синтезировали ее речь, основываясь на записи ее выступления на свадьбе несколькими годами ранее, и создали аватар, отражающий движения ее лица.

Результаты были многообещающими.

После четырех месяцев обучения модель смогла отслеживать попытки субъекта произнести слова вслух и преобразовывать их в понятные слова.

При использовании тренировочного словаря из 125 000 слов, который охватывал практически все, что хотел бы сказать испытуемый, показатель точности составил 76%.

Когда словарный запас был ограничен 50 словами, система перевода работала намного лучше, правильно распознавая ее речь в 90% случаев.

Кроме того, система была способна переводить речь испытуемого со скоростью 62 слова в минуту. Хотя скорость распознавания слов в три раза выше, чем в предыдущих аналогичных экспериментах, исследователи понимают, что для достижения скорости естественной речи в 160 слов в минуту потребуются улучшения.

“Это научное доказательство концепции, а не реальное устройство, которое люди могут использовать в повседневной жизни”, – сказал Фрэнк Уиллетт, соавтор исследования, опубликованного 23 августа в Nature. “Но это большой шаг вперед в восстановлении быстрой коммуникации для людей с параличом, которые не могут говорить”.