Нейросеть OpenAI обрела голос

GPT-4o способна отвечать на вопросы во время разговора со скоростью человека, а также общаться голосовыми сообщениями в режиме реального времени

Для twitter

Для facebook и дзен

Для Vkontakte

Для меню

Основное изображение

OpenAI представила новую языковую модель GPT-4о, которая можетгенерировать текст, звук и изображения. Компания собирается внедрить ИИ-модельв свою продукцию.

В OpenAI считают, что GPT-4o сможет улучшить работу чат-бота ChatGPT, вкотором уже есть голосовой режим. Однако новая технология будет направлена набольшее взаимодействие с нейросетью именно как спомощником — например, его можно будет прервать во время ответа.Также новая технология может менять интонацию и эмоции в голосе.

Кроме того, языковая модель может реагировать на аудиовход за 232миллисекунды, а в среднем ей требуется 320 миллисекунд, что аналогично времениреакции человека в разговоре.

Помимо скорости, GPT-4o показала высокие результаты в способностирассуждать. ИИ-модель получила 88,7% в бенчмарке COT MMLU, который проверяетобщие знания. Технология по производительности смогла обогнать GPT-4Turbo.

В том числе в ИИ-модели улучшена работа с изображениями. Она качественнееанализирует изображения, графики и скриншоты, в отличие от существующихтехнологий.

«GPT-4o также прошла обширную внешнюю переподготовку с привлечениемболее 70 внешних экспертов в таких областях, как социальная психология,предвзятость, а также дезинформация, для выявления рисков, которые могутпоявиться с появлением новых добавленных модальностей. Мы использовали этизнания для разработки наших мер по обеспечению информации», — сообщили вOpenAI.

GPT-4o доступна как в платной, так и в бесплатной версии. При превышениилимита запроса у бесплатных пользователей произойдет переключение на GPT-3.5, ау платных — на GPT-4.

Автор: Pupkin

Источник: ria novosti