adblock check

OpenAI анонсировала GPT-4o: языковую модель, которая лучше справляется с текстом, голосом и изображениями

Теперь пользователи чат-бота могут взаимодействовать с ним на уровне голосового помощника. ИИ даже имитирует эмоции

Сегодня, 13 мая, компания OpenAI официально представила миру свою новую флагманскую модель генеративного искусственного интеллекта под названием GPT-4o. Разработчики проекта отмечают, что данная большая языковая модель будет постепенно внедряться в продукты компании в течение следующих нескольких недель, но по уровню «интеллекта» она примерно сопоставима с GPT-4. Главное преимущество GPT-4o в том, что данная модель существенно улучшает возможности системы в области обработки текста, графического контента и аудио.

Стоит отметить, что модель GPT-4, предыдущая флагманская LLM от компании OpenAI, могла взаимодействовать с комбинациями изображений и текста, анализируя графический контент и текстовые подсказки для выполнения различных задач. Например, ИИ мог извлекать текст из изображений или генерировать описание содержимого на картинке. В GPT-4o к этому перечню возможностей добавили продвинутое распознавание речи, что, по словам представителей компании, существенно улучшает работу чат-бота ChatGPT. Данный сервис и ранее поддерживал голосовой режим работы — чат-бот может транскрибировать текст при помощи технологии, которая преобразовывает текст в речь, но GPT-4o существенно расширяет эти возможности.

С выходом новой языковой модели чат-бот можно использовать в роли полноценного голосового помощника. Авторы проекта отмечают, что новая модель обеспечивает реакцию в режиме реального времени, умеет улавливать эмоции в голосе пользователя, а также генерировать голос в различных эмоциональных стилях. Сам же пользователь может задать вопрос ChatGPT, а затем прервать искусственный интеллект в процессе ответа, если ему это больше не интересно.

Ещё модель GPT-4o улучшает «зрительные» возможности чат-бота ChatGPT — система после получения скриншота или фотографии может быстро отвечать на связанные с контентом вопросы. Например, пользователь может просить ИИ «Что происходит в этом программном коде» до «Какая марка рубашки на этом человеке?» — модель мгновенно найдёт ответ на данный вопрос.

«Мы знаем, что эти модели становятся всё сложнее и сложнее, но мы хотим, чтобы опыт взаимодействия с ними стал более естественным, лёгким и чтобы вы вообще не концентрировались на пользовательском интерфейсе, а просто сосредоточились на сотрудничестве с чат-ботом», — заявил представитель компании.

Приятная новость ещё и в том, что в GPT-4o разработчики реализовали поддержку ещё 50 языков мира, плюс данная модель в два раза быстрее GPT-4 Turbo, хотя в плане ресурсов она в два раза дешевле.

Источник

ИИ ИИ
71 участник
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...