ИИ-марафон: универсальный GPT против россыпи анонсов от Google
13 мая OpenAI, а 14 мая Google провели яркие оффлайн-конференции, где анонсировали связанные с искусственным интеллектом продукты. Похоже, запуск от OpenAI произвёл гораздо больше впечатления, чем новинки Alphabet.
Главный ИИ-стартап мира представил новую модель GPT-4o, где «о», Omni означает «мультимодальный». 4o понимает входные данные в виде любой комбинации текста, видео, аудио и картинок и генерирует ответ из нужной комбинации всех этих форматов. Средняя скорость ответа на аудиозапрос, 320 милисекунд, соответствует скорости человеческих реплик в разговоре.
По сравнению с GPT-4 Turbo серьёзно улучшилась эффективность работы с другими, кроме английского, языками, работа с API стала значительно быстрее и в полтора раза дешевле. Сама модель для пользователей бесплатна и выглядит наиболее привлекательно в роли голосового помощника. В общении модель умеет проявлять эмоции, понимать сарказм, и тон речи, шутить и петь, её можно перебивать и останавливать без потери контекста.
Судя по приведённым в блоге OpenAI бенчмаркам, из конкурентов новая модель уступает, и то на уровне погрешности, только Claude 3 Opus от Anthropic в Multilingual Grade School Math (математика школьного уровня на разных языках). Она также уступает GPT-4T в DROP (Discrete Reasoning Over the content of Paragraphs, понимание текста и извлечение из него смысла).
На Google I/O 14 мая корпорация представила «Проект Астра»: «прототип, исследующий то, как универсальный ИИ-агент может быть по-настоящему полезен в повседневной жизни». Технология будет встроена в Поиск Google. Как и GPT-4o, Астра будет отличаться быстрыми ответами без задержек, пониманием интонаций и в целом ощущениями пользователя как от общения с живым собеседником.
Глава поиска Google Лиз Рейд
Читать на habr.com

