
Тренды ИИ-2025
Всем привет! Я Федор Горбунов, руководитель направления машинного обучения в Doubletapp. Сегодня поговорим о том, какие значимые для искусственного интеллекта события произошли в 2024 году и попробуем спрогнозировать вектор развития отрасли в будущем.
Что нового умеют новые модели? «О» в названии gpt-4о означает «омнимодальность».
Это значит, что модель может принимать текст, изображения, аудио и видео в одном запросе и анализировать их вместе.
Например, вы можете отправить изображение, а текстом написать вопрос: «Что тут изображено?» или «Какой текст написан на этой фотографии?». Это все доступно в бесплатной версии, а с подпиской — больше.
Благодаря тому, что аудио и видео передается напрямую, без конвертации в текст, у модели очень низкие задержки, и это позволяет, например, разговаривать с моделью в реальном времени с видеосвязью. Можно перебивать её или задавать уточняющие вопросы. Модель видит, что происходит на видео, и может отвечать на вопросы, связанные с окружением. Проще говоря, модели можно позвонить, как другу, показать обстановку вокруг и задать вопросы.
Также вы можете пошарить ей экран, показать интерфейс приложения и попросить помочь что-то в нем сделать.
Омнимодальность выводит взаимодействие с искусственным интеллектом на новый уровень, делая его более универсальным. Это шаг вперед в возможности применения искусственного интеллекта в реальной жизни — от помощи в работе с софтом до полноценного визуального анализа окружающего мира.
Для пользователей это означает удобное использование ИИ без необходимости переключаться между инструментами: распознавание текста, переводы, взаимодействие с интерфейсами и даже решение бытовых задач. Для бизнеса это упрощение процессов — там, где раньше требовалась интеграция
Читать на habr.com