



OpenAI: Codex автоматизировал всю дата-платформу – 600 ПБ, 70 000 датасетов и 3500 юзеров
OpenAI официально подтвердила, что её внутренняя платформа данных – система, на которой крутятся обучение моделей, пайплайны безопасности, продуктовая аналитика и финансовая отчётность, – переведена под управление автономных агентов на базе Codex.
Платформа обслуживает более 3500 внутренних пользователей и управляет свыше 600 петабайт данных, распределённых по примерно 70 000 датасетов. Под капотом – высоконагруженные Kafka-потоки, распределённые Apache-Spark-джобы и оркестрация тысяч воркфлоу. И теперь за всем этим в реальном времени следят ИИ-агенты.
“Наш внутренний дата-агент получает не просто дамп схем или экспорт BI-каталога. Он оперирует определениями таблиц, владельцами, документацией, историей запросов, лайнэджем, дашбордами, правами доступа и продакшен-кодом, который генерирует данные”, – пояснила Эмма Танг, лид платформы данных OpenAI.
Когда пайплайн ломается, агент не ждёт, пока проснётся инженер. Он сам исследует сбой, дебажит, а в ряде случаев – чинит ещё до того, как человек откроет дашборд. Объёмы событий в стриминговых системах OpenAI выросли примерно в 50 раз за год, и ручные реакции перестали успевать. Агенты же превращают эксплуатацию в непрерывный процесс: системы наблюдают за своим состоянием, рассуждают о происходящем и действуют.
Codex, который изначально задумывался как ассистент для программистов, теперь ведёт себя как исполнительный слой. Число его еженедельных пользователей перевалило за 3 миллиона, и значительная доля активности вышла за рамки кодинга – планирование, документация, операционная работа.
Самый показательный пример – внутренний релиз-агент. Он управляет обновлениями систем на Apache Spark: катит изменения постепенно, проверяет стабильность часами или днями, генерирует пул-реквесты и
Читать на habr.com