Об этом же в других СМИ

habr.com / 10 месяцев назад

Отстав от гонки ген-ИИ, IBM и AMD объединяют усилия для создания квантово-центричных суперкомпьютеров

habr.com / 10 месяцев назад

Новый модуль Grammarly, AI Grader, использует открытые данные о преподавателе для предсказания оценки

habr.com / 10 месяцев назад

Раньше в Ancestry оцифровывали документы 9 месяцев. Теперь ИИ справляется за 9 дней

habr.com / 10 месяцев назад

Когда ИИ слишком уж соглашается: Spiral-Bench разоблачает, какие модели склонны подпитывать бред

habr.com / 10 месяцев назад

Microsoft тестирует поиск простыми словами в приложении Copilot для Windows 11

Больше по теме

27.08.2025 - 07:36 / habr.com

Фреймворк BeyondWeb (Datology AI) перестраивает веб-документы для лучшего обучения моделей

Сегодня бюджеты на обучение больших языковых моделей измеряются уже триллионами токенов, а достойные веб‑данные становятся всё труднее добыть. В Datology AI называют эту «стену данных» одним из главных вызовов и предлагают BeyondWeb как решение. Система заново структурирует уже существующие веб‑документы, делая их более ёмкими по содержанию, придаёт текстам обучающий тон и перестраивает их так, чтобы они лучше подходили для тренировок.

По данным Datology AI, BeyondWeb повышает точность на 5,1 п. п. в моделях с 8 млрд параметров по сравнению с Cosmopedia от Hugging Face и на 2,6 п. п. по сравнению с датасетом Nemotron‑CC от Nvidia.

Исследование показало и другое: BeyondWeb обучается значительно быстрее — в 7,7 раза быстрее, чем открытые веб‑данные, и в 2,7 раза быстрее, чем Nemotron Synthetic. В одном из тестов модель с 3 млрд параметров, обученная на BeyondWeb, превзошла модель с 8 млрд параметров, тренировавшуюся на Cosmopedia при одинаковом объёме токенов.

Учёные сосредоточились на семи ключевых вопросах, связанных с генерацией синтетических данных. Один из главных выводов: разнообразие — залог устойчивого прогресса. Стандартные методы помогают на ранних этапах обучения, но их однообразие в стиле ведёт к снижению отдачи.

Ещё одна находка: разговорный стиль в веб‑данных представлен ничтожной долей — менее 2,7%. При этом именно чат сегодня является основным сценарием применения LLM. Добавление диалоговых данных помогает, но эффект быстро выходит на плато.

При сравнении моделей разных размеров исследователи обнаружили, что даже небольшие языковые модели способны порождать качественные синтетические данные. Переход от 1 до 3 млрд параметров увеличил качество данных на 1,5 п. п., однако дальнейший рост до 8 млрд уже почти не дал

Nvidia общество семья бюджет самит мода и стиль крипто dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Meta✶ привлекла Midjourney к разработке своих ИИ-моделей изображений и видео habr.com / 10 месяцев назад

«AI для Индии и вместе с Индией»: OpenAI открывает офис в Нью-Дели habr.com / 10 месяцев назад

Command A Reasoning: нейросеть Cohere для масштабных исследований и анализа данных habr.com / 10 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 22:06

продукты медицина люди здоровье общество Почему эксперты просят избегать солнцезащитных спреев

Эксперты выяснили, что популярные аэрозоли могут вредить здоровью. Узнайте, какие три опасных компонента не должны быть указаны на упаковке вашей косметики.

14.07 / 21:13

происшествия люди общество самит животный мир Живут в каждом доме: действительно ли пауки-сенокосцы смертельно ядовиты

Пауки-сенокосцы встречаются по всему миру, населяя разнообразные среды и в частности жилища людей. Они имеют длинные, тонкие лапки, благодаря которым они кажутся намного больше, чем есть на самом деле. Однако с их ядом не все так просто.

14.07 / 19:45

люди ученые общество самит психология Почему прошлое кажется лучше настоящего - ответ ученых

Особенности человеческой памяти заставляют многих воспринимать прошлое более счастливым, чем оно было на самом деле.

14.07 / 19:45

здоровье продукты питания общество семья Здоровье и красота Дешевле и полезнее лосося – ученые назвали неожиданный суперфуд

Врачи рекомендуют сочетать разные источники ценных жиров. Ореховая добавка не должна полностью вытеснять рыбу из меню.

14.07 / 19:44

Samsung технологии Xiaomi история жертва Xiaomi представила Redmi Note 17 и 17 Pro — производительность, память и камеры принесены в жертву доступности, но батареи впечатляют

На рынке бюджетных смартфонов появилось интересное, хотя и весьма компромиссное пополнение. Xiaomi официально представила Redmi Note 17 и Redmi Note 17 Pro, о которых в последние дни ходило множество слухов.

14.07 / 19:36

люди закон общество политика Советская электроника. Встреча основателей двух удивительных Музеев

Сегодня состоялась знаменательная встреча двух замечательных людей. Эти два человека живут в городе Чебоксары. Оба, практически в одно и то же время, основали два музея и ничего до февраля сего года не знали друг о друге.

14.07 / 19:36

общество рубль НДС авиакомпания «Аэрофлот» закупил 200 серверов Yadro для обновления ИТ-инфраструктуры

Компания «Аэрофлот» приобрела у производителя вычислительной техники и электроники Yadro, которая входит в «ИКС Холдинг», 200 серверов Yadro V240 G3. Информация о поставке опубликована на сайте вендора.

14.07 / 19:36

технологии общество самит Специалист по ИБ показал, что копию дверного ключа можно создать за 10 минут по фотографии, опубликованной в соцсетях

Специалист по кибербезопасности и этичный хакер Эван Оттингер показал, что копию дверного ключа можно быстро воссоздать по анализу фотографии, опубликованной в социальных сетях.

14.07 / 19:36

технологии закон Telegram общество политика Дуров: Евросоюз становится банановой республикой, Telegram не будет сканировать ваши личные сообщения

Павел Дуров сравнил Евросоюз с банановыми республиками из-за закона о слежке за публикациями пользователей в интернете и сетевых сервисах.

14.07 / 19:18

люди работа общество самит астрология Идеальные коллеги: какие знаки Зодиака лучше всего работают вместе

Совместимость важна не только в любви, но и работе, говорят астрологи.

Лента новостей

На главную страницу