Об этом же в других СМИ

habr.com / 1 год назад

В течение шести лет строительство ведущего центра обработки данных AI может обойтись в $200 млрд

habr.com / 1 год назад

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT

gagadget.com / 1 год назад

Амбиции в Арктике и российская угроза: Дания закупит 25 кораблей на 600 млн долларов

habr.com / 1 год назад

Hammerspace, обработчик неструктурированных данных, используемый Meta*, привлек $100 млн при оценке более $500 млн

habr.com / 1 год назад

Google делает ставку на геотермальную энергию для питания центров обработки данных на Тайване

Больше по теме

16.04.2025 - 04:19 / habr.com

Исследование MIT: нерелевантные входные данные приводят к неудачам LLM

Недавнее исследование MIT изучает, как большие языковые модели (LLM) реагируют на систематические нарушения в дизайне подсказок при решении математических текстовых задач. Результаты показывают, что даже незначительные добавления нерелевантного контекста могут значительно ухудшить производительность.

Исследователи протестировали 13 открытых и закрытых исходных кодов LLM, включая Mixtral, Mistral, Llama и Command-R, используя вопросы из набора данных GSM8K, который фокусируется на арифметических задачах уровня начальной школы. Было введено четыре типа возмущений подсказок:

Нерелевантный контекст, например, записи Википедии или финансовые отчеты, занимающий до 90% окна ввода

Необычные инструкции, например, «Добавь цвет перед каждым прилагательным»

Дополнительный, но необязательный контекст, который был актуален по теме, но не был нужен для решения проблемы

Сочетание соответствующего контекста и вводящих в заблуждение инструкций

Наиболее существенное падение производительности произошло из-за нерелевантного контекста, который сократил количество правильно решенных задач в среднем на 55,89%. Необычные инструкции привели к снижению на 8,52%, в то время как несущественный релевантный контекст вызвал падение на 7,01%. При объединении обоих типов помех производительность упала на 12,91%.

Вопреки ожиданиям многих, размер модели не обеспечивал защиты от этих проблем. Mixtral, самая большая протестированная модель с 39 миллиардами активных параметров, на самом деле показала худшее снижение производительности.

Модели среднего размера, такие как Mistral-7B и Llama-3.2-3B, показали себя несколько лучше, хотя Llama-3.1-8B полностью не отреагировала, когда ей дали нерелевантный контекст. Даже GPT-4o от OpenAI не был застрахован, потеряв до 62,5

Apple самит школы роды интересное dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Apple рассказывает, как планирует улучшить свои модели AI, анализируя данные пользователей в частном порядке habr.com / 1 год назад

Дания отправит военных в Украину, чтобы научиться вести "дроновую" войну gagadget.com / 1 год назад

Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

Лента новостей

На главную страницу