Об этом же в других СМИ

fokus-vnimaniya.com / 1 год назад

Неявные признаки аутизма, которые могут проявиться в любом возрасте - ФОКУС ВНИМАНИЯ

gagadget.com / 1 год назад

Смартфон Galaxy S24 FE могут представить уже 26 сентября

cursorinfo.co.il / 1 год назад

Три напитка, которые могут улучшить память и снизить риск деменции на 40%

cursorinfo.co.il / 1 год назад

7 продуктов для завтрака, которые могут повышать уровень кортизола

fokus-vnimaniya.com / 1 год назад

Сборщик трав поделился, какие ягоды никогда не добавляет в чай: могут навредить. Забирайте полезную информацию - ФОКУС ВНИМАНИЯ

Больше по теме

02.09.2024 - 14:47 / habr.com

Исследование: LLM не могут справиться с подсчётом букв «r» в слове «strawberry»

Исследователи выяснили, что большие языковые модели, такие как GPT-4o и Claude, не могут правильно подсчитать число букв «r» в слове «strawberry». Они выдают ответ, что эта буква встречается в слове дважды, а не трижды.

Большинство LLM построены на архитектуре трансформатора, который разбивает текст на токены в виде слов, слогов или букв. Как объясняет доцент Университета Альберты Мэтью Гуздиал, «LLM… на самом деле не читает текст. Когда вы вводите подсказку, она переводится в кодировку. Когда модель видит слово “the”, то получает его кодировку, при этом не понимая, что такое “T”, “H”, “E”». Затем числовые представления текста контекстуализируются, чтобы помочь ИИ выдать логический ответ.

Другими словами, ИИ понимает, что есть токены «straw» и «berry», которые вместе составляют «strawberry», но модель не знает, что это слово состоит из букв «s», «t», «r», «a», «w», «b», «e», «r», «r» и «y», и они располагаются именно в таком порядке.

Эту проблему нелегко исправить, поскольку она кроется в устройстве архитектуры моделей.

«Довольно сложно обойти вопрос о том, каким именно должно быть “слово” для языковой модели. Даже если бы мы заставили экспертов-людей договориться об идеальном словаре токенов, модели, вероятно, всё равно сочли бы полезным “разбивать” их», — сказал аспирант Северо-Восточного университета Шеридан Фойхт.

Проблема нарастает по мере того, как LLM изучает больше языков. Например, некоторые методы токенизации могут предполагать, что пробел в предложении всегда будет предшествовать новому слову, но в таких языках, как китайский, японский, тайский, лаосский, корейский, кхмерский и другие, пробелы для разделения слов не используются. Исследователь ИИ Google DeepMind Йенни Джун обнаружила в 2023 году, что некоторым

люди самит google крипто токен maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Valve расширила список ссылок на соцсети, которые разработчики могут включать на страницы Steam, включая LinkedIn habr.com / 1 год назад

Исследование: чат-боты могут разрушить веру в теории заговора habr.com / 1 год назад

В Украине могут разрешить иностранцам занимать офицерские должности gagadget.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

23.07 / 13:35

технологии самит google Nitecore NL1840R: Аккумулятор на 4000 мА·ч, который не требует зарядного устройства

Компания Nitecore, известная своей страстью ко всему, что светит и питается от лития, выпустила очередное обновление в своём арсенале — аккумулятор NL1840R. Это классический формат 18650, но с существенным нюансом: ему больше не нужно отдельное зарядное устройство, чтобы «прийти в себя» после ночного похода или длительного отключения света.

23.07 / 13:34

связь Amazon история общество книги "Гарри Поттер" позади – новый роман бьет рекорды продаж

В основе сюжета лежат реальные детские воспоминания писательницы. В возрасте девяти лет автор пережила страшную автомобильную аварию.

23.07 / 13:34

продукты связь промышленность общество человек Продукты, повышающие риск ранней смерти, назвали врачи

В список вошли продукты, которые многие едят ежедневно, даже не подозревая, к каким последствиям для организма это может привести.

23.07 / 13:19

технологии политика В Windows 11 появилась политика реестра, которая позволяет автоматически подтверждать SSO на устройствах с Entra ID

В июльских обновлениях Patch Tuesday за 2026 год появилась политика реестра, которая позволяет ИТ-администраторам автоматически одобрять запросы единого входа (SSO) на управляемых устройствах с Entra ID. После включения этой настройки учётные данные Microsoft будут автоматически использоваться для авторизации в поддерживаемых приложениях и сервисах, без необходимости ручного подтверждения.

23.07 / 13:19

технологии Apple общество самит школы Сельский школьный округ штата Нью-Йорк станет одним из первых, кто внедрит гуманоидного робота в учебный процесс

В сельском школьном округе Саламанка-Сити на западе Нью-Йорка этой осенью появится необычный педагог. Гуманоидный робот по имени Салли, обладающий силиконовой кожей и мимикой, станет одним из первых в США официальным ИИ-ассистентом в классе. Он не заменит живого учителя, но будет помогать ученикам и педагогам, работая в паре с виртуальным аватаром на ноутбуках.

23.07 / 13:19

общество законодательство Власти Индии оштрафовали HP за сговор при участии в государственных торгах

Компанию HP оштрафовали в Индии на 1,4 млрд рупий (около $14,4 млн) за «картелизацию» компьютеров, чернил, тонера и других расходных материалов. Комиссия по конкуренции Индии (CCI) установила, что HP India вступила в сговор с партнёрами-реселлерами при участии в государственных торгах.

23.07 / 13:17

медицина животные наука общество мозг У сомов нашли редкий вид рака. Он оказался заразным

У диких сомов, обитающих на границе США и Канады, был обнаружен редкий заразный вид рака. Это четвертый зафиксированный случай, когда опухолевые клетки естественным образом распространяются от одного животного к другому. Речь идет о поражении кожи, разновидности меланомы чернильно-черного цвета, способной распространяться на мозг, печень и другие органы.

23.07 / 13:17

наука астрономия космос галактика Млечный Путь Млечный Путь столкнулся с «галактикой-сосиской» миллиарды лет назад

Астрономы обнаружили свидетельства того, что Млечный Путь перевернулся на бок в результате прямого столкновения с заблудившейся галактикой задолго до образования Солнечной системы. Катастрофическое столкновение произошло около 10 миллиардов лет назад, когда наша галактика столкнулась лоб в лоб с галактикой Гайя-Энцелад, которую также называют «галактикой-сосиской» из-за формы оставшихся от нее звезд.

23.07 / 13:10

Samsung технологии Qualcomm самит мода и стиль Samsung представила первые умные очки с ИИ: Gemini, Android XR и до девяти часов автономной работы без смартфона в руках

В отличие от большинства гарнитур дополненной реальности, которые выглядят массивными и больше напоминают специализированное оборудование, Samsung решила сделать устройство максимально похожим на обычные очки. Для этого компания объединилась с известными производителями оправ Gentle Monster и Warby Parker, которые помогли создать дизайн, подходящий для ежедневного использования.

23.07 / 13:07

общество самит автомобили электроэнергия Дом и интерьер Энергонезависимость на колесах: Ford упростил подключение пикапов к дому

Пока некоторые производители электрокаров соревнуются в количестве экранов в салоне и подсветке подстаканников, Ford сосредоточился на вещах, которые действительно пригодятся, когда у вас внезапно исчезает свет. Компания решила проблему «паутины» из удлинителей, которые раньше приходилось тащить через форточки от автомобиля к холодильнику. Теперь пикапы серии F-150 становятся полноценными участниками энергосистемы дома без лишней головной боли.

Лента новостей

На главную страницу