Об этом же в других СМИ

habr.com / 7 месяцев назад

Экс‑глава App Store Review: Apple все чаще блокирует аккаунты разработчиков из‑за ошибочных подозрений во фроде

habr.com / 7 месяцев назад

Чат-бот Copilot от Microsoft перестанет быть доступен в WhatsApp после 15 января 2026 года

gagadget.com / 7 месяцев назад

Не ждите новый трейлер The Witcher 4 на The Game Awards 2025 — глава CD Projekt умерил ожидания геймеров

incrypted.com / 7 месяцев назад

Глава BitMine пересмотрел свой прогноз по биткоину на фоне волатильности

incrypted.com / 7 месяцев назад

В США подросток планировал суицид c чат-ботом OpenAI. Компания обвинила погибшего в нарушении правил

Больше по теме

09.11.2025 - 15:10 / habr.com

Глава Common Crawl: чат-ботам следует разрешить «читать книги» бесплатно

Исполнительный директор некоммерческой организации Common Crawl Рич Скрента заявил, что модели искусственного интеллекта должны иметь доступ ко всему в интернете. Он считает, что чат-ботам следует разрешить «читать книги» бесплатно. Ранее несколько новостных изданий обратились к Common Crawl с просьбой удалить их статьи, чтобы предотвратить именно такое использование. Организация сообщила, что выполняет эти требования, но исследования показывают обратное.

Более 10 лет Common Crawl собирает данные с миллиардов сайтов, создавая огромный архив. База данных организации исчисляется петабайтами и находится в свободном доступе для исследований. Однако в последние годы OpenAI, Google, Anthropic, Nvidia, Meta*, Amazon и другие компании в сфере ИИ использовали архив Common Crawl для обучения своих больших языковых моделей. В датасеты попали и платные статьи из этой базы данных.

Вероятно, Common Crawl лжёт изданиям о наличии этих статей и скрывает фактическое содержание своих архивов, пишет Atlantic.

В 2012 году основатель организации Гил Эльбаз заявил о необходимости правильного использования базы данных Common Crawl. Принцип добросовестного использования подразумевает, что с данными со всего мира можно делать определённые вещи, и пока люди уважают авторские права на эти данные, всё будет замечательно, добавил Эльбаз.

Common Crawl уверяет, что собирает в интернете «свободно доступный контент» и не переступает через пейволлы. Однако организация брала статьи с крупных новостных сайтов, за которые обычно приходится платить, что позволяло ИИ-компаниям бесплатно обучать свои БЯМ на журналистских материалах.

В 2020 году OpenAI использовала архив Common Crawl для обучения GPT-3, а спустя два года GPT-3,5 стала основой ChatGPT. Многие другие

люди Amazon Nvidia общество самит google TravisMacrif

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Экс-глава по безопасности Figure AI подал иск из-за игнорирования компанией проблем безопасности с роботами habr.com / 7 месяцев назад

Copilot покидает WhatsApp: Microsoft закрывает доступ к чат-боту gagadget.com / 7 месяцев назад

Исследование: чат-боты с ИИ опасны для людей с расстройствами пищевого поведения habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 13:57

ученые здоровье дети общество самит Единственный орган, который может прожить более ста лет, назвали учены

Ученые обнаружили, что один из органов человека может продолжать выполнять свои функции более века благодаря уникальной способности.

16.07 / 13:57

здоровье напитки Как частое употребление газировки отражается на вашем здоровье

Всем известно, что сладкая газировка вредит здоровью. Но чем чревато ее ежедневное употребление и с какими последствиями для здоровья можно столкнуться.

16.07 / 13:57

здоровье общество мозг анемия болезнь Как организм "сообщает" о проблемах - 5 тревожных симптомов

Расплывчатые или общие симптомы могут являться первыми признаками серьезного заболевания. И их важно вовремя распознать.

16.07 / 13:51

деньги закон общество евро криптовалюта В Европе ликвидировали криптомошенническую сеть с оборотом 100 млн евро в месяц

Правоохранители Нидерландов и Бельгии сообщили о ликвидации международной сети криптоинвестиционного мошенничества, которая действовала как минимум с 2021 года и, по оценкам следствия, в пиковый период присваивала более 100 млн евро ($114,5 млн) ежемесячно. В рамках международной операции задержали шестерых подозреваемых в Польше, Бельгии, Греции и на Кипре. Следствие считает одним из ключевых организаторов 46-летнего гражданина Израиля и Польши, которого идентифицировали как Эхуда (Уди) Тененбаума — известного в хакерском сообществе под псевдоним

16.07 / 13:42

самит Вебинар «От Ingress к Gateway API»

С марта 2026 года ingress-nginx перестал поддерживаться, а на смену Ingress приходит Gateway API — новый стандарт Kubernetes SIG, который меняет саму модель управления трафиком в кластере: вводит разделение ролей, расширяет возможности маршрутизации и делает конфигурацию более выразительной.

16.07 / 13:42

продукты самит предприятия Enterprise UserGate представил цифрового двойника инфраструктуры UserGate InfraTwin

UserGate, ведущий российский разработчик решений в области кибербезопасности и архитектор сетевого доверия, представил рынку новый самостоятельный продукт — платформу виртуального цифрового двойника сегмента сетевой инфраструктуры UserGate InfraTwin (uInfraTwin). Решение имеет модульную архитектуру, что позволяет его использовать самому широкому кругу заказчиков, от средних компаний до предприятий масштаба Enterprise. В настоящее время uInfraTwin проходит пилотную эксплуатацию в ряде крупных российских компаний.

16.07 / 13:42

политика самит google Сбой в работе GitHub и поиска Google в РФ

14 июля 2026 года GitHub перестал работать в России — пользователи жалуются, что сервис недоступен без дополнительных сетевых средств. Не работает Git, сам сайт проекта не открывается, а также невозможно получить доступ к репозиториям. Спустя 2 часа сбой в работе GitHub в РФ прошёл.

16.07 / 13:36

продукты семья капитал Ethereum ETF Ethereum обошел биткоин на фоне неравномерного движения капитала в ETF

За последние семь дней Ethereum вырос на 8,3%, тогда как биткоин прибавил только 3%, по данным TradingView. Это обусловлено, в первую очередь, неравномерными потоками капитала в биржевых фондах (ETF) на базе этих активов. Отметим, на суточном чарте и биткоин, и Ethereum находятся в зоне просадки. В первом случае она составляет 0,9%, во втором — 1,6%. До этого оба актива отметились ростом на фоне положительных данных США по инфляции. Просадка на суточном чарте обусловлена, по большей части, геополитической ситуацией. 16 июл

16.07 / 13:36

самит криптовалюта google Курс bitcoin Трейдерам PlanB: биткоин может достичь $500 000 в текущем цикле, несмотря на риск падения ниже $53 000

Аналитик PlanB заявил, что не считает октябрьский максимум биткоина на уровне $126 000 вершиной текущего рыночного цикла. По его мнению, первая криптовалюта все еще способна показать рост в несколько раз. Эксперт отметил, что биткоин теоретически может опуститься ниже реализованной цены, которая сейчас составляет около $53 000, как это происходило во время предыдущих медвежьих рынков. Впрочем, он убежден, что максимум в $126 000 не завершил текущий цикл. По его оценке, модель Stock-to-Flow допускает рост актива до $500 000 с возможным диапазоном от $250 000 до $1 млн. Почему аналитик ожидает вершину в 2026-2028 годах? Один и

16.07 / 13:15

здоровье дети общество google Дом и интерьер Исследование: функции искусственного интеллекта Google могут представлять «неприемлемый риск» для детей

Речь идет не об утечке или слухах, а о результатах независимого исследования, опубликованного Common Sense Media. Организация изучила работу AI Mode и AI Overview — двух функций искусственного интеллекта, которые Google активно внедряет в свой поисковик. Авторы отчета утверждают, что эти инструменты способны не только мешать учебному процессу, но и некорректно реагировать на запросы, связанные с психическим здоровьем несовершеннолетних.

Лента новостей

На главную страницу