Сохранение интернета для будущих поколений оказалось под угрозой из-за стремительного роста цен на накопители, вызванного бумом искусственного интеллекта.
Жёсткие диски большой ёмкости подорожали в три раза, а их производственные мощности практически полностью зарезервированы гиперскейлерами. Параллельно с этим ужесточение мер против веб-скрейпинга бьёт не только по ИИ-компаниям, но и по тем, кто пытается архивировать сеть.
Internet Archive, чья миссия заключается в обеспечении "универсального доступа ко всем знаниям", хранит около 210 петабайт архивов. Каждый день к коллекциям вроде Wayback Machine добавляется ещё 100 терабайт новых данных. Основатель организации Брюстер Кейл рассказал изданию 404 Media, что поддержание архива на фоне ИИ-бума стало "очень реальной проблемой, которая стоит нам времени и денег".
Жёсткие диски ёмкостью 28–30 ТБ, идеально подходящие для архивных задач, попросту отсутствуют в продаже или доступны по сильно завышенным ценам. У Internet Archive есть активные жертвователи и увлечённое сообщество борцов с "битовым гниением", которые помогают находить обходные пути. Организация также пытается закупать накопители напрямую у производителей, но те, вероятно, заняты выполнением уже существующих заказов.
Цена Steam Machine значительно выросла относительно изначальных планов Valve из-за дефицита RAM
Фонд Wikimedia, некоммерческая организация, стоящая за Википедией, испытывает аналогичные трудности. Представитель фонда сообщил 404 Media, что организация видит "основное влияние в закупке памяти и жёстких дисков, а также в увеличении сроков поставки серверов и в способности размещать будущие заказы".
Помимо дефицита накопителей, бум ИИ ударил по архивным усилиям ещё одним способом – через скрейпинг. Большие языковые модели обучаются на огромных массивах данных, часто собранных из интернета, иногда даже незаконно.
Многие сайты не хотят становиться учебным материалом для ИИ и устанавливают защитные меры против автоматического сбора информации.
Архивирование интернета начинается с того же первого шага – необходимо извлечь информацию, чтобы её сохранить. Однако владельцы сайтов всё чаще блокируют подобные попытки. Боты, которые просто делают снимки страниц в образовательных целях, теперь воспринимаются так же, как боты, собирающие данные для обучения ИИ.
Энтузиасты, участвующие в сохранении данных, тоже вынуждены дважды думать о том, что архивировать. На сабреддите r/DataHoarders пользователи пишут, что полностью прекратили архивирование в ожидании нормализации цен. Найти накопитель большой ёмкости по рекомендованной розничной цене стало практически невозможно.
Если крупные некоммерческие организации пока справляются, а рядовые энтузиасты уже сдаются, то организации среднего масштаба оказались в подвешенном состоянии.