Бум ИИ ударил по архивам интернета – Wayback Machine и Wikimedia страдают от взлетевших цен на жёсткие диски

Бум ИИ ударил по архивам интернета – Wayback Machine и Wikimedia страдают от взлетевших цен на жёсткие диски

Сохранение интернета для будущих поколений оказалось под угрозой из-за стремительного роста цен на накопители, вызванного бумом искусственного интеллекта.

Жёсткие диски большой ёмкости подорожали в три раза, а их производственные мощности практически полностью зарезервированы гиперскейлерами. Параллельно с этим ужесточение мер против веб-скрейпинга бьёт не только по ИИ-компаниям, но и по тем, кто пытается архивировать сеть.

Internet Archive, чья миссия заключается в обеспечении "универсального доступа ко всем знаниям", хранит около 210 петабайт архивов. Каждый день к коллекциям вроде Wayback Machine добавляется ещё 100 терабайт новых данных. Основатель организации Брюстер Кейл рассказал изданию 404 Media, что поддержание архива на фоне ИИ-бума стало "очень реальной проблемой, которая стоит нам времени и денег".

Жёсткие диски ёмкостью 28–30 ТБ, идеально подходящие для архивных задач, попросту отсутствуют в продаже или доступны по сильно завышенным ценам. У Internet Archive есть активные жертвователи и увлечённое сообщество борцов с "битовым гниением", которые помогают находить обходные пути. Организация также пытается закупать накопители напрямую у производителей, но те, вероятно, заняты выполнением уже существующих заказов.

Цена Steam Machine значительно выросла относительно изначальных планов Valve из-за дефицита RAM

Цена Steam Machine значительно выросла относительно изначальных планов Valve из-за дефицита RAM

Фонд Wikimedia, некоммерческая организация, стоящая за Википедией, испытывает аналогичные трудности. Представитель фонда сообщил 404 Media, что организация видит "основное влияние в закупке памяти и жёстких дисков, а также в увеличении сроков поставки серверов и в способности размещать будущие заказы".

Помимо дефицита накопителей, бум ИИ ударил по архивным усилиям ещё одним способом – через скрейпинг. Большие языковые модели обучаются на огромных массивах данных, часто собранных из интернета, иногда даже незаконно.

Многие сайты не хотят становиться учебным материалом для ИИ и устанавливают защитные меры против автоматического сбора информации.

Архивирование интернета начинается с того же первого шага – необходимо извлечь информацию, чтобы её сохранить. Однако владельцы сайтов всё чаще блокируют подобные попытки. Боты, которые просто делают снимки страниц в образовательных целях, теперь воспринимаются так же, как боты, собирающие данные для обучения ИИ.

Энтузиасты, участвующие в сохранении данных, тоже вынуждены дважды думать о том, что архивировать. На сабреддите r/DataHoarders пользователи пишут, что полностью прекратили архивирование в ожидании нормализации цен. Найти накопитель большой ёмкости по рекомендованной розничной цене стало практически невозможно.

Если крупные некоммерческие организации пока справляются, а рядовые энтузиасты уже сдаются, то организации среднего масштаба оказались в подвешенном состоянии.