Привет, это сверхновая!
В прошлом письме мы говорили о том, что интернет можно изучать и структурировать с помощью карт. В этот раз мы решили погрузиться в музейное дело интернета: рассказываем о веб-архивации — сохранении независимых копий веб-страниц для просмотра и работы с ними в случае, если оригинальная страница будет утеряна. О том, как и зачем архивируют интернет-страницы, при чем тут Роскомназдор и почему мы думаем, что архивация веба — навык будущего, читайте дальше.
Спасти все, что можно спасти
Это мы про работу журналистов. Когда Роскомнадзор практикует блокировку сайтов изданий, к материалам хочется относиться более трепетно. У репортеров есть три варианта работы с веб-архивами: можно найти материал в уже существующем архиве, сохранить свой материал в архиве, чтобы быть уверенным, что его не удалят, изменят или заблокируют, и наконец — запечатлеть в архиве важную фактуру, чтобы иметь доказательства ее подлинности.
Например, расследователи из Bellingcat (издание объявлено в России «СМИ-иноагентом») предлагают свою инструкцию по архивации материалов из открытых источников. Автор статьи подробно описывает сервисы и их интерфейсы, а также рассказывает о том, насколько успешно можно сохранить записи и медиафайлы из разных соцсетей и видеохостингов — и как быть, если ничего не получается.
О полезных инструментах в поле веб-архивации рассказывает также Глобальная сеть журналистов-расследователей. Нашли пару примеров из телеграм-канала русскоязычного сообщества. Например, тут архивист и исследователь из Нью-Йорка Тальи Купер рассказывает как систематизировать материалы и ничего не потерять. А здесь рекомендации от Марка Грэхема, руководителя одного из самых крупных сервисов по архивации интернета Wayback Machine, с помощью которого можно не только сохранить страницы, но и отследить изменения версий. Марк делится советами о том, как осуществлять глубокий поиск по архивам, сравнивать версии и использовать интерфейсы API с сервисом.
СОЮЗ говорит
о сохранении интернет-наследия
СОЮЗ — комьюнити-чат сверхновой, в котором мы обсуждаем страшное, красивое и смешное про будущее и технологии. Попасть туда можно, написав Ксюше в телеграм. Иногда мы приглашаем наших комьюнити-мембер_ок написать небольшую колонку для рассылки.
В этот раз для нас написал мембер СОЮЗА Lex Fradski — технический дизайнер, автор канала Lex.Shared. Он рассказывает о том, куда пропадает все, что мы так любим в интернете, и о своем опыте архивации — от «Симпсонов» до сайта проекта The Outline.
Я тот самый человек, у которого стоит ≈10 терабайт в стационарном компьютере, болтается хранилище на 14 терабайт в домашней сетке и в мобильные устройства я тоже беру всегда побольше.
Изначально причины для архивации были простые — буквально 10-20 лет назад быстрый интернет ещё не был так доступен, а флешки были дорогие и медленные. Поэтому ценилась хорошая стопка cd/dvd-болванок, zip-дискеты и прожигалка Lacie, а на видеомагнитофоне всегда подводилось точное время, чтобы таймер обязательно не дал пропустить свежую серию «Икс-файлов» или «Симпсонов». До сих пор иногда обнаруживаю вкладыши с бланковыми наклейками от кассет где-то у себя в коробках.
Но вот 2021 год. Зачем архивировать что либо сейчас? Интернет есть в каждом доме, а сабреддит Старлинка пестрит позитивными скриншотами замера скорости спутниковой сети из домиков в самом дремучем лесу. На самом деле, именно этот фактор и стал новой проблемой. За последние 10 лет интернет разогнался до какой-то абсолютно невероятной скорости — и речь не только о счётчике мегабит где-то в окнах загрузки, но и в целом о скорости производства нового контента и изменения текущего. Культурный слой интернета вырос на несколько терабайт, пока вы читали этот абзац. И он не щадит ничего старого и знакомого. Поисковые и рекомендательные алгоритмы настроены на то, чтобы дать тебе самое новое, персональное и актуальное. А найти что-то, что было всего лишь пять лет назад — становится всё сложнее: где-то постарался алгоритм, где-то запустилась новая соцсеть, а старая просто рассыпалась с уходом пользователей.
Поэтому сейчас я все так же стараюсь сохранять и каталогизировать все, что мне может понадобиться, или просто понравилось. У меня скачана безумно красивая видеореклама одного из отечественных сотовых операторов — я так и не встретил больше ничего похожего в этом сегменте. И я не знаю, как скоро истечет лицензия на музыку, но сам ролик уже существует в интернете только в виде перезалива на канале в тридцать с небольшим подписчиков.
Архивирование — процесс не всегда простой. Многие компании стараются защититься от пиратов или от злонамеренного использования их товарных знаков, старомодные лейблы в панике от того, что кто-то не-дай-бог сделает ремикс на их трек и заработает больше денег. Поэтому приходится обкладываться кучей скриптов, сидеть и ковыряться в коде страниц, читать тематические сабреддиты (в r/datahoarder больше полумиллиона таких же ребят, как я), вникать в мануалы и тексты незакрытых ошибок на гитхабе. В прошлом году закрылось издание the Outline, проект Дж. Топольски, журналиста Bloomberg и The Verge — помимо интересных статей у проекта был по-настоящему классный сайт с уверенной швейцарской версткой, обрамленной в стилистике вебпанка. Проект оказался гораздо дороже, чем суммы которые он приносил, и новые владельцы в итоге закрыли его. Так как издание снято с баланса, скорее всего рано или поздно этот сайт также исчезнет из нашего интернета. И если тексты статей еще очень условно можно сохранить, то главной проблемой оказалось то, что они практически не имеют никакого смысла без оформления и иллюстраций. Я не один день провел, вникая в настройки скриптов и программ, чтобы не только проиндексировать весь сайт, но и подтянуть с него все необходимые таблицы стилей, скрипты, изображения и шрифты, лежащие как внутри сайта, так и подтягивающиеся с внешних ресурсов. В итоге мне удалось сохранить полный образ этого ресурса, хотя до сих пор не представляю, как полноценно запустить его интерактивную копию, не поднимая каждый раз кучу виртуальных серверов и отключая все защиты из-за того, что не все ссылки правильно преобразовались в локальные и браузер сходит с ума от зоопарка несовпадающих или несуществующих сертификатов.
Кто-то забил на оплату хостинга, занявшись новыми интересными проектами, и заботливая корпорация освободила диски под такие же новые проекты. Отправленная картинка в телеграм-чат уже завалена тысячей новых других. И вот тут мы оказываемся в ситуации, когда найти вещь, если она вовремя не завирусилась в интернете, уже почти нереально — сайт сломан, люди ушли с раздачи торрента, региональная цензура взяла свое. Я до сих пор гоняюсь по всем p2p-сетям за одним бекстейджем, от которого у меня есть только хеш-сумма и адрес мертвого трекера.
Практика запоминания
Вдруг вы вдохновились сейчас или уже давно хотите попрактиковаться в архивации сетевых артефактов и не знаете с чего начать? Советуем изучить инструкцию от Ивана Бегтина — эксперта в области открытых данных (OpenData) и открытого государства (OpenGovernment).
Иван предлагает поделить процесс архивационной кампании на 4 стадии: обнаружение (discovery), приоритезация (priority), сбор (crawl), публикация или хранение (publish or storage). К каждому этапу в инструкции есть пояснения, предлагаются сервисы, описаны плюсы-минусы-подводные камни.
На первый взгляд, инструкция переполнена непонятными словами и названиями сервисов, но для старта это скорее хорошо — можно сразу охватить взглядом тематическое поле, узнать про возможности и инструменты.
А что бы вы заархивировали? Что из интернета хотите навсегда «запомнить» таким образом? Расскажите нам!
Мы хотим запомнить интернет бесстрашным. И приглашаем вас увидеть его таким — это напоминание о том, что 9 декабря в 19:00 исследовательница Полина Колозариди без тени страха погуляет с вами по интернету и выставке Data CTRL Centre, организованной Гете-Институтом. Полина покажет несколько экспонатов с выставки и расскажет еще о некоторых сюжетах: например, о пользовательских соглашениях как сказках на ночь и о том, как прочитать отчет Фейсбука о себе.
Можно отметиться в фейсбук-ивенте, чтобы не забыть, а можно сразу приходить в трансляцию на YouTube.
Надеемся, кто-то из вас заархивирует сверхновую.
Вам писала Ксюша.