Что такое веб-архив и как им пользоваться?

Что такое веб-архив и как им пользоваться?

Веб-архив — проект, целью которого является сохранение истории всего интернета. Его ещё называют машиной времени, так как любой желающий может посмотреть, как выглядели сайты 20 лет назад, и как они меняли свой дизайн.

Как работает веб-архив

Веб-архив использует поискового робота, который посещает сайты, копирует материалы на сервер организации и систематизирует их по дате. Тот факт, что веб-архив сохраняет html-код всех элементов интерфейса страницы позволяет воссоздать сайт в первичном виде на момент, когда робот был на этой странице.

У самых посещаемых сайтов в мире может архивироваться более 200 тысяч версий за весь период существования сайта. Например:

веб-архив wikipedia

История Web Archive

Целью проекта было решение проблемы исчезновения контента на сайтах каждый раз, когда их меняют или закрывают. Создатели планировали дать «общий доступ ко всем знаниям» (в виде цифровых данных).

Веб-архив запущено в 1996 году. За более чем 25 лет его существования было сохранено более:

  • 525 миллиардов интернет-страниц;
  • 28 млн книг;
  • 14 млн аудиозаписей;
  • 6 млн видео.

Каждый день на сайт заходят миллионы людей, и является одним из 150 самых популярных сайтов в мире.

Практическое использование веб-архива

Поиск старой информации.
Если вы не можете найти интересующую информацию в поиске, то, возможно, у запрашиваемого сайта истёк срок действия хостинга, домена или сервер недоступен. На помощь придёт архив, где эта информация присутствует.

Для восстановления своего сайта.
Если сайт про какой-то причине перестал работать, вы можете попытаться разархивировать его.

Поиск уникального контента.
Удалённый контент может стать источником текстов со 100% уникальностью. Вы можете использовать его на своём сайте, чтобы сэкономить на услугах копирайтера.

Инструмент для анализа сайта.

  • Если на сайте произошёл спад трафика, вы можете посмотреть сохраненные версии сайта до и после его падения. Так вы сможете разобраться в причине и устранить её.
  • Провести анализ файла robots.txt (версии которого тоже хранятся в архиве). Неправильно структурированный файл robots.txt может отрицательно повлиять на ваши позиции в поисковой выдаче.

Проанализировать домен перед покупкой.
Вы можете просмотреть прежнее наполнение и тематику домена, а также проследить, не менялась ли она с течением времени. Это может уберечь от покупки домена с плохой репутацией.

Ценный ресурс для современников.
Веб-дизайнеры, разработчики, маркетологи и другие исследователи цифрового мира могут узнать, как совершенствовалась всемирная паутина. Как менялся дизайн, кнопки, наполнение крупных и трастовых сайтов.

Как посмотреть архив нужного сайта

Перейдите на сайт web.archive.org и введите интересующий домен в поиск.
Также создатели платформы предлагают использовать поиск по релевантным ключевым словам, если вы не знаете точное доменное имя.

поиск в веб-архиве

Появилась информация о домене: сколько раз он был сохранён и когда впервые информация о нём появилась в веб-архиве.

данные в веб-архиве

Посмотреть

После откроется временная шкала по годам и календарь с сохранёнными версиями сайта за каждый день и месяц существования сайта.

время в веб-архиве

Посмотреть

В этом календаре мы видим заметки разного цвета по датам сохранения:

  • синий — положительный ответ сервера (2xx);
  • зелёный — редирект (3xx);
  • оранжевый — ошибка клиента (4xx);
  • красный — ошибка сервера (5xx).

Кликаем на один из кружков, чтобы увидеть версию сайта в определённый день. Если в этот день сайт был сохранён несколько раз, появляется всплывающее окно со списком всех снимков этого дня с точным временем. Кликните на любое время.

вспылывающее окно в архиве

Перед нами восстановленная версия сайта по состоянию на январь 2015 года. В URL-адресе страницы — числа, называемые отметкой времени, т.е. год, месяц, день, час, минута, секунда, когда этот URL-адрес был сохранен.

отметка времени в архиве

Посмотреть

Все ссылки на этой странице рабочие. По ним можно перейти и посмотреть страницы, на которые они ведут. Однако некоторые элементы и изображения могут быть утеряны.

Инструмент «Коллекции»

Этот инструмент укажет на причину архивации конкретного URL-адреса. Коллекции — разнообразные группы сканирования, которые имеют разные цели или направленные на группы доменов, такие как ТOP-домены, страницы с неработающими ссылками или региональные сайты. 

Достаточно только щёлкнуть по коллекции, и вам отобразится дополнительная информация о ней.

инструмент коллекции

Посмотреть

Инструмент «Изменения»

Этот инструмент даёт возможность сравнить две версии сайта друг с другом. Достаточно кликнуть на раздел Changes и веб-архив сможет загрузить все снимки, разделённые по годам.

Вы должны выбрать два снимка сайта из списка (например, сопоставить версии сайта за 5 лет) и нажать кнопку сравнения, чтобы начать процесс.

инструмент изменения

Две страницы отобразятся рядом в новой вкладке. Цвета акцентируют, насколько два снимка будут отличаться друг от друга.

инструмент изменения

Посмотреть

Инструмент «Сводка»

Этот инструмент позволяет ознакомиться со статистикой. Все графики и таблицы можно посмотреть, выбрав нужный интервал времени. Самая полезная информация на этой странице — это столбец New URLs. Этот столбец говорит, какое количество уникальных файлов содержится в архиве.

инструмент сводка

Посмотреть

Инструмент «Карта сайта»

Вы увидите визуальную карту сайта в виде диаграммы для каждого года. Центральный круг является «корнем» сайта, а следующие друг за другом кольца, выходящие из центра, представляют страницы сайта.

Вы можете щелкнуть любую из отдельных страниц, чтобы перейти непосредственно к архиву этого URL-адреса.

инструмент карта сайта

Посмотреть

Как использовать веб-архив для поиска уникального контента

Как только текст статей на «мёртвых» сайтах перестаёт индексироваться, он становиться уникальным для поисковых систем. При этом, в веб-архиве могут храниться тысячи полезных и информативных статей.

Чтобы найти этот контент, вам нужно собрать список доменов, которые подходят по вашей тематике и недавно освободились. Для этого воспользуйтесь услугами регистратора доменных имён. Например, reg.ru предоставляет возможность выбрать тематические домены. 

Попробуем найти подходящий контент для сайта дизайнера интерьеров

  • Анализируем первый домен из подкатегории «Дизайн». Удача! Он оказался в веб-архиве.
  • В календаре открываем первую версию сайта за 2008 год.

сайт в веб-архиве

Посмотреть

  • Далее проверяем текст на плагиат. Результат: 92% уникальности (так как автор использовал цитату Толстого). 
  • Текст нужно отформатировать: добавить заголовки и разбить его на абзацы. Также стоит добавить подходящие по смыслу изображения.
  • Теперь текст готов «ожить» на нашем сайте.

Почему некоторых сайтов нет в веб-архиве

  1. Поисковые не могли получить доступ к сайту, так как он защищён паролем.
  2. Собственники сайтов запрашивают исключение их сайтов из архива, написав в службу поддержки.
  3. Блокировка сайта для поискового робота веб-архива в robots.txt. Для этого в файле нужно прописать:

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver-web.archive.org

Disallow: /

Как добавить сайт в веб-архив

  1. Чтобы поисковой робот мог просканировать ваш сайт, файл robots.txt не должен содержать запрет на индексацию.
  2. Чтобы робот нашёл сайт, попробуйте разместить ссылки с сайтов, которые уже находятся в архиве и являются посещаемыми. Так вы увеличите шанс попасть в веб-архив.
  3. Огромное преимущество заключается в том, что домашняя страница веб-архива содержит функцию «Сохранить страницу сейчас», позволяющую создавать собственные архивы страниц в любое время.

 Выводы

Веб-архив содержит миллионы страниц, которые могут быть интересны по многим причинам: от средства для анализа сайта до источника уникального контента. Если вы никогда не занимались путешествиями во времени, самое время начать!

5 2 голоса
Рейтинг статьи
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии