hosting:sitemap

2.44. Карта сайта sitemap.xml

Карта сайта sitemap.xml — это очень полезный файл, позволяющий в стандартизированной форме показывать поисковикам список страниц, которые подлежат индексации. В самом файле должен быть выдержан определённый синтаксис, а также описаны все нужные и важные страницы сайта.

Описание протокола также доступно на официальном сайте.

Содержание

Важные моменты:

  • Файл sitemap.xml должен иметь именно такое название и его кодировка должна быть UTF-8.
  • Один файл sitemap.xml не должен иметь размер более 50 МБ. Если файл более 50 МБ, то следует или воспользоваться архивацией файла (с обязательным соблюдением расширения вида xml.zip или xml.tar), или создать группу из нескольких карт сайта.
  • В одном файле sitemap.xml не должно быть более 50 000 ссылок.
  • Файл sitemap.xml должен находиться в корневом каталоге сайта. То есть он должен быть доступен через браузер по адресу вида http://www.example.com/sitemap.xml.
  • Все ссылки, указываемые в карте сайта, должны быть абсолютными, то есть иметь примерно следующий вид: http://www.example.com/.
  • Карта сайта должна соответствовать требованиям нужного поискового робота, так как некоторые из них имеют определённые условия для использования этого файла.
  • Карта сайта, используемая поисковыми роботами, является лишь рекомендацией. Роботы могут её игнорировать в случае ошибок в самой карте или по другим собственным причинам.
  • Некоторые спецсимволы должны быть обязательно маскированы.

При составлении карты сайта нужно придерживаться определённого синтаксиса. Минимальная карта сайта с корректно составленным синтаксисом выглядит примерно так:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://example.com/</loc>
   </url>
</urlset>

В файле sitemap.xml применяются следующие теги:

  • <?xml version="1.0" encoding="UTF-8"?> — пролог XML-файла. В этой строке указывается кодировка и версия XML. Эта строка всегда должна быть первой и она обязательна. Обязательный тег
  • <urlset>...</urlset> — родительский тег, внутри которого помещаются все последующие указания на страницы сайта при помощи тегов <url>. Обязательный тег
    В открывающем теге должен быть указан текущий протокол, то есть так:
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">...</urlset>
  • <url>...</url> — тег, внутри которого содержится сам URL-адрес и информация о нём. Обязательный тег
  • <loc></loc> — тег, в котором указывается определённый URL. Обязательный тег
  • <lastmod></lastmod> — даты последнего изменения. Необязательный тег
  • <changefreq></changefreq> — вероятная частота изменения этой страницы. Этот тег носит лишь рекомендательный характер. Необязательный тег
    Допустимые значения:
    • always — проверять изменения при каждой индексации.
    • hourly / daily / weekly / monthly / yearly — проверять изменения с определённым интервалом. Каждый: час/день/неделю/месяц/год.
    • never — никогда не проверять изменения.
  • <priority></priority> — приоритетность URL относительно других URL, указанных в карте сайта. Значение задаётся от 0.0 до 1.0, по умолчанию для всех URL равно 0.5. Необязательный тег

В XML-файлах для всех данных (включая URL-адреса) должно использоваться маскирование символов, перечисленных ниже в таблице.

Символ Маскирование
Амперсанд & &amp;
Одинарные кавычки ' &apos;
Двойные кавычки " &quot;
Больше > &gt;
Меньше < &lt;

Если файл sitemap.xml имеет размер более 50 МБ или включает в себя более 50 000 ссылок, то следует его разделить на несколько файлов, при этом создав sitemap.xml файл, ведущий на другие файлы карт сайта.

Пример файла индекса sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml</loc>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml</loc>
   </sitemap>
</sitemapindex>

Файл индекса sitemap имеет следующий синтаксис:

  • <?xml version="1.0" encoding="UTF-8"?> — пролог XML-файла. В этой строке указывается кодировка и версия XML. Эта строка всегда должна быть первой и она обязательна. Обязательный тег
  • <sitemapindex>...</sitemapindex> — родительский тег, внутри которого помещаются все последующие указания на файлы карт сайта. Обязательный тег
  • <sitemap>...</sitemap> — тег, внутри которого содержится URL-адрес, указывающий на файл sitemap и информация о нём. Обязательный тег
  • <loc></loc> — тег, в котором указывается определённый URL на файл sitemap. Обязательный тег
  • <lastmod></lastmod> — дата последнего изменения. Необязательный тег

Примеры сервисов, используемых для генерации и проверки файлов sitemap.

  • hosting/sitemap.txt
  • Последнее изменение: 2020/05/21 12:12
  • karlov