Автоматизация парсинга и наполнения ресурсов, определенным контентом

Создание, продвижение, наполнение, парсинг Web-сайтов и приложений

Заказать разработку для Вас под Ваше техническое задание или услуги Full Stack Developer для доработки уже готового решения

Требования к технической организации сайта

Требования к технической организации сайта

Примечание:

 

  • Пометкой «(КРИТИЧНО)», отмечены пункты, выполнение которых глобально влияет на качество проекта. Реализация обязательна.
  • Пометкой «(РЕКОМЕНДОВАНО)» — отмечены пункты, рекомендованные к реализации, но не являются обязательными.
  • Пометкой «критично/рекомендовано» также могут быть отмечены отдельные подпункты. В свою очередь, отсутствие пометки для подпункта свидетельствует о присвоении статуса (критично/рекомендовано) аналогичного выше по иерархии пункту.
  • Создание сайта необходимо выполнять на тестовом сайте, который должен быть закрыт от индексации. Выливать все произведенные изменения на «живой» сайт рекомендуется только после подтверждения корректной реализации.
  • ТЗ предполагает реализацию сложных функциональных механизмов. В силу того, что выполнение задач в точном соответствии может упираться в техническую составляющую, могут возникнуть ситуации, при которых потребуется обновление/дополнение ТЗ.

 

 

  1. (КРИТИЧНО) Общие требования

Сайт должен корректно работать в браузерах

  • Google Chrome;
  • Yandex.Browser;
  • Mozilla Firefox;
  • Opera;
  • Microsoft Internet Explorer/Edge (только на Microsoft Windows);
  • Apple Safari (только на Apple OS X).

Сайт должен быть полностью адаптирован для мобильных устройств.

  • Chrome(на Android);
  • Android Browser (только на Android);
  • Windows Mobile: Internet Explorer Mobile;
  • Apple Safari (только на Apple iOS).

 

2. (КРИТИЧНО) Переход сайта на HTTPS протокол

Сайт рекомендуется запускать на HTTPS.

Преимущества для сайтов, доступных на защищенном HTTPS протоколе:

  • Фактор ранжирования в Google
  • Пометка “Надежный” в Google Chrome и поддержка современными браузерами
  • Безопасность при работе с админкой
  • Лучшие поведенческие факторы на мобильных устройствах при использовании публичных Wi-Fi.

Дополнительно к ТЗ приложен файл с рекомендациями по корректной реализации перевода сайта на https протокол, наименование файла «ТЗ по переходу на https для сайта site.com.ua.docx».

 

3. (КРИТИЧНО) Корректная настройка базовых редиректов

У страниц сайта должна быть только одна основная версия, то есть в поисковой выдаче не должно быть копий (зеркал) сайта. Поисковые системы считают каждый URL отдельной страницей, одна и та же страница доступная по разным адресам — воспринимается дублями. Наличие страниц с дублирующим контентом ухудшает ранжирование сайта поисковыми системами.

Примечание: п. 2 и 3 необходимо выполнять параллельно (одновременно).

3.1. Определение главного зеркала: наличие символов www в URL адресе:
https://site.com/page1/
https://www.site.com/page1/

3.2. Должен быть настроен 301 редирект со всех URL, не содержащих в конце своего адреса символ слеш на страницы, содержащие в конце «/».

3.3. Редирект с дублей главной страницы (либо 404 ответ сервера):
https://site.com/index.php
https://site.com/index.html

3.4. Редирект с верхнего регистра символов на нижний.
https://site.com/Page1

3.5. Редирект с URL адресов содержащих несколько символов слэш “/” подряд.
https://site.com///page1

Оптимизация:
Необходимо настроить 301 редиректы со всех страниц копий сайта на соответствующие страницы основной версии.
Пример настройки для выбранного варианта без www символов и с наличием символа слеш / в конце URL адреса.

 

Копия страницы Редирект Конечная страница
http:// site.com.ua/page1/ 301 https://site.com.ua/page1/
https://www.site.com.ua/page1/ 301
https://site.com.ua/page1 301
https://site.com.ua/index.php 301 https://site.com.ua/
https://site.com.ua/index.html 301 https://site.com.ua/
https://site.com.ua/Page1/ 301 https://site.com.ua/page1/
https://site.com///page1 301 https://site.com.ua/page1/

4. (КРИТИЧНО) Формирование URL

Необходимо обеспечить техническую возможность формирования url-адресов страниц категорий, подкатегорий товаров, страниц товаров и сервисных страниц с учетом наличия ключевых слов и добавления уникального идентификатора. При этом идентификатор должен располагаться в конце url-адреса.

4.1.Необходимо предусмотреть формирование URL-адресов страниц согласно следующим общим принципам:

  • при формировании URL использовать транслитерацию;
  • все URL должны формироваться в нижнем регистре символов;
  • URL адрес не должен содержать расширения вида: «.html», «.htm», «.php»;
  • общее правило формирования URL страниц: в конце адреса содержат символ слеш «/»;
  • рекомендуется в качестве разделителя между словами использовать символ тире «–»;
  • в URL не должно быть следующих символов: ! , . | “ ’ } { ] [ _;
  • в URL не должно быть повторяющихся символов тире.

 

4.2. Реализация ЧПУ (человеко-понятных урлов)

ЧПУ – человеко-понятный URL. Основное назначение — это добавление ключевого слова семантического ядра в URL адрес страницы, помогающий продвижению страницы в поисковой выдаче и релевантно определяющий направление страницы (но не ограничивающий семантику страницы).

Реализация

Соблюдая общие принципы формирования URL (пункт 4.1) и исходя из того, что будущая структура сайта предполагает реализацию категорий (Cанфаянс, Ванны, Душевое оборудование, Мебель для ванной комнаты, Смесители и т.д.) и соответствующие им страницы подкатегорий,  необходимо с помощью механизма транслитерации и путем добавления идентификатора и кода объекта в конец адреса обеспечить формирование URL-адресов:

https://site.com.ua/[translit]-<идентификатор><код>/

 

Список идентификаторов:

cat — категория/подкатегория товара

brand — бренд

prod — карточка товара

art — Блог/статья блога

Для страниц категорий:

https://site.com.ua/[название категории]-<идентификатор><код>/ (Cанфаянс, Ванны, Душевое оборудование, Мебель для ванной комнаты, Смесители и т.д.)

Пример – для страницы Санфаянс:

https://site.com.ua/sanfayans-cat1/

 

Для страниц Брендов

https://site.com.ua/[название Бренда]-<идентификатор><код>/

Пример – для страницы Производители → Roca:

https://site.com.ua/roca-brand25/

 

Для страниц подкатегорий:

https://site.com.ua/[название подкатегории]-<идентификатор><код>/

Пример – для страницы Санфаянс → Пьедесталы:

https://site.com.ua/piedestaly-cat15/

 

Для страниц карточек товаров:

https://site.com.ua/[наименование товара в базе данных]<идентификатор><код>/

Пример – для страницы карточки товара Санфаянс → Пьедесталы → Пьедестал Freja (L77000000) Kolo:

https://site.com.ua/piedestal-freja-l77000-kolo-prod13/

 

Для страниц информационного раздела:

https://site.com.ua/[Блог]-<идентификатор><код>/

Пример – для страницы Статьи:

https://site.com.ua/blog-art1/

 

Для страниц статей информационного раздела:

https://site.com.ua/[Блог]/[Название статьи]-<идентификатор><код>/

Пример – для страницы Статьи → Инсталляции Geberit:

https://site.com.ua/statji/installjacii-geberit-art12/

 

5. (КРИТИЧНО) Заполнение метаданных на страницах сайта

Должна быть обеспечена техническая возможность формирования мета-данных на страницах сайта [title, description, заголовки (H1)].

6. (КРИТИЧНО) На страницах сайта не должно быть ссылок на страницы, отдающие 404 и 500 коды ответа сервера.

 

7. (КРИТИЧНО) Оптимизация пагинационных страниц

Для корректной реализации пагинационных страниц, на страницах всех разделов необходимо соблюдать следующие требования:

7.1. Должен быть реализован функционал перехода на следующую страницу раздела (или возврат на предыдущую страницу), к примеру, вида:

КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!!!!!!

7.2. Формирование корректных URL-адресов пагинационных страниц

URL-адреса всех пагинационных страниц необходимо формировать исходя из следующего шаблона — https://santehpro.com.ua/[категория/подкатегория]-идентификатор/page-[№ страницы]/;

 

7.3. Для пагинационных страниц необходимо реализовать постраничную разметку rel=«next|prev»

http://site.ru/post/128746/

1-ая страница пагинации <link rel=»next» href=»[url 2-ой пагинационной страницы]» />

2-ая страница пагинации — <link rel=»prev» href=»[url 1-ой категории/подкатегории] » />

                                              <link rel=»next» href=»[url 3-ей пагинационной страницы]» />

и для последующих пагинационных страниц по аналогии.

последняя страница пагинации –

<link rel=»prev» href=»[url предыдущей пагинационной страницы] » />

 

7.4. Настроить 301 редирект со страниц вида (первая пагинационная страница) https://site.com.ua/categoria-cat№/page-1/ на страницу https://site.com.ua/categoria-cat№/. Только для первых страниц в пагинации.

 

7.5. Все страницы пагинации должны содержать мета тег:

<meta name=»robots» content=»noindex, follow»>

 

7.6. Cо страниц пагинации не должно быть канонической ссылки на страницу категории.

7.7. Реализовать авто добавление номера страницы в содержание title, description пагинационных страниц:

Рекомендуется автодобавление реализовать таким образом, чтобы номер страницы был указан в начале содержания title, description.

 

Пример:

https://site.com.ua/categoria-cat№/

title: Название категории. Site.com.ua

description: Описание категории Site.com.ua

 

https://site.com.ua/categoria-cat№/page-2/

title: Страница 2. Название категории. Site.com.ua

description: Страница 2. Описание категории Site.com.ua

 

7.8. Текст должен быть расположен только на первой странице https://site.com.ua/categoria-uid/ во избежание наличие дублированного контента на страницах.

 

8. (КРИТИЧНО) Формирование навигационной цепочки

Механизм навигационной цепочки должен формироваться в соответствии со структурой сайта (то есть, хлебные крошки должны отражать путь к странице) и с соблюдением нижеприведенных требований:

  1. Первая ссылка в цепочке должна вести на Главную страницу. Анкор первой ссылки содержит название бренда —Site.com.ua;
  2. Последний элемент в цепочке указывает на текущую страницу и не содержит активной ссылки. То есть, последнее звено хлебных крошек должно быть не кликабельным.
  3. На всех страницах сайта в структуре навигационной цепочки не должно быть ссылок на сервисные (промежуточные/агрегирующие не участвующие в продвижении) страницы каталогов товаров.

 

9. (КРИТИЧНО) Требования к оформлению текстового контента

9.1. Требования к заголовкам H1-H6

Тег H1 – должен использоваться только для оформления заголовка на страницах сайта. На одной странице сайта должен быть только один тег H1. Заголовок визуально выделяется отдельными настройками шрифта. Лучше использовать тот же шрифт.

 

Тег H2 – должен использоваться для оформления подзаголовков на странице. Используется менее крупный шрифт, чем в заголовке первого уровня, но крупнее, чем в основном тексте.

Тег H3 (H4-H6) – используется для оформления подразделов статьи. Тег не обязательный в использовании.

 

Не допускается следующее использование тегов H1-H6:

  • Категорически не рекомендуется использование тегов H для оформления ссылок.

КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!!!

  • Использовать один тег H внутри другого. Также нельзя использовать внутри тегов H другие теги для выделения текста strong, em и т.п.

Необходимо все тексты, оформленные с помощью тегов Н1-H3, оформить с помощью стилей CSS.

Страницы, требующие корректного оформления тегов H1-H3 – Главная и все страницы категорий (Санфаянс, Ванны, Душевое оборудование и т.д) и подкатегорий (Акриловые ванны, стальные ванны, чугунные ванны и пр.).

 

9.2. Требования к описанию изображений

Необходимо предусмотреть возможность добавлять/менять alt и title для картинок отдельно и задать правило (к примеру, для страниц товаров – описания изображений должны формироваться исходя из хранившихся в базе данных наименований товаров), по которым они будут заполняться автоматически.

ALT и TITLE обязательно нужно использовать на сайте, так как благодаря этим атрибутам, поисковые системы проводят ранжирование в своих сервисах по поиску картинок.

Примечание: по возможности, рекомендуется реализовать отдельный функционал, который будет оптимизировать изображения — сжатие изображений с целью уменьшения их объема без значительной потери в качестве.

Изображения должны быть оптимизироваными и легкими (сервис оптимизации изображений: http://optimizilla.com/).

Alt — это альтернативный текст, который отображает браузер, если по тем или иным причинам он не может загрузить картинку.

Title — это дополнительная информация о картинке или ссылке. Его основное предназначение помочь посетителю получить более подробное описание элемента. Значение этого атрибута показывается при наведении мышки на объект. Не путайте атрибут TITLE с одноименным тегом заголовка страницы.

 

10. (КРИТИЧНО) Распределение внутреннего ссылочного веса

10.1. Запретить индексацию поисковыми роботами и передачу ссылочного веса по следующим страницам:

  • страницы Корзины, Оплаты;
  • страницы Входа, Регистрации, аккаунта пользователя;
  • ссылки «Купить», «В закладки», «В сравнение»;
  • страницы сравнения, сортировки товаров;
  • поиск по сайту и все производные страницы от него;
  • все другие сервисные страницы.

Необходимо в раздел <head> указанных страниц добавить тег:

<meta name=»robots» content=»noindex, nofollow»>

 

10.2. На всех страницах сайта нижеприведенный перечень элементов/функционалов должен содержать атрибут rel=»nofollow» в теге <a href=»»></a>:

  • ссылки на страницы сторонних ресурсов (сайты платежных систем, сервисов доставки, банков и пр.);
  • функционал “Вход в аккаунт”, “Регистрация пользователя”;
  • ссылка на страницу “Корзина”;
  • ссылки на социальные сети.

При нажатии на эти ссылки посетитель должен попадать на соответствующую страницу, но в коде этих элементов необходимо прописать для поисковых роботов атрибут, запрещающий роботам переход по ссылкам.

Пример решения:

HTML-код элемента:

<a href=”//site.com” rel=”nofollow”>[наименование]</a>

В случае реализации нижеприведенного функционала с наличием живой ссылки вида <a href=»»></a> в код данных элементов также необходимо добавить атрибут rel=»nofollow»:
кнопка «Купить» («В корзину»);
функционал «Сравнение товаров» («Добавить к сравнению»);
функционал «В закладки»;
функционал «Сортировка товаров» («Отсортировать товары по …»);
кнопки блока отзывов, комментариев;
кнопка поиска по сайту.

11. (КРИТИЧНО) Оптимизация товаров, снятых с производства/нет в наличии
Цель:
— оптимизировать перераспределение внутреннего ссылочного веса — страницы таких товаров получают ссылочный вес, но являются бесполезными для поиска (по ним нет поискового трафика, они не продают);
— уменьшить затраты краулингового бюджета поисковой системы для сайта, который имеет ограниченное количество.

Реализация процесса:
Все снятые с производства страницы товаров мы оставляем на сайте с пометкой «Снят с производства».
Все внутренние ссылки на страницы товаров снятых с производства убираем с сайта, url страниц товаров нужно убрать из Sitemap.
Страница такого товара остается доступной только по прямому url, в поиске внутри сайта не отображается.
С URL серии/линейки настроить 301 редирект на категорию товаров вида товар + бренд.
Пример:
https://site.com.ua/catalog/baths/acrilic_baths/filter/brand-is-cersanit/type-is-pryamougolnaya/apply/ —> 301 редирект → https://site.com.ua/catalog/baths/acrilic_baths/filter/brand-is-cersanit/apply/
На странице товара, снятого с производства или которого нет в наличии, реализовать вывод похожих моделей товаров того же бренда или категории товаров. Пример реализации — http://prntscr.com/h28s9g.

12. (КРИТИЧНО) Предусмотреть отсутствие страниц дублей
12.1. Каждая страница на сайте должна быть доступна только по одному уникальному URL-адресу.

12.2. В структуре сайта не должно быть страниц с одинаковым контентом (к примеру, в категории “Мебель для ванной комнаты — Шкафы для ванной комнаты” контент страниц товаров одного производителя может отличаться только цветом), так как:

  • Ухудшается индексация сайта;
  • Распыляется ссылочный вес;
  • Изменяется релевантная страница в поисковой выдаче;
  • Возникает вероятность фильтра от поисковых систем.

 

Реализация — устранение дублированного контента следующим методом:

На странице категории в листинге все товары одной модели, которые являются «многоцветовыми», должны ссылаться на один из товаров той же модели, выбранный в качестве основного, с помощью атрибута rel=”canonical”.

Пример

КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!!!!!!!!!

Страница данного основного товара по своей сути будет являться «бесцветовой» (метаданные будут заполнены без указания цвета товара). Страницу основного товара необходимо указать в качестве канонической — на всех страницах товара других цветов в <head> необходимо разместить:

<link rel=”canonical” href=”[url основного товара]” />.

13. (КРИТИЧНО) Sitemap.xml

Необходимо сформировать файл Sitemap.xml, соблюдая нижеперечисленные требования, отдельно для страниц сайта sitemap.xml  и изображений sitemap-image.xml:

 

13.1. Требования к формированию файлов sitemap.xml

 

 

  1. Файл должен генерироваться и обновляться автоматически, учитывая все изменения в структуре сайта (удаление/добавление страниц, изменение контента, добавление отзыва, изменение цены и др.). Обновление – 1 раз в сутки.
  2. Файл Sitemap может содержать не более 50 000 URL, если количество перечисленных в нем адресов превышают эти пределы, файл необходимо разбить на несколько частей.
  3. Файл Sitemap обязательно должен быть в кодировке UTF-8.
  4. Файл должен быть сжат и сохранен в формате «.gz», размер файла в не сжатом состоянии не должен превышать 10 Мб. Если объем файла превышает этот предел, файл необходимо разбить на несколько частей.
  5. Все существующие стандартные файлы Sitemap, необходимо указать в едином индекс-файле Sitemap, который должен быть доступен по адресу https://site.com.ua/sitemap.xml.

В файле индекса обязательно используются следующие теги XML:

sitemapindex – родительский тег в начале и конце файла;

sitemap – родительский тег для каждого файла Sitemap, указанного в файле (дочерний тег тега sitemapindex);

loc – расположение файла Sitemap (дочерний тег тега sitemap);

lastmod – дата последнего изменения файла Sitemap. Эта дата должна быть в формате W3C Datetime. Значение обновляется в случае любого изменения в текущем файле Sitemap.

 

Пример:

 

<?xml version=«1.0» encoding=«UTF-8»?>

  <sitemapindex xmlns=«http://www.sitemaps.org/schemas/sitemap/0.9»>

  <sitemap>

     <loc> https://site.com.ua/sitemap-1.xml.gz</loc>

     <lastmod>2016-12-15</lastmod>

  </sitemap>

  <sitemap>

     <loc> https://site.com.ua/sitemap-2.xml.gz</loc>

     <lastmod>2016-12-16</lastmod>

</sitemap>

  </sitemapindex>

 

13.2. Требования к содержанию файлов sitemap.xml

 

 

  1. В файлах Sitemap обязательно используются следующие теги XML:

urlset – родительский тег в начале и конце файла.

url – родительский тег для каждого URL адреса, указанного в файле (дочерний тег тега urlset).

loc – расположение страницы, URL адрес (дочерний тег тега url).

lastmod – дата последнего изменения страницы. Эта дата должна быть в формате W3C Datetime. Значение обновляется в случае любого изменения связанного с текущей страницей.

changefreq – вероятная частота изменения текущей страницы.

priority – приоритетность URL относительно других URL на сайте.

 

Пример:

<?xml version=«1.0» encoding=«UTF-8»?>

<urlset xmlns=«http://www.sitemaps.org/schemas/sitemap/0.9»>

 <url>

   <loc> https:/site.com.ua</loc>

   <lastmod>2016-12-16</lastmod>

   <changefreq>daily</changefreq>

   <priority>1.0</priority>

 </url>

</urlset>

 

Значения сhangefreq и priority в соответствии типом страницы:

Главная страница – 1, daily

категории/ подкатегории – 0.7, daily

бренды – 0.7, daily

страницы продуктов – 1, daily

страницы новостей, статей – 0.6, weekly

сервисные страницы – 0.4, weekly

 

2. Во всех файлах XML для любых значений данных (включая URL) необходимо применять маскирование элементов при использовании символов, перечисленных в таблице ниже.

 

Символ Маскирование
Амперсанд & &amp;
Одинарные кавычки &apos;
Двойные кавычки « &quot;
Больше чем > &gt;
Меньше чем < &lt;

 

3. В содержание файлов не должны попадать страницы, запрещенные к индексации в файле robots.txt, либо с помощью тега <meta name=»robots» content=»noindex,nofollow»>.

 

 

  • Для изображений

 

https://support.google.com/webmasters/answer/178636?hl=ru

Требования к содержанию файла sitemap-image.xml

 

В файлах Sitemap используются следующие теги XML:

 

Пространство имен XML:

xmlns=»http://www.google.com/schemas/sitemap-image/1.1″

urlset – родительский тег в начале и конце файла.

url – родительский тег для каждого URL адреса, указанного в файле (дочерний тег тега urlset).

loc – расположение страницы, URL адрес (дочерний тег тега url).

<image:image> — Содержит всю информацию об одном изображении. Каждый URL (тег <loc>) может включать до 1000 тегов <image:image> (обязательный тег);

<image:loc> — URL изображения (обязательный тег);

<image:caption> — Подпись к изображению (необязательный тег);

<image:geo_location> — Место съемки (не обязательный тег);

<image:title> — Название изображения (необязательный тег);

<image:license> — URL лицензии изображения (необязательный тег).

 

Пример:

 

<?xml version=«1.0» encoding=«UTF-8»?>

<urlset xmlns=«http://www.sitemaps.org/schemas/sitemap/0.9»

       xmlns:image=«http://www.google.com/schemas/sitemap-image/1.1»>

 <url>

   <loc> site.com.ua</loc>

   <image:image>

     <image:loc> https://site.com.ua/kartinka.jpg</image:loc>

   </image:image>

   <image:image>

     <image:loc> https://site.com.ua/photo.jpg</image:loc>

   </image:image>

 </url>

</urlset>

14. (РЕКОМЕНДОВАНО) Валидность верстки

При реализации сайта, необходимо осуществлять проверку на наличие ошибок верстки для прохождения валидации validator.w3.org.

Выполнение данного пункта в первую очередь рекомендовано для основных элементов сайта (footer, header) и основных шаблонов сайта: страницы категории, подкатегории, карточки товара, Главной страницы.

 

15. (КРИТИЧНО) Канонические страницы

Для страниц фильтрации каноническими должны быть указаны только сами страницы фильтрации.

 

16. (КРИТИЧНО) Скорость загрузки сайта

Рекомендуется внедрить рекомендации Google PageSpeed Insights  с целью оптимизации скорости работы сайта. Учитывать предложенные на данном сервисе рекомендации для достижения быстрой загрузки сайта (оптимально, если показатели скорости загрузки сайта на разных устройствах – в оранжевой зоне).

Примеры

Быстро работающий сайт: www.work.ua Сайт, у которого проблемы со скоростью загрузки
КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!  КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!!!!!!!

 

  1. (КРИТИЧНО) Favicon

Favicon – картинка специального формата, которая отображается рядом с адресом вашего сайта в поисковой системе и в адресной строке.

Разработанную картинку favicon необходимо загрузить в корень сайта в формате ico.

  1. (КРИТИЧНО) РЕАЛИЗАЦИЯ КОДА ОТВЕТА СТРАНИЦЫ 404

При запросе страницы, которая не существует, сервер должен возвращать ошибку 404, то есть «страница не найдена». Данный код ответа говорит серверам и браузерам, что такая страница не существует.

Необходимо настроить сайт так, чтобы при запросе несуществующих страниц появлялся код ответа 404, то есть страница не найдена.

Пример реализации:

КАРТИНКА КАРТИНКА КАРТИНКА КАРТИНКА!!!!!!!!!!!!!!!!!!

 

%d такие блоггеры, как: