Автоматизация парсинга и наполнения ресурсов, определенным контентом

Создание, продвижение, наполнение, парсинг Web-сайтов и приложений

Заказать разработку для Вас под Ваше техническое задание или услуги Full Stack Developer для доработки уже готового решения

Автоматическое формирование базы данных в таблице Exel на основании обработки интернет-ресурсов

Техническое задание «Автоматическое формирование базы данных в таблице Exel на основании обработки интернет-ресурсов»

  1. Определения:

База данных, Таблица – электронная таблица Exel, содержащая в себе как показатели, заполняемые и актуализируемые на основании интернет-ресурсов, так и показатели, которые требуется заполнить вручную.

Источник информации – данные, содержащиеся в интернет-ресурсах, которые используются для заполнения значений в Базе данных.

Интернет-ресурс – сайты, в которых содержаться данные, являющиеся источником значений для Базы данных. В рамках настоящего технического задания рассматриваются следующие сайты:

  • torgi.ru
  • ru
  • Яндекс

Объект – единица информации, в разрезе которой будет сформирована База данных. В рамках настоящего технического задания в качестве Объекта выступает объект недвижимости, которому соответствует ряд характеристик, заполняемых последовательно в соответствующей строке таблицы.

  1. Цель разработки:

— автоматическое формирование и заполнение Базы данных в Exel посредством программного считывания и преобразования информации с интернет-ресурсов;

— автоматическая актуализация сформированной Базы данных.

  1. Постановка задачи.

При запуске программе (парсера) на определенный момент времени должна формироваться База данных в виде таблицы Eхel. Форма таблицы с описанием порядка заполнения указана в Приложении 1.

  • Пояснения к формированию таблицы Exel:

1) Таблица заполняется в разрезе столбцов, каждое из которых содержит значение по конкретному объекту (площадь, адрес, цена и т.д.), полученное в результате:

— обработки парсером,

— преобразования с использованием функций и формул Exel

— заполнения вручную.

2) В таблице, приведенной в Приложении 1, указано описание порядка заполнения:

— способ заполнения – способ получения информации,

— источник информации – наименование интернет-ресурса, откуда получается информация,

— порядок заполнения – особенности и условия отображения данных,

— пример заполнения – пример отображения значения в сформированной таблице,

— № источника на рис. – приведенные с целью наглядности ссылки на конкретные поля интернет-ресурсов, откуда берутся данные.

3) При заполнении значений из сайтов при помощи парсера должно соблюдаться следующее правило. Первоначальным источником данных для Базы данных является сайт torgi.gov.ru. Но одномоментно полученная с сайта torgi.gov.ru информация должна быть сопоставлена с соответствующей информацией на сайте investmoscow.ru и в случае совпадения значения в Базе данных, заполненные изначально с сайта torgi.gov.ru, должны заменяться или дозаполняться на значения с сайта investmoscow.ru. В качестве сопоставления предлагается использовать содержащуюся на сайте investmoscow.ru ссылку на соответствующий объект на сайте torgi.gov.ru.

Необходимость проведения данного сопоставления связана с тем, что данные на сайте investmoscow.ru более информативные и удобные в использовании, но при этом база объектов на сайте torgi.gov.ru более полная, поэтому данный интернет-ресурс является приоритетным для заполнения Базы данных.

4) При отборе объектов на сайтах для последующей обработки парсером должны быть настроены следующие фильтры:

Сайт torgi.gov.ru. При отборе необходимо перейти в раздел «Аренда, безвозмездное пользование, доверительное управление имуществом, иные договоры, предусматривающие передачу прав владения и пользования в отношении государственного и муниципального имущества» (1), где настраиваются параметры отбора:

Торги – «В процессе подачи заявок» (2)

Тип имущества – «Здание», «Помещение» (3)

Местоположение имущества – «Москва г» (4)

 

Сайт investmoscow.ru. При отборе необходимо перейти в раздел «Торги.Имущество», где необходимо выбрать «Аренда недвижимости» (1):

Парсер обрабатывает информацию из объектов, полученных в виде реестра по итогам настроенного отбора. Порядок заполнения значений в Таблице и ссылки на соответствующие поля на сайте представлены в Приложении 1 и Рис. 1-5.

5) Значения поля «Адрес» и «Этаж» в Таблице должны быть преобразованы при использовании следующих текстовых фильтров и условий.

А) Значение поля «Адрес» в случае, если информация берется из сайта torgi.gov.ru, заполняется исходя из данных поля «Детальное местоположение имущества» при условии:

— Если в значении встречаются словосочетания «г. Москва,», » г. Москва,», «г Москва,», » г Москва,», «г.Москва,», » г.Москва,», «Москва,», » Москва,», «Москва г,», «Москва г.,» то данные словосочетания удаляются.

Б) Значение поля «Адрес» в случае, если информация берется из сайта investmoscow.ru, заполняется исходя из данных поля в разделе «Сведения об объекте» при условии:

— Если в значении встречаются словосочетания «г. Москва,», » г. Москва,», «г Москва,», » г Москва,», «г.Москва,», » г.Москва,», «Москва,», » Москва,», «Москва г,», «Москва г.,» то данные словосочетания удаляются.

—  Если в значении встречаются словосочетания «НАО,», «ТАО,», «СЗАО,», «ЗАО,», «САО,», «СВАО,», «ЦАО,», «ВАО,», «ЗелАО,», «ЮЗАО,», «ЮАО,», «ЮВАО,» то данные словосочетания удаляются.

Встречающиеся в тексте упоминания этажности и характеристики должны удаляться. При этом действуют условия:

— Если в тексте встречается сочетание «(пробел)(Число)(пробел)(Число)(пробел)(Этаж)», то выполняется следующее условие – удаляется текст в строке, начиная со значения «(пробел)(Число)(пробел)(Этаж)» указанного выше сочетания.

Например, текст «Осташковская ул., д. 20 1 этаж, помещение № I», должен преобразовываться в текст «Осташковская ул., д. 20», т.к. будет выполнено условие удаления текста по сочетанию « 20 1 этаж» и часть текста « 1 этаж, помещение № I» удалится.

— Если в тексте встречаются сочетания «(Запятая)(пробел)(Этаж)(пробел)(Число)(Запятая)», «(Запятая)(пробел)(Число)(пробел)(Этаж)(Запятая)»,

то удаляется текст в строке, начиная с указанных выше сочетаний.

Например, текст «Воронина ул., д. 25, 3 этаж, помещения 1-15», должен преобразовываться в текст «Воронина ул., д. 25», т.к. будет выполнено условие удаления текста по сочетанию «, 3 этаж,» и часть текста «, 3 этаж, помещения 1-15» удалится.

В) Заполнение поля «Этаж» в случае, если информация берется из сайта torgi.gov.ru, заполняется из данных поля «Описание и технические характеристики имуществ». В случае, если информация берется из сайта investmoscow.ru, — исходя из данных поля «Этаж». Сочетания, встречаемые в тексте, должны преобразовываться в определенное значение с использованием следующий условий.

Исходное сочетание, являющееся условием для преобразования Пример исходного сочетания Преобразованное сочетание Пример преобразованного сочетания
«(Этаж)(пробел)(Число)(Запятая) Этаж 2, «(Число)» 2
«(Запятая)(пробел)(Число)(пробел)(Этаж) , 2 этаж
«(пробел)(Число)(пробел)(Число)(пробел)(Этаж)»  1 2 этаж
«(Этаж)(пробел)(Число)(пробел)(Число)» Этаж 2 1

 

6) Все заполненные в таблице Exel значения должны быть редактируемыми. При обновлении данных внесенные корректировки, в т.ч. в автоматически заполняемые поля, должны быть неизменными (т.е. если поле со значением отредактировано вручную, то одно не должно обновляться).

7) Заполнение значений «Округ», «Район». «Метро», «Расстояние до метро, км» должны заполняться исходя их значения поля «Адрес» при использовании функций и приложений Яндекс.

  • Обновление данных в полученной таблице Exel должно происходить пользователем отдельным действием в любое время, при этом обновляться должны только те поля, которые не были заполнены или отредактированы вручную. Иными словами, сформированная изначально Таблица с данными остается прежней, но те значения, которые на дату обновления изменились н сайтах и не были отредактированы вручную, в данной таблице должны отобразиться.

При этом должны соблюдаться следующие правила:

— Измененные показатели должны маркироваться красным цветом шрифта.

— Если при заполнении данных с использованием парсера часть значений была изменена или заполнена из данных сайта investmoscow.ru (пп.3 пункта 3.1), обновление происходит уже исходя из сайта investmoscow.ru, а не torgi.gov.ru.

— Если при обновлении появился новый объект, то на его отображение в Таблице действуют правила, указанные в пункте 3.1. При этом вся строка таблицы с данными по этому объекту должна маркироваться красным цветом шрифта.

— Если обновление данных по объекту производится из данных сайта torgi.gov.ru, то фильтр отбора данных в разделе «Торги» должен быть изменен на «Все». Данное правило действует только на те объекты, которые уже ранее были загружены в Таблицу. Добавление новых объектов должно осуществляться с прежними условиями, т.к. с выбором в разделе «Торги» только условия «В процессе подачи заявок».

Цена: 15 000 руб.

Сроки: 7 дней

%d такие блоггеры, как: