Создать PDF Рекомендовать Распечатать

Анализ бизнес- процесса сбора информации о рабочей среде электронной торговой площадки в интересах имитационного моделирования

Теория управления | (58) УЭкС, 10/2013 Прочитано: 17309 раз
(0 Голосов:)
  • Автор (авторы):
    Димов Эдуард Михайлович, Агрова Ксения Николаевна, Пупышев Алексей Алексеевич,
  • Дата публикации:
    05.10.13
  • ВУЗ ИЛИ ОРГАНИЗАЦИЯ:
    Поволжский Государственный Университет Телекоммуникаций и Информатики (ПГУТИ)
    Санкт-Петербургского Государственного Университета (СПбГУ).

АНАЛИЗ БИЗНЕС-ПРОЦЕССА СБОРА ИНФОРМАЦИИ О РАБОЧЕЙ СРЕДЕ ЭЛЕКТРОННОЙ ТОРГОВОЙ ПЛОЩАДКИ В ИНТЕРЕСАХ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ

ANALYSIS OF BUSINESS PROCESSES COLLECTION OF INFORMATION ON THE WORKING ENVIRONMENT OF E-MARKETPLACE FOR SIMULATION

Димов Эдуард Михайлович

д.т.н., профессор кафедры «Экономические информационные системы» (ЭИС)

Поволжский Государственный Университет  Телекоммуникаций и Информатики (ПГУТИ)

E-mail:dimov@psati.ru 

Агрова Ксения Николаевна

аспирант кафедры экономических информационных систем (ЭИС)

Поволжский Государственный Университет Телекоммуникаций и Информатики (ПГУТИ)

E-mail:kseniya.agrova@gmail.com  

Пупышев Алексей Алексеевич,

ассистент Кафедры «Высшей Нервной Деятельности и психофизиологии» (ВНД)

Санкт-Петербургского Государственного Университета (СПбГУ).

E-mail: alex2-92@mail.ru 

АННОТАЦИЯ

В статье рассматривается проблема сбора и структуризации оперативной информации для анализа рыночного окружения предприятия на электронной торговой площадке (ЭТП) для последующей обработки и анализа данных. А также представлен подход автора к решению данной проблемы.

ABSTRACT 

This article discusses the problem of collecting and structuring of operational information for the analysis of the market environment for enterprise in e-marketplace for further processing and analysis. And also the author presents an approach to solving this problem.

Ключевые слова

Процесс сбора информации о рабочей среде электронной торговой площадки, особенности ЭТП как информационной базы, методики получения данных, парсинг посредством построения DOM (объектной модели документа) и регулярных выражений.  

Keywords

The process of gathering information about the working environment of electronic trading platform, especially e-marketplace as information base, methods of obtaining data parsing by constructing a DOM (Document Object Model), and regular expressions.

Введение 

В процессе входа предприятия на электронный рынок, впрочем, как и на традиционный, перед лицом, принимающим решения, (ЛПР) возникает необходимость оценки рыночного окружения (внешней среды)  в интересующем его сегменте рынка. В первую очередь эта информация необходима для определения собственного потенциала компании, а также призвана ответить на вопрос об общей целесообразности участия фирмы, как игрока рынка, на той или иной ЭТП.

Необходимыми критериями для данной оценки служат: объем интересующего сегмента рынка (количество вовлеченных участников), количество конкурентов, количество потенциальных потребителей, географическое расположение участников рынка, существующие взаимосвязи между ними и т.д. Полученные данные могут использоваться для имитационного моделирования бизнес-процесса продвижения продукции посредством ЭТП, что впоследствии позволит создать систему прогнозирования, применимую на различных электронных рынках. Ценность применения подобных инструментов заключается в своевременном предоставлении исчерпывающей и понятной информации для ЛПР.

Сравним особенности сбора информации о рыночном окружении традиционного и электронного рынка (табл.1).

Таблица 1 - Сравнительный анализ сбора информации о рыночном окружении на электронном и традиционном рынках
agr1

На первый взгляд общая доступность и прозрачность информации, представленной в рамках электронного рынка (ЭР – в данном контексте, тоже, что и ЭТП), дает значительное преимущество и дополнительные возможности для анализа рыночного окружения по сравнению с аналогичным традиционным рынком. Однако, учитывая высокую динамику ЭР, сбор и компиляцию собранной информации невозможно реализовать с необходимой точностью при использовании одних лишь человеческих ресурсов. В связи с этим необходимо выделить проблему, которая стоит перед ЛПР – как усовершенствовать процесс сбора информации о рабочей среде электронных торговых площадок. Для ответа на поставленный вопрос рассмотрим ЭТП и ее особенности как информативной базы.

Решение

Рассмотрим процедуру получения данных для последующей обработки и анализа. ЭТП содержит в открытом доступе следующую информацию:

  1. Общая:

- список участников ЭТП; 

- классификатор ОКДП (общероссийский классификатор видов экономической деятельности, продукции и услуг) продукции и услуг участников ЭТП; 

- территориальное расположение участников ЭТП.

  1. Для каждой организации ЭТП:

- список партнеров-поставщиков для участника ЭТП; 

- список партнеров-потребителей для участника ЭТП; 

- список предлагаемой продукции участника ЭТП; 

- список потребляемой продукции участником ЭТП; 

- основная номенклатура участника ЭТП:

  • номенклатура предлагаемой продукции;
  • номенклатура потребляемой продукции.

Будем производить сбор информации, отраженной в пунктах 1-2. ЭТП представляет в открытой форме территориальное расположение участников рынка.

Сайт ЭТП (b2b-center.ru) предоставляет два списка организаций-участников (ОУ) ЭТП см. рис.1:

  1. Список ОУ по странам.
  2. Список ОУ по регионам России.
agr2
Рис. 1 - Список организаций-участников электронной торговой площадки.

Классификатор ОКДП представлен на данной ЭТП в виде иерархической древовидной структуры см. рис.2. Вершины данного дерева - категория продукции ОКДП, у каждого узла (вершины) имеется 1 из 2 типов потомков: следующая подкатегория либо “лист” - список наименований продукции или услуг ОКДП, с соответствующей информацией о поставщиках и потребителях.

agr3

Рис. 2 - Классификация поставщиков и потребителей в рамках ЭТП.

Опишем методики получения данных с ЭТП. Для получения информации с сайта существует три различных подхода:

  1. Интерфейс непосредственного доступа к базам данных сайта.
  2. Парсинг сайта посредством построения DOM (объектной модели документа). Парсинг - это синтаксический анализ сайтов, который автоматически производится парсером – специальной программой или скриптом. Характер парсинга определяется заданием получить определенную информацию со страниц сайта, параметры анализа задаются заранее. Собранная информация предоставляется в определенном виде и проводится на одном из языков программирования.
  3. Парсинг сайта посредством регулярных выражений.

Так как первый метод связан с определенными процедурными сложностями (административными и технологическими), и необходимая информация представлена в простой текстовой форме – будем использовать подход к получению данных с сайта преимущественно посредством регулярных выражений и технологией x-Path (подход №2).

Сайт ЭТП представляет собой структурированное множество веб-страниц. Каждая веб-страница представляет собой код на языке разметки HTML с элементами дополнительных технологий (JavaScript, PHP, CSS и т.д.). Задача получения информации в данном случае сводится к поиску и извлечению текстовых паттернов, т.е. последовательности символов, удовлетворяющих определенным правилам заданной грамматики.

Для данной задачи успешно применяется технология регулярных выражений (РВ) - формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (символов- джокеров, которые используются для замены других символов или их последовательностей, приводя, таким образом, к символьным шаблонам. Развитием символов-джокеров являются регулярные выражения). Для извлечения определенного паттерна (типа подстроки) необходимо составить для него соответствующую последовательность метасимволов - регулярное выражение. Процедура составления регулярного выражения является задачей, весьма трудоемкой даже для специалиста, с большой вероятностью ошибки. С целью облегчения данной процедуры было создано множество онлайн-сервисов. Для данной работы был использован сервис: http://regexpal.com/ . Исходные коды HTML сайта ЭТП представлены на рис.3.

Рассмотрим детально процедуры составления регулярных выражений. После получения, посредством веб-браузера, кода веб-страницы и нахождения участка с интересующим текстовым паттерном, выделяем этот текстовый блок и вставляем его в специальное окно сервиса. Далее с помощью справочника по синтаксису регулярных выражений и информации из выбранного текстового блока создаем РВ. Критерием успешности РВ является отсутствие возможности случайного извлечения лишней информации при ошибочном распознавании паттерна РВ.

В большинстве случаев для извлечения текстовой информации с веб-страницы удобнее производить поиск и сохранение сначала некоторого большого фрагмента текста, который впоследствии обрабатывался другими регулярными выражениями, производящими извлечение различных его подстрок.

При извлечении данных классификатора ОКДП было использовано динамическое регулярное выражение, один элемент-символ которого необходимо было изменять в зависимости от того, веб-страница какого уровня ОКДП анализировалась в текущий момент. При правильном выборе этого символа получаем набор текстовых блоков, содержащих информацию о кодовых значениях категорий ОКДП, названии и адреса соответствующих веб-страниц.

agr4

Рис. 3 - Использование сервиса “regexpal.com”  для подбора регулярных выражений в задаче извлечения данных из HTML-кода сайта ЭТП.

Каждый такой блок впоследствии обрабатывался РВ для извлечения описанной выше информации.

Помимо использования технологии регулярных выражений очень полезным оказался принцип определения паттерна и целевых данных посредством x-Path запроса. Это технология, основанная на объектной модели документа (DOM) которая позволяет получить доступ к  значениям определенных атрибутов языка разметки (HTML, XML) в более удобной форме, чем посредством РВ. Процедура формирования DOM-дерева и разворачивание структуры HTML по умолчанию производится браузером. С помощью программных библиотек, позволяющих эмулировать работу браузера, в рассматриваемом контексте мы можем организовать более оптимальную с точки зрения производительности и надежности процедуру извлечения данных с веб-страницы.

Важным пунктом, требующим отдельного обсуждения, является ограничение прав доступа на сайт ЭТП. В общей форме сайт доступен для просмотра лицами, не являющимися участниками ЭТП. Однако в контексте анализа деятельности интересующих предприятий, незарегистрированное лицо ограничено в просмотре полных списков атрибутов и характеристик участников ЭТП. Для доступа к этим данным необходима регистрация.

Авторы данной статьи являются зарегистрированными участниками ЭТП и имеют доступ к анализу всей информации посредством веб-браузера. Однако для автоматической процедуры данный феномен вносит серьезные осложнения.

Данную проблему можно обойти путем эмуляции зарегистрированного клиента. Данная задача решается путем формирования cookie-файла (cookie - это файл, в котором содержится символьная строка, сохраняемая на компьютере при посещении веб-сайта), который обрабатывается сервером при каждом запросе и позволяет установить серверу важную информацию о клиенте (например: логин и пароль), и далее указанием скриптом данных этого файла непосредственно в запросе к серверу. Данный запрос называется POST – запросом.

Извлеченная информация сохранялась в текстовый файл, формата CSV, в виде линейного списка со специальными символами-разделителями, для дальнейшей обработки (Рис.4).

agr5

Рис. 4 - Файл CSV

Кроме задачи непосредственного извлечения данных с веб-страниц, необходимо организовать процедуру последовательного доступа к определенным из них, посредством универсального локатора ресурсов (URL). Примером является задача определения веб-адреса каждого участника ЭТП (на сайте ЭТП). Решением данной задачи является первоначальное составление списка анализируемых участников в формате таблицы с данными об url компании, ее названии, географическом положении. После чего, с помощью циклических конструкций, производится перебор адресов из списка и для каждого url анализируется соответствующий набор веб-страниц. Аналогично решаются все похожие задачи в контексте данного исследования.

Процедура получения данных с b2b-center выполнялась с использованием скриптового языка Python версии 2.7, с использованием библиотек: ”Grab”, “codecs”, “urllib”, “re”, в интегрированной среде разработки «ERIC4». Исходный код проекта доступен по адресу [10].

Заключение

Предложенный в данной статье путь совершенствования процесса сбора информации о рабочей среде электронной торговой площадки решает проблему трудоемкого «ручного» поиска и ранжирования информации, позволяет обновлять необходимые данные гораздо более оперативно. А также представляет объективную на данный момент информацию в удобном структурированном виде.

Библиографический список

  1. Альфред В. Ахо, Моника С. Лам, Рави Сети, Джеффри Д. Ульман Компиляторы. Принципы, технологии и инструментарий. - 2-е изд. - М.: Вильямс, 2008. - 1184  с.
  2. Джеффри Фридл Регулярные выражения. - М.: Символ-Плюс, 2008. - 608 с.
  3. Билл Смит Методы и алгоритмы вычислений на строках. Теоретические основы регулярных вычислений. - М.: Вильямс, 2006. - 496 с.
  4. Акимов С.В. Технологии Internet / Intranet в почтовой связи: учебное пособие / СПбГУТ. СПб, 2005-122 с.  
  5. Ташков П А Веб-мастеринг на 100%: HTML, CSS, JavaScript, PHP, CMS, графика, раскрутка. - 1-е изд. - СПб.: ПИТЕР, 2010. - 512 с.
  6. Бен Хеник HTML и CSS. Путь к совершенству. - СПб.: ПИТЕР, 2011. - 336 с.
  7. М. М. Камилов, А. Р. Ахатов Система контроля достоверности текстовой информации на основе n-граммных парсинговых моделей // Проблемы информатики. - 2009. - №1. - С. 44-53.
  8. А.С . Гусаренко , В.В. Миронов  ДИНАМИЧЕСКИЕ DOM-ОБЪЕКТЫ В СИТУАЦИОННО-ОРИЕНТИРОВАННЫХ БАЗАХ ДАННЫХ:  ЛИНГВИСТИЧЕСКОЕ И АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИСТОЧНИКОВ ДАННЫХ  // Вестник УГАТУ. - 2012. - №6. - С. 167-176.
  9. Git Справочник // The Git Community Book URL: http://uleming.github.io/gitbook/7_git_%D0%A1%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D1%87%D0%BD%D0%B8%D0%BA.html (дата обращения: 13.04.2013).
  10.  Проект сбора данных с ЭТП // GitHub URL: https://github.com/AlekseiPupyshev/R_DFSweb/blob/master/b2bGrabberbyList.py (дата обращения: 12.06.2013).

 



  vakperechen

ОБНОВЛЕННЫЙ СПИСОК ВАК 2016 г.
ОТ 19.04.2016  >> ПРОСМОТРЕТЬ
tass
 
ПО ВОПРОСАМ ПУБЛИКАЦИИ СТАТЕЙ И СОТРУДНИЧЕСТВА ОБРАЩАЙТЕСЬ:
skype SKYPE: vak-uecs
e-mail
MAIL: info@uecs.ru
phone
+7 (928) 340 99 00
 

АРХИВ НОМЕРОВ

(01) УЭкС, 1/2005
(02) УЭкС, 2/2005
(03) УЭкС, 3/2005
(04) УЭкС, 4/2005
(05) УЭкС, 1/2006
(06) УЭкС, 2/2006
(07) УЭкС, 3/2006
(08) УЭкС, 4/2006
(09) УЭкС, 1/2007
(10) УЭкС, 2/2007
(11) УЭкС, 3/2007
(12) УЭкС, 4/2007
(13) УЭкС, 1/2008
(14) УЭкС, 2/2008
(15) УЭкС, 3/2008
(16) УЭкС, 4/2008
(17) УЭкС, 1/2009
(18) УЭкС, 2/2009
(19) УЭкС, 3/2009
(20) УЭкС, 4/2009
(21) УЭкС, 1/2010
(22) УЭкС, 2/2010
(23) УЭкС, 3/2010
(24) УЭкС, 4/2010
(25) УЭкС, 1/2011
(26) УЭкС, 2/2011
(27) УЭкС, 3/2011
(28) УЭкС, 4/2011
(29) УЭкС, 5/2011
(30) УЭкС, 6/2011
(31) УЭкС, 7/2011
(32) УЭкС, 8/2011
(33) УЭкС, 9/2011
(34) УЭкС, 10/2011
(35) УЭкС, 11/2011
(36) УЭкС, 12/2011
(37) УЭкС, 1/2012
(38) УЭкС, 2/2012
(39) УЭкС, 3/2012
(40) УЭкС, 4/2012
(41) УЭкС, 5/2012
(42) УЭкС, 6/2012
(43) УЭкС, 7/2012
(44) УЭкС, 8/2012
(45) УЭкС, 9/2012
(46) УЭкС, 10/2012
(47) УЭкС, 11/2012
(48) УЭкС, 12/2012
(49) УЭкС, 1/2013
(50) УЭкС, 2/2013
(51) УЭкС, 3/2013
(52) УЭкС, 4/2013
(53) УЭкС, 5/2013
(54) УЭкС, 6/2013
(55) УЭкС, 7/2013
(56) УЭкС, 8/2013
(57) УЭкС, 9/2013
(58) УЭкС, 10/2013
(59) УЭкС, 11/2013
(60) УЭкС, 12/2013
(61) УЭкС, 1/2014
(62) УЭкС, 2/2014
(63) УЭкС, 3/2014
(64) УЭкС, 4/2014
(65) УЭкС, 5/2014
(66) УЭкС, 6/2014
(67) УЭкС, 7/2014
(68) УЭкС, 8/2014
(69) УЭкС, 9/2014
(70) УЭкС, 10/2014
(71) УЭкС, 11/2014
(72) УЭкС, 12/2014
(73) УЭкС, 1/2015
(74) УЭкС, 2/2015
(75) УЭкС, 3/2015
(76) УЭкС, 4/2015
(77) УЭкС, 5/2015
(78) УЭкС, 6/2015
(79) УЭкС, 7/2015
(80) УЭкС, 8/2015
(81) УЭкС, 9/2015
(82) УЭкС, 10/2015
(83) УЭкС, 11/2015
(84) УЭкС, 11(2)/2015
(85) УЭкС,3/2016
(86) УЭкС, 4/2016
(87) УЭкС, 5/2016
(88) УЭкС, 6/2016
(89) УЭкС, 7/2016
(90) УЭкС, 8/2016
(91) УЭкС, 9/2016
(92) УЭкС, 10/2016
(93) УЭкС, 11/2016
(94) УЭкС, 12/2016
(95) УЭкС, 1/2017
(96) УЭкС, 2/2017
(97) УЭкС, 3/2017

 Федеральная служба по надзору в сфере связи и массовых коммуникаций

№ регистрации СМИ ЭЛ №ФС77-35217 от 06.02.2009 г.       ISSN: 1999-4516