Создать PDF Рекомендовать Распечатать

АНАЛИЗ БОЛЬШИХ ДАННЫХ КОМПАНИИ UBER TECHNOLOGIES INC С ПОМОЩЬЮ ТЕХНОЛОГИИ DATA MINING

  • Автор (авторы):
    Суворов Станислав Вадимович, Царькова Наталья Ивановна, Спиридонова Александра Константиновна
  • Дата публикации:
    26.07.19
  • ВУЗ ИЛИ ОРГАНИЗАЦИЯ:
    ФГБОУ ВО "Московский политехнический университет"

АНАЛИЗ БОЛЬШИХ ДАННЫХ КОМПАНИИ UBER TECHNOLOGIES INC С ПОМОЩЬЮ ТЕХНОЛОГИИ DATA MINING

UBER TECHNOLOGIES INC BIG DATA ANALYSIS USING DATA MINING TECHNOLOGY

 

Суворов Станислав Вадимович
Профессор, кандидат экономических наук
ФГБОУ ВО "Московский политехнический университет"
ssw1168@mail.ru
 

Suvorov Stanislav V.
Professor, candidate of Economic Sciences
Moscow Polytechnic University

 

Царькова Наталья Ивановна
Кандидат педагогических наук, доцент
ФГБОУ ВО «Московский политехнический университет»
tsarkovani@mail.ru

 

 Tsarkova Natalya I.

Candidate of Pedagogical Sciences, associate Professor
Moscow Polytechnic University

 

Спиридонова Александра Константиновна
Бакалавр
ФГБОУ ВО "Московский политехнический университет"
ksontini@mail.ru
 

Spiridonova Aleksandra K.
Bachelor
Moscow Polytechnic University

 

Аннотация

В данной статье на практике показано применение технологии Data Mining. В качестве Big Data используются данные компании Uber Technologies Inc, включающие в себя более 3,5 миллиона наблюдений за период равный пяти месяцам.  Первоначальным этапом было исследование рынка такси в США, в частности были рассмотрены основные конкуренты Uber: Lyft и Juno. Затем к исходным данным для анализа на практике была применена технология Data Mining. После подготовки, анализа и проверки моделей были сформированы рекомендации, оценены финансовые показатели, проанализированы риски.

 

Abstract

This article shows the practical application of Data Mining technology. As Big Data, Uber Technologies Inc data is used, which includes more than 3.5 million observations for a period equal to five months. The initial stage was the market research of the taxi in the United States. In particular, were considered the main competitors of Uber: Lyft and Juno. Then Data Mining technology was applied to the source data for analysis in practice. After the preparation, analysis and verification of models, recommendations were formed, financial indicators were evaluated, risks were analyzed. 

Ключевые слова: интеллектуальный анализ данных, большие данные, Uber Technologies Inc, кросс-факторный анализ, Python 3.

Keywords: Data Mining, Big Data, Uber Technologies Inc, cross factor analysis, Python 3.

 

Введение

Агрегаторы-платформы, объединяющие потребителей с поставщиками услуг, являются одной из основных инновационных технологических решений, изменивших бизнес-модели ряда индустрий в последнее десятилетие. Компания Uber Technologies Inc является мировым первопроходцем среди платформ-агрегаторов для осуществления услуг «таксоперевозок». Однако несмотря на современный, в технологическом плане, подход к организации перевозок, около 60% времени водители находятся без пассажиров в ожидании заказа, что негативно сказывается как на их заработке, так и на прибыли Uber Technologies Inc в целом. Так как компания является посредником между водителями и пассажирами, стремясь обеспечить максимальную безопасность перевозки и следуя законам, она занимается сбором и хранением обезличенных данных о поездках. В результате, в качестве побочного продукта, образовывается внушительные объемы «сырых данных», применив к которым интеллектуальный анализ, можно не только узнать сколько в среднем поездок в день совершается, но и выявить популярное время и место заказов. Полученные в результате анализа выводы помогут компании повысить прибыль, путем создания для водителей рекомендаций касательно того, где и когда им следует находится для увеличения количества заказов.

Интеллектуальный анализ данных (Data Mining) – технология выявления скрытых закономерностей внутри больших данных – применяется практически везде, где возникает задача автоматического анализа данных. Данная технология включает в себя анализ предметной области, постановку задачи, подготовку данных, построение, проверку и оценку модели, ее применение на практике и дальнейшую корректировку. [1]

 

Постановка цели и задач

 Цель настоящей работы – анализ больших данных компании Uber Technologies Inc с помощью технологии Data Mining. 

Для достижения поставленной цели были определены следующие задачи: 

1. Анализ рынка услуг такси в США.

2. Анализ компании Uber Technologies Inc.

3. Анализ основных конкурентов компании Uber Technologies Inc в Нью-Йорке.

4. Подготовка данных для анализа.

5. Построение исходной модели.

6. Проверка корректности модели на имеющихся данных.

7. Корректировка модели.

8. Формирование рекомендаций и итоговой модели. 

Объектом работы является компания Uber Technologies Inc. 

Предметом исследования являются данные компании Uber Technologies Inc по городу Нью-Йорк, содержащие в себе 3,5 миллиона наблюдений, за период, равный пяти месяцам. Данные включают в себя такие параметры, как: дата и время совершения заказа, точное место подачи автомобиля.

В рамках данной работы использовались такие инструменты анализа, как модель пяти сил конкуренции Портера, интеллектуальный анализ больших данных (Big Data Mining), методология визуализации данных, кросс-факторный анализ данных, модель дисконтированных денежных потоков, анализ рисков, Python 3. 

Основными источниками баз данных для анализа, количество наблюдений которых составляет более 3,5 миллионов, использованными в работе, являются базы данных Transport Company New York [2], Transportation Network Company и официальный сайт компании Uber Technologies Inc. [3]

 

Основной раздел 

Исследование рынка такси производилось с помощью методики анализа рынка пяти сил Портера, которая включает в себя такие критерии, как: угроза появления новых игроков, сила поставщиков, сила покупателей, угроза услуг заменителей и наличие конкурентов. Учитывая имеющиеся данные, можно сделать вывод, что рынок традиционного такси является конкурентным, в первую очередь из-за угрозы сервисов заменителей, силы покупателей и конкурентов. Рынок такси «агрегаторов» является среднеконкурентным из-за большого количества патентов, которые регистрируют компании, создающие приложения для заказа такси.  

img1

Рисунок 1. Исследование рынка такси

Основными конкурентами Uber в Нью-Йорке являются компании Lyft и Juno. Они имеют идентичную Uber бизнес-модель, суть которой заключается в том, что каждая компания берет себе определенный процент от стоимости поездок. Самым выгодным для водителей является Juno (10%), на втором месте Uber (22,5%), на третьем Lyft (25%). В отличии от Juno, Uber и Lyft предоставляет водителям банковские льготы в виде банковских карт и счетов, не облагаемых комиссией и особые кредиты на покупку транспортных средств. Также данные компании (Uber и Lyft) являются сторонниками защиты окружающей среды и помогают социально слабым слоям населения, предоставляя такси на льготных условиях. Все компании предоставляют бонусы как водителям, так и пассажирам, однако Lyft стремительно снижает выплаты водителям. Наиболее удобным является приложение Juno, на втором месте Lyft, а на третьем Uber. Однако, при учете всех критериев, компании выстраиваются в диаметрально-противоположном порядке: на третьем месте в совокупности по всем критериям находится Juno, на втором Lyft, на первом Uber. Данное распределение соответствует и размерам компаний. Uber Technologies Inc является первой и самой быстроразвивающейся службой такси в мире, располагающей большими объемами данных. [4]

Всего для анализа было обработано более 3,5 миллионов заказов. Первоначальным этапом было произведение подготовки и очистки данных от дубликатов и выбросов, затем был произведен первичный анализ, который выявил наличие цикличности заказов. Для построения первоначальной описательной модели были выбраны 3 из 5 имеющихся месяцев – апрель, май, июнь. Для тестирования модели был выбран июль, а применение производилось на данных за август.  

Проанализировав заказы по дням недели, был сделан вывод, что наиболее популярным днями заказа такси являются будни, в то время как выходные пользуются меньшим спросом. Таким образом, предположение касательно цикличности заказов подтверждается. На рисунке 2 изображены полученные графики, показывающие количество заказов по дням недели в каждом месяце. Исходя из полученных данных, можно сделать вывод, что популярными днями заказа такси являются четверг и пятница, а не популярным днем является воскресенье.

 img2

Рисунок 2. Количество заказов по дням недели

Затем был произведен анализ количества заказов по часам (Рисунок 3), в ходе которого было выявлено, что общая ситуация распределения заказов схожа. Особый спрос на услуги такси Uber наблюдается с 15 часов до 22, при этом пик приходится с 16 до 18 часов. Затем спрос постепенно падает до 2 часов ночи. После, в 6 часов утра, он резко возрастает в два раза по сравнению с 5 часами утра. В утренние часы максимальный спрос достигается в 7 часов. Самым популярным временем заказа является период с 16 до 18 часом, при этом пик всегда приходится на 17 часов. 

 img3

Рисунок 3. Количество заказов по часам

Чтобы выявить пики совершения заказов, был произведен кросс-факторный анализ по часам и дням недели. Для этого были построены тепловые карты (Рисунок 4). Особо высокий спрос в апреле наблюдается по средам, в период с 16 до 18 часов, пиком спроса является среда 17 часов. В мае самым популярным временем считалось 17-18 часов четверга и пятницы. А в июне 17 часов для четверга. Самыми непопулярным временем заказа такси является период с 1 до 3 часов ночи в будни дни. Спрос во второй половине дня (с 15 до 23) превышает спрос первой половины дня.

 img4

Рисунок 4. Тепловые карты

Следующим этапом было выявление территориального распределения заказов. На всех трех каратах Нью-Йорка (Рисунок 5) видно, что общая ситуация является схожей. Самыми популярными районами является Манхеттен и Бруклин. 

 img5

Рисунок 5. Территориальное распределение заказов

После анализа данных была составлена исходная описательная модель, включающая в себя все основные выводы по поводу территориальному и временному распределению заказов. Данная модель будет проверяться на данных за июль.

Исходная модель:

 Среда, пятница и четверг – популярные дни заказов.

 Воскресенье – не популярный день заказа.

 Часы, принадлежащие низкому уровню заказов, не изменятся. 

 Часы, принадлежащие среднему уровню заказов, будут идентичны по составу.

 Часы, принадлежащие повышенному уровню заказов, на 83,5% совпадает по составу.

 Самое популярное время заказов не изменится.

 Наличие спроса в утренние часы (с 6 до 9) в будни, наличие спроса в вечерние часы в пятницу и выходные (с 21 до 24).

 Территориальное распределение заказов будет схожим. Наличие тенденции увеличения заказов на окраинах города.

Обработав данные за июль, был сделан вывод, что модель является корректной (Рисунок 6).

 img6

Рисунок 6. Проверка модели на исходных данных за июль

Предположение касательно временного распределения заказов подтвердилось, действительно пик приходится на 17 часов.  Исходное предположение, что в июле самым непопулярным днем будет считаться воскресенье, а среда, пятница и четверг окажутся в популярных днях подтвердилось. 

Кросс-факторный анализ подтверждает, предположение касательно того, что присутствует ситуация с повышением спроса в утренние часы (с 6 до 9) в будни и отсутствие такого спроса в выходные. В пятницу и субботу в вечерние часы (с 21 часов до 0 часов следующего дня) наблюдается тенденция к увеличению спроса на такси. 

Самым популярным временем заказа можно считать 17-18 часов вторника, среды и четверга. Территориальное распределение заказов подтвердилось. После проверки модели была произведена ее незначительная корректировка, которая учитывала особенности летнего периода времени.

В общем и целом, все предположения касательно территориального и временного распределения заказов подтвердились.

Затем были составлены итоговые рекомендации для водителей, следуя которым, они смогу совершать больше поездок и сократить свой процент времени проведенный без пассажиров. Полученная модель была применена к данным за август.

После применения технологии Data Mining были рассчитаны основные экономические показатели. В качестве основных исходных данных были рассчитаны все тарифы компании и выведена средняя стоимость каждого из них, с учетом повышенного спроса, средней длительности поездки и расстояния. В качестве процента, который компания сможет забирать у конкурентов в каждый месяц обоснованно был взят 1%, а для первого месяца эксплуатации проекта 5%.  

Таким образом, за 3 месяца внедрения и 9 месяцев эксплуатации проекта внутренняя норма доходности будет составлять 338,6%. Чистая приведенная стоимость проекта более 113 миллионов долларов. Индекс рентабельности инвестиций 1131,6, Дисконтированная окупаемость 1130,6. Проект окупится за 3 месяца и 1 день.

Затем был произведён анализ рисков методом Монте-Карло. В рамках которого были смоделированы 5 000 возможных вариантов развития событий, учитывая пессимистический и оптимистический исходы. В результате был получен вывод, что риски являются минимальными. Таким образом, проект для компании Uber Technologies Inc является успешным и выгодным. 

 

Заключение

Актуальность выбранной методики обусловлена текущим положением Uber Technologies Inc на рынке такси. Компания придерживается стратегии экспансии, в связи с чем присутствует растущая потребность в быстром увеличении прибыли на постоянной основе. Таким образом, внедрение технологии интеллектуального анализа данных поможет компании укрепить свое положение на рынке такси и увеличить прибыль. При оптимистических условиях внешней среды Uber Technologies Inc сможет увеличить свою долю рынка в Нью-Йорке с 50% до 61%, что в финансовом плане принесет компании $309 267 114. Пессимистический вариант развития событий предполагает увеличение доли рынка на 1% и прибыль в размере $1 170 368. В общем и целом, все варианты развития события являются выгодными для компании, а риски являются минимальными. 

 

Библиографический список

 1. Encyclopedia — электронная энциклопедия [Электронный ресурс]. Режим доступа: http://www.encyclopedia.ru/data_mining, свободный - (дата обращения: 21.05.2019).

2. NYC Gov — официальный сайт правительства Нью-Йорка [Электронный ресурс]. Режим доступа:  https://www1.nyc.gov/site/tlc/about/aggregated-reports.page, свободный - (дата обращения: 29.05.2019).

3. Uber.com — официальный сайт компании Uber Technologies Inc [Электронный ресурс]. Режим доступа: https://www.uber.com/en-CN/newsroom/uberalipayglobal, свободный - (дата обращения: 22.05.2019).

4. Википедия — свободная энциклопедия [Электронный ресурс]. Режим доступа: https://ru.wikipedia.org/wiki/uber, свободный - (дата обращения: 29.05.2019).

 

Bibliographic list

1. Encyclopedia — electronic encyclopedia [Electronic resource]. Access mode: http://www.encyclopedia.ru/data_mining, free - (appeal date: 05/21/2019).

2. NYC Gov — the official website of the Government of New York [Electronic resource]. Access mode: https://www1.nyc.gov/site/tlc/about/aggregated-reports.page, free - (access date: 05/29/2019).

3. Uber.com — the official website of Uber Technologies Inc [Electronic resource]. Access mode: https://www.uber.com/en-CN/newsroom/uberalipayglobal,  free - (contact date: 05/22/2019).

4. Wikipedia — the free encyclopedia [Electronic resource]. Access mode: https://ru.wikipedia.org/wiki/uber, free - (access date: 05/29/2019).

 

  vakperechen

ОБНОВЛЕННЫЙ СПИСОК ВАК 2016 г.
ОТ 19.04.2016  >> ПРОСМОТРЕТЬ
tass
 
ПО ВОПРОСАМ ПУБЛИКАЦИИ СТАТЕЙ И СОТРУДНИЧЕСТВА ОБРАЩАЙТЕСЬ:
skype SKYPE: vak-uecs
e-mail
MAIL: info@uecs.ru
phone
+7 (928) 340 99 00
 

АРХИВ НОМЕРОВ

(01) УЭкС, 1/2005
(02) УЭкС, 2/2005
(03) УЭкС, 3/2005
(04) УЭкС, 4/2005
(05) УЭкС, 1/2006
(06) УЭкС, 2/2006
(07) УЭкС, 3/2006
(08) УЭкС, 4/2006
(09) УЭкС, 1/2007
(10) УЭкС, 2/2007
(11) УЭкС, 3/2007
(12) УЭкС, 4/2007
(13) УЭкС, 1/2008
(14) УЭкС, 2/2008
(15) УЭкС, 3/2008
(16) УЭкС, 4/2008
(17) УЭкС, 1/2009
(18) УЭкС, 2/2009
(19) УЭкС, 3/2009
(20) УЭкС, 4/2009
(21) УЭкС, 1/2010
(22) УЭкС, 2/2010
(23) УЭкС, 3/2010
(24) УЭкС, 4/2010
(25) УЭкС, 1/2011
(26) УЭкС, 2/2011
(27) УЭкС, 3/2011
(28) УЭкС, 4/2011
(29) УЭкС, 5/2011
(30) УЭкС, 6/2011
(31) УЭкС, 7/2011
(32) УЭкС, 8/2011
(33) УЭкС, 9/2011
(34) УЭкС, 10/2011
(35) УЭкС, 11/2011
(36) УЭкС, 12/2011
(37) УЭкС, 1/2012
(38) УЭкС, 2/2012
(39) УЭкС, 3/2012
(40) УЭкС, 4/2012
(41) УЭкС, 5/2012
(42) УЭкС, 6/2012
(43) УЭкС, 7/2012
(44) УЭкС, 8/2012
(45) УЭкС, 9/2012
(46) УЭкС, 10/2012
(47) УЭкС, 11/2012
(48) УЭкС, 12/2012
(49) УЭкС, 1/2013
(50) УЭкС, 2/2013
(51) УЭкС, 3/2013
(52) УЭкС, 4/2013
(53) УЭкС, 5/2013
(54) УЭкС, 6/2013
(55) УЭкС, 7/2013
(56) УЭкС, 8/2013
(57) УЭкС, 9/2013
(58) УЭкС, 10/2013
(59) УЭкС, 11/2013
(60) УЭкС, 12/2013
(61) УЭкС, 1/2014
(62) УЭкС, 2/2014
(63) УЭкС, 3/2014
(64) УЭкС, 4/2014
(65) УЭкС, 5/2014
(66) УЭкС, 6/2014
(67) УЭкС, 7/2014
(68) УЭкС, 8/2014
(69) УЭкС, 9/2014
(70) УЭкС, 10/2014
(71) УЭкС, 11/2014
(72) УЭкС, 12/2014
(73) УЭкС, 1/2015
(74) УЭкС, 2/2015
(75) УЭкС, 3/2015
(76) УЭкС, 4/2015
(77) УЭкС, 5/2015
(78) УЭкС, 6/2015
(79) УЭкС, 7/2015
(80) УЭкС, 8/2015
(81) УЭкС, 9/2015
(82) УЭкС, 10/2015
(83) УЭкС, 11/2015
(84) УЭкС, 11(2)/2015
(85) УЭкС,3/2016
(86) УЭкС, 4/2016
(87) УЭкС, 5/2016
(88) УЭкС, 6/2016
(89) УЭкС, 7/2016
(90) УЭкС, 8/2016
(91) УЭкС, 9/2016
(92) УЭкС, 10/2016
(93) УЭкС, 11/2016
(94) УЭкС, 12/2016
(95) УЭкС, 1/2017
(96) УЭкС, 2/2017
(97) УЭкС, 3/2017
(98) УЭкС, 4/2017
(99) УЭкС, 5/2017
(100) УЭкС, 6/2017
(101) УЭкС, 7/2017
(102) УЭкС, 8/2017
(103) УЭкС, 9/2017
(104) УЭкС, 10/2017
(105) УЭкС, 11/2017
(106) УЭкС, 12/2017
(107) УЭкС, 1/2018
(108) УЭкС, 2/2018
(109) УЭкС, 3/2018
(110) УЭкС, 4/2018
(111) УЭкС, 5/2018
(112) УЭкС, 6/2018
(113) УЭкС, 7/2018
(114) УЭкС, 8/2018
(115) УЭкС, 9/2018
(116) УЭкС, 10/2018
(117) УЭкС, 11/2018
(118) УЭкС, 12/2018
(119) УЭкС, 1/2019
(120) УЭкС, 2/2019
(03) УЭкС, 3/2019
(04) УЭкС, 4/2019
(05) УЭкС, 5/2019
(06) УЭкС, 6/2019
(07) УЭкС, 7/2019
(08) УЭкС, 8/2019
(09) УЭкС, 9/2019
(10) УЭкС, 10/2019
(11) УЭкС, 11/2019
(12) УЭкС, 12/2019

 Федеральная служба по надзору в сфере связи и массовых коммуникаций

№ регистрации СМИ ЭЛ №ФС77-35217 от 06.02.2009 г.       ISSN: 1999-4516