共享单车的借还流量预测分析研究物联网工程专业.docx
前言2第一章绪论41.1 研究背景及意义41.2 本文的主要工作61.3 本文的组织结构7第二章相关方法82.1 随机森林算法82.2 极端随机树算法92.3 1.ightGBM算法92.4KNN算法9第三章问题定义与分析113.1 问题形式化113.2 问题分析12第四章预测算法141.1 1算法架构141.2 数据预处理151.3 热站点预测算法154.3.1基于随机森林的预测算法154.3.2基于极端随机树的预测算法174.3.3基于LightGBM的预测算法184.3.4力用112O4.4冷站点预测算法201 .4.1KNN回归算法原理214 .4.2冷站点预测21 2 24. 5预测值修正4. 5.1KNN分类算法原理235. 5.2站点分类236. 5.3预测值修正24第五章实验验证255. 1数据集255.2 基线预测器&评分标准275.3 实验结果27第六章总结与展望286. 1本文总结286.2后续工作展望28参考文献30致谢错误!未定义书签。近年来,共享单车系统在各大城市逐渐流行,给大众出行的“最先一公里”和“最后一公里”提供了既方便又属于环境友好型的解决方案。虽然它的出现带来了很多便利,但共享单车系统的分配不平衡特点也给管理者和使用者带来了许多问题。对于管理者来说,由于共享单车不断变化的使用需求,它的分布是不均匀的,不加以干预会造成社会资源的极大浪费;对于使用者来说,共享单车的不均匀分布会导致站点无车可借或无车位可停的现象,这会极大影响使用者的使用体验。由于不同站点在不同时间段的借还需求不平衡,因此我们需要对共享单车系统中的自行车进行再平衡。若利用实时监控手段进行再平衡,则需要花费大量的时间、成本、人力,并且无法很好地解决这个问题。因此,我们需要通过一个有效的再平衡策略来对共享单车资源进行调度,这在很大程度上依赖于共享单车借还流量预测。在本文中,我们提出了一种站点级别的预测模型来依靠历史数据以及气象数据等因素来对共享单车借还流量进行预测。首先我们根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法一一随机森林、极端随机树算法以及LightGBM的加权融合算法,然后对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测,最后根据PoI信息采用KNN算法对自行车站点进行分类并根据分类结果对冷热站点预测算法进行改进和修正。我们的模型在永安自行车公司在盐城的公共自行车数据上进行了验证,实验结果证明本文提出的模型好于基线预测器随机森林算法、极端随机树算法和LightGBMo关键词:共享单车;流量预测;再平衡AbstractInrecentyears,bike-sharingsystemhasgraduallybecomepopularinmajorcities,providingaconvenientandenvironmentallyfriendlysolutiontothe,thefirstkilometer*1and"thelastkilometer"ofthepublictravel.Althoughithasbroughtalotofconvenience,theuniquefeaturesofbike-sharingsystemalsobringmanyproblemstomanagersandusers.Forthemanagers,thedistributionisunevenbecauseoftheever-changingusageofthesharedbicycle,whichwillcauseagreatwasteofsocialresources.Fortheusers,theunevendistributionofthesharedbicyclewillleadtothephenomenonthatthereisnocartoborrowornoparkingspacetostop,whichwillleadtoabadimpactontheuser'sexperience.Weneedtorebalancebicyclesinbike-sharingsystemduetotheunevendemandofdifferentsitesatdifferenttimeperiods.Ifweusereal-timemonitoringmeanstorebalance,itwilltakealotoftime,costandmanpower,soitcan,tsolvethisproblemwell.Therefore,therebalancingstrategyofsharedbicyclesdependslargelyonthepredictionofsharedbicycles,borrowingandreturningflow.Inthispaper,wepredictthesharedbicycles,borrowingandreturningflowbasedonhistoricaldataandmeteorologicaldata.Weproposeasitelevelpredictionmodel.Firstly,accordingtohistoricaldata,time,meteorologyandotherfactors,weproposeapredictionmethodwithcertainaccuracy-randomforest,extremelyrandomizedtreesandLightGBMweightedfusionalgorithmforthesehotsites.Then,thecoldsiteswithlesshistoricaldataaretreatedseparately,andtheKNNalgorithmisusedtopredicttheborrowingandreturningflowofthesecoldsites.Finally,accordingtothePOIinformation,theKNNalgorithmisusedtoclassifythebicyclesites,andthepredictionalgorithmofthehotandcoldsiteswillbeimprovedandcorrectedaccordingtotheclassificationresults.OurmodelisverifiedbytheYbnganbicyclecompany'spublicbikedatainYancheng.Theexperimentalresultsshowthattheproposedmodelisbetterthanthebaselinepredictorsuchasrandomforestalgorithm,theextremerandomtreealgorithmandtheLightGBM.Keywords:Sharedbicycles;Flowprediction;Rebalancing前言近年来,随着智能手机的广泛使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐暴露出来,共享单车缺少有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史借还数据以及气象数据等其他因素进行预测,并以预测数据作为站点投放自行车的重要依据。现实场景中,企业通常采用实时监控的方式进行再平衡,这需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低而根据历史数据以及气象数据等其他因素对共享单车系统未来的借还流量进行预测可以有效地避免共享单车的不平衡现象的产生,指导企业和政府进行共享单车的再平衡以提高共享单车系统的效率以及资源利用率。同时,共享单车作为大众出行的交通工具之一,它的使用情况也能从一定程度上反映出人口流动的特点,对城市交通建设有着重要的参考价值。综上所述,对共享单车的借还流量进行预测有着实际的应用价值。一方面,它可以指导企业和政府进行共享单车的高效投放并在很大程度上避免站点无车可借或无车位可停的现象;另一方面,它可以为城市交通建设提供量化的参考依据。本文提出了一种站点级别的预测模型,其主要由四个部分组成:1)根据历史数据以及时间、气象等因素对历史数据较多的热站点提出具有一定准确度的预测方法随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法;2)对于历史数据较少的冷站点单独处理,采用KNN算法对这些站点的借还流量进行预测;3)根据POI信息采用KNN算法对自行车站点进行分类;4)根据步骤3中得到的站点分类结果对步骤1和2中的冷热站点预测算法进行改进和修正。本文所选择的基线预测器是随机森林算法、极端随机树算法和LightGBM。本文的主要研究内容如下:(1)本文指出了传统单一数据预测方法的局限性,从而对历史数据较多的热站点提出了随机森林(randomforest)、极端随机树算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加权融合算法。(2)本文针对特定数据集对历史数据较少的冷站点进行了不同于热站点的单独预测处理,从而提高了整体预测的准确度。(3)本文提出了将基于PcH的站点分类信息融入到预测模型中的方法,并通过该方法对冷热站点预测模型进行了改进和修正。(4)本文在真实的数据集上进行了实验,从而验证了本文的方法相较于随机森林算法、极端随机树算法和LightGBM这些基线预测器具有较好的预测结果。第一章绪论本章首先介绍了共享单车借还流量预测的研究背景和意义,然后简单介绍了学术界对交通流预测以及共享单车系统再平衡所做的研究,并概述了本文所做的主要工作和贡献,在本章的最后简要介绍了论文的组织结构。1.1 研究背景及意义近年来,随着智能手机的广泛使用以及共享经济的不断发展,共享单车逐渐成为了流行趋势。共享单车系统已经逐步深入到各大城市,给大众出行的“最先一公里”和“最后一公里”提供了既方便又环保的解决方案。但事物总是存在两面,共享单车的运营管理问题逐渐暴露出来,共享单车缺乏有效的调度和维护,潮汐时段与其他时段数量需求的巨大差别以及许多站点出现的单车数量与使用需求不匹配等问题造成了社会资源的浪费。由于不同站点在不同时间段的借还需求是不平衡的,所以我们需要对共享单车系统中的自行车进行再平衡以避免出现站点无车可借或无车位可停的现象。再平衡可以归纳为两种方式,其中一种是实时监控;另一种是根据历史数据以及气象数据等其他因素进行预测,并以预测数据作为站点投放自行车的重要依据。若采用实时监控的方式进行再平衡,则需要在自行车数量发生不平衡现象后花费大量的时间、成本以及人力来重新分配自行车,导致站点的使用率以及效率大大降低,所以实时监控并不是一个很好的解决方案。而根据历史借还数据以及气象数据等其他因素对共享单车系统未来的借还