基于多代理技术的电动出租车运营实时仿真系统及应用-荆朝霞.pdf
《基于多代理技术的电动出租车运营实时仿真系统及应用-荆朝霞.pdf》由会员分享,可在线阅读,更多相关《基于多代理技术的电动出租车运营实时仿真系统及应用-荆朝霞.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、http: / / www. aeps- info. com基于多代理技术的电动出租车运营实时仿真系统及应用荆朝霞1 ,郭文骏1 ,郭子暄2( 1.华南理工大学电力学院,广东省广州市510640;2.中国能源建设集团广东省电力设计研究院有限公司,广东省广州市510663)摘要:电动出租车的示范运营对于电动汽车的推广具有引导意义,然而大规模电动出租车的接入将对电网运营和规划造成很大影响。为了研究区域内电动出租车运营的最优管理策略,引入多代理技术,采用了Q- Learning算法描述电动出租车的决策行为,利用JADE仿真工具建立了基于多代理技术的电动出租车运营实时仿真系统。通过实际应用分析表明,该
2、系统通过主体之间以及主体与环境之间的交互,能有效地模拟电动出租车的动态行为及运营策略,为研究电动汽车规划、运营等问题提供参考。关键词:电动汽车;多代理技术; Q- Learning算法; JADE实时仿真收稿日期: 2015- 05- 24;修回日期: 2015- 08- 04。上网时间: 2015- 11- 18。国家自然科学基金资助项目( 51377058) 。0 引言大规模电动汽车接入将会给电力系统的规划与运行带来各种挑战,需要对充换电设施的规划和运营、充电负荷的优化控制、考虑大量电动汽车接入的电网规划与运营、充换电对电网的影响分析等各种问题进行深入研究 1- 18 。电动汽车接入电网相
3、关问题的研究方法有两大类:一类是基于传统的数学优化、均衡分析的方法 1- 8 ;另一类是基于多代理的仿真方法 9- 18 。大规模电动汽车接入电网后相关问题的研究,涉及电网和交通网两个复杂拓扑网络,电网公司、电动汽车所有者和司机、充换电设施所有者和运营者等多个不同的利益主体,而且受到电价政策、车辆运营规则、交通管理规则等多方面影响,相比传统的电力系统规划和运营问题更加复杂。采用传统数学优化、均衡分析方法,必须对相关模型进行较大的简化,同时难以考虑各主体的自主性和自适应性,因此无法实现对现实世界的准确模拟。复杂适应系统理论( CAS)的出现为这类系统的建模、分析提供了一种有效的方法 19 。多代
4、理系统( M AS)是研究复杂适应系统的有效方法 20 。在这个系统中,用具有一定自主性和适应性的代理来模拟复杂系统中的主体,通过一群具有不同目标的代理在交互环境中完成一个或多个功能,实现系统的整体优化。目前国内外在基于多代理技术的电动汽车运营仿真方面已经产生一系列的研究成果。文献 9- 18对配电系统中电动汽车的分布控制管理、大规模电动汽车充电优化控制问题、电动汽车和充电设备之间的交互影响、家庭可插拔混合电动汽车的分布及对当地配电网络的影响、城市电动汽车充电设施布局规划等问题进行了研究。多主体模拟软件可以帮助学习者直接体验相关学科的仿真模型,研究人员可以利用它作为工具,快速建立本领域的研究模
5、型。目前,已经出现不少多主体建模软件平台,包括JADE ( Java agentdevelopment framework ) 9- 13 , Swarm 14 ,Repast 15 , NetLogo 16及AnyLogic 18等。JADE平台完全符合代理互操作软件标准FIPA( foundation for intelligent physical agents)规范,方便系统的扩展,在M AS研究中得到了广泛的应用。在电动汽车运营研究方面,文献 9建立了三层代理模型对电动汽车协调充电问题进行研究;文献 10发展了一种基于分布式代理和纳什确定等效原则的电动汽车充电控制方法;文献 11提出
6、了一种考虑电价和配电网约束的基于M AS的电动汽车电池充电控制管理方法;文献 12- 13建立了考虑电动汽车、交通网络、充电站等多种主体的多代理实时仿真平台。本文在文献 12的基础上进一步开发了针对出租车这一类型电动汽车的仿真平台,并讨论了其在电动汽车充换电设施规划等研究问题中的应用。电动出租车是电动汽车中一种重要的类型,其行为特性相对电动公交车、私家车及公务车更加复杂 2, 6 ,本文考虑出租车的交接班制度、电价政策等38第40卷 第7期 20 1 6年4月1 0日Vol. 40 No. 7 Apr. 10, 2016DOI: 10. 7500/ AEPS20150524005详细特性对电动
7、出租车运营问题进行建模,并建立了基于Q- Learning算法(简称Q学习算法)的电动出租车载客、充电等决策方法。1 基于M AS的电动出租车运营实时仿真系统架构1 . 1 平台中各类代理概述本文建立的电动出租车运营实时仿真系统包括以下6种类型的代理。1)时间控制代理:用于系统中各代理运行时间的协调同步,以及系统整体运行的启停控制。2)地图代理:为相关代理提供交通网络、充电站分布以及乘客分布等与地图相关的信息。3)数据存储代理:负责系统中数据的存储、查询等服务。4)乘客生成器代理:在一定的时间和地图上相应的位置生成出租车乘客。5)充电站代理:为出租车代理提供充电相关信息及服务。6)出租车代理:
8、进行出租车运营的决策,包括载客/充电的选择、寻客方向的选择等。1 . 2 主要类型代理的模型1 . 2. 1 时间控制代理时间控制代理相当于计算机系统中的时钟,可以控制整个仿真系统的开始时间、仿真的启动和暂停以及仿真的时间步长和更新时间周期。其中,仿真时间步长指后台对各代理的状态进行更新的时间步长,取值最小可以为1 s,更新时间周期为在图形界面上状态更新的时间,可以根据实际情况选择,最小值为仿真时间步长。1 . 2. 2 乘客生成器代理乘客生成器代理负责出租车乘客的生成,乘客的参数包括所在位置、生成时间、目的地点以及离开时间等。本文假定在一定时间内乘客的出现概率满足泊松分布,如式( 1)所示,
9、并且设定乘客对象在生成节点处等待30 min后主动离开。 =( T ) n e- Tn! ( 1)式中:为时间T内有n个乘客请求出租车服务的概率;为乘客到达率,即单位时间内乘用出租车的平均乘客数。1 . 2. 3 充电站代理充电站代理主要与出租车代理进行信息交互。接收到出租车代理发送的充电请求信息后,充电站代理分析站内充电设备的使用情况,若有空闲设备,则立即为出租车代理提供充电服务,否则将其加入充电等待队列。当出租车代理完成充电后,充电站代理对其进行信息注销并移除出充电队列。另外,充电站代理每10 min记录当前充电负荷数据,待系统进入暂停状态时,通过与数据更新代理交互上传负荷信息。1 . 2
10、. 4 出租车代理出租车代理的参数包括出租车代理的名称和数字编码等标识参数,电池续航里程、电池容量、额定电压和充电功率参数等车辆性能参数,以及在地图中的地理位置和当前荷电状态( SOC)等状态参数。出租车代理有三种运营状态:决策间段、寻客及充电。当出租车代理处于决策间段状态时,将根据学习决策信息选择寻客或充电行为,图1为电动出租车的运营流程。Y是 否需要 等待 ?YY是 否存 在 客 人 ?是 否 己 到目 的 节点 ?是 否 到 达充 电 站?NYY初 始 化决 策间段行 驶寻 客向 地 图 代 理询问乘 客 信 息向 充 电 站代 理询问充 电 站信 息前 往 充 电充 电 完 成充 电是
11、 否到 达目 的 区 域节点 ?NNNN等待 充 电开 始 载客到 达终点 节点图1 电动出租车运营流程图Fig. 1 Operation process of electric taxis当选择寻客行为时,出租车代理将根据选择的寻客目的分区的不同进行原地等候或以最短路径树集(计算最短路径时采用Dijkstra算法 21 )前往寻客目的节点。进入目的分区后,出租车代理将向地图代理询问途径节点是否存在乘客。若存在乘客,出租车代理发出接到乘客的信息,随即以最短路径将乘客送至终点节点,之后返回决策间段状态;若到达寻客目的节点时仍未接到乘客,则视为寻客失败,也返回决策间段状态。当选择充电行为时,出租车
12、代理同样以最短路径前往最近的充电站,并与充电站代理进行信息交互,进入等待或充电状态,充电完成后返回决策间段状态。2 基于Q学习算法的电动出租车行为决策模型2. 1 Q学习算法概述当出租车代理处于决策间段状态时,采用Q学482016, 40( 7) 研制与开发http: / / www. aeps- info. com习算法进行行为决策。 Q学习算法通常基于马尔可夫决策模型表述其状态转移及行为决策 22 ,其马尔可夫过程( M DP)可由式( 2)所示的五元组表示。 S , A, p ( s , a t , s ) , R( s t , a t ) , Q( s t , a t ) | s t
13、S , a t A ( 2)式中: S为代理在M DP环境中的状态集; A为代理的行为策略空间; p ( s , a t , s )为代理在状态s下采取a t行为使环境状态转移到s的概率; R ( s t , a t )为代理在t时刻采取a t行为后通过环境反馈所获得的行为收益; Q( s t , a t )为代理处于s t状态下选择a t行为的倾向系数。倾向系数的更新计算公式如式( 3)所示。Qt+ 1 ( s t , a t ) = Qt ( s t , a t ) + ( R t ( s t , a t ) + max a AQt ( s t+ 1 , a) - Qt ( s t , a
14、 t ) ) ( 3)式中: 0, 1为学习更新因子; 0, 1为连续状态折扣耦合因子。倾向系数计算结果写入倾向系数矩阵: Q = Q( s , a) | s S , a A 。代理在完成Q( s t , a t )的更新后,将根据状态s t下的倾向系数值,对策略集中策略选择的概率权重进行更新。概率权重更新的方式存在多种,本文采取Q值跟踪的更新方法:p t+ 1s ( a) =p ts ( a) + v( 1- p t+ 1s ( a) ) a = a hp ts ( a) ( 1- v) a A, a a hp t+ 1s- ( a) a A, s- S , s- s ( 4)式中: p t
15、s ( a )为在时刻t状态s下选择行为a的概率; a h为在即时迭代时刻,状态s下倾向系数值最高的行为; v 0, 1为概率更新系数,通常与学习更新因子取相同值。概率更新计算结果写入行为概率矩阵: P = p ( s , a) | s S , a A ,其中p ( s , a )为代理在状态s下采取a行为的概率。2. 2 出租车代理行为决策Q学习算法模型2. 2. 1 状态空间本文根据时刻、地理位置及电池电量三个维度对状态空间进行描述,即 T Time, P Position, S SOC ( 5)式中: T Time为当前时刻状态,将一天24 h分为N T个状态; P Position为当
16、前地理位置状态,可根据出租车运营环境特性进行划分,设为N P个分区; S SOC为电池电量状态,按照充电必要性划分为N S种状态。在本文中, N T取12, N P取7, N S取4。电池电量状态取值如下:状态1为无充电必要, S SOC 50% ;状态2为充电必要性较小, 35% S SOC 50% ;状态3为较有充电必要, 20% S SOC 35% ;状态4为必须充电, S SOC 20% 。实际情况中可以根据所在位置、车型等信息进行状态的划分。2. 2. 2 行为决策空间出租车代理的行为策略分为寻客、等待及充电三种情况,为降低维数,将等待视为在原区域寻客的特殊情况。根据以上定义,任一时
17、刻出租车代理有N P + 1个可选的行为策略,定义为a 1 , a 2 , ,a N P + 1 ,其中a 1 , a 2 , , a N P策略表示寻客行为,下标表示寻客目的分区标号, a N P + 1策略表示充电行为。寻客行为又分为两种情况: 若寻客目的分区与当前所处分区不同,则出租车代理按均匀概率分布原则选取目的分区中的某一道路交叉点作为寻客目的节点,若到达目的节点后仍未寻客成功则视为该次决策失败; 若寻客目的分区与当前所处分区一致,则赋予出租车代理50%的概率在原地等待直至乘客出现,等待时间超过30 min视为等待失败,另外50%的概率下出租车代理按均匀概率分布原则选取本分区中的某一
18、道路交叉点作为寻客目的节点。充电行为下,出租车代理按最短路径前往最近的充电站,充电完成后重新回到决策循环。考虑到当前电动汽车电池的发展现状,本模型中出租车代理每次均将电池充至满电状态。2. 2. 3 行为收益函数2. 2. 3. 1 收益函数模型概述Q学习算法模型中的收益函数反映了代理在当前状态采取当前策略的行为效果评价。本文中,将收益函数表示为若干种收益指标的加权值。对于每个指标,采用最大值/最小值的方法对指标进行归一化处理。R t = Qi B 1 iRQit + Qi B 2 iRQit ( 6)RQit =Qi, max- Qi, tQi, max- Qi, min Qi B 1Qi,
19、 t - Qi, minQi, max- Qi, min Qi B 2 ( 7)式中: B 1为某种情况下收益函数需要考虑的指标中,取值越小越好的指标集合; B 2为该情况下收益函数需要考虑的指标中,取值越大越好的指标集合; i为评价权重系数; Qi为第i个评价指标; Qi, t为该指标在t时刻的取值; Qi, max和Qi, min分别为指标的最大值和最小值。对于B 1集合中的指标,最大值对应非满意值,最小值对应满意值;对于B 2集合中的指标,最大值对应满意值,最小值对应非满意值。定义两种收益函数:载客收益函数和充电收益函数,并将行为策略选取后的结果划分为五种情况,每种情况下收益函数的选择方
20、式如下。58荆朝霞,等 基于多代理技术的电动出租车运营实时仿真系统及应用1)情况1:选择了充电行为,收益按充电收益函数计算。2)情况2:选择了寻客行为,寻到客人并将客人送往目的地后S SOC仍大于充电阈值S SOCmin,收益按载客收益函数计算。3)情况3:选择了寻客行为,但在未寻到客人之前S SOC已降到S SOCmin以下,并已经行驶距离L 0 。这种情况下需要强制将出租车运行状态改为充电状态并开往充电站,收益按充电收益函数计算,其中充电行驶距离增加L 0 。4)情况4:选择了寻客行为,寻到客人后,在未送到目的地前S SOC已降到S SOCmin以下,并已行驶距离L 0 。这种情况下同样需
21、要强制将出租车运行状态改为充电状态并开往充电站,充电完毕后继续行驶距离L 1将客人送往目的地,为补偿客人时间损失,此次载客免收车费。这种情况下收益按充电收益函数计算,其中充电行驶距离增加L 0 + L 1 。5)情况5:选择了寻客行为,但到达寻客目的节点后仍未寻到客人,收益按载客收益函数计算,但载客收费指标效益为零。情况4一般情况下不会发生,因为司机可以主动地合理拒载。但在司机非理性决策及道路异常等情况下,这种情况也会发生。2. 2. 3. 2 载客收益函数载客收益函数需考虑三个指标:寻客时间T t(越小越好) 、载客收费P t (越大越好)和载客后剩余电量百分比S t (越大越好) ,即收益
22、为:R t = p1R Tt + p2R Pt + p3R St ( 8)式中: p1 , p2 , p3为载客模式评价权重系数; R Tt ,R Pt , R St分别为寻客时间、载客收费和载客后剩余电量百分比三个指标在t时刻对应的收益值。当所有道路的行驶速度相同时, P t和S t有固定的线性关系,如果考虑不同道路的不同行驶速度及其引起的电池单位公里耗电量的不同, P t和S t之间有复杂的关系。为了简化模型,在收益函数中将S t作为一个独立的指标而非P t的函数。2. 2. 3. 3 充电收益函数充电收益函数考虑四个指标:充电电量百分比M t (越大越好) 、充电电价D t (越小越好)
23、 、充电行驶距离L t (越小越好)和充电等待车辆数目N t (越小越好) ,即收益为:R t = c1R Mt + c2R Dt + c3R Lt + c4R Nt ( 9)式中: c1 , c2 , c3 , c4为充电模式评价权重系数;R Mt , R Dt , R Lt , R Nt分别为充电电量百分比、充电电价、充电行驶距离、充电等待车辆数目四个指标在t时刻对应的收益值。2. 2. 3. 4 权重指标的确定对收益函数中的各权重指标,当前由专家根据实际系统情况给出。实际中,有些指标在电网、道路等环境参数确定的情况下有固定关系,在确定权重指标时需要考虑这些因素。譬如寻客时间T t和载客收
24、费P t两个指标, T t主要反映两方面的成本,即空载时的电耗及司机的时间成本,在给定各道路行驶速度和司机时间成本的情况下,可转化为以货币为单位的成本值,这样其与P t就具有相同量纲。2. 2. 4 总体学习决策流程基于Q学习算法的电动出租车学习决策流程如下。步骤1:初始化倾向系数矩阵Q和行为概率矩阵P ,设定最大步数K ,令t = 1。步骤2:选取一随机数,根据当前状态和概率矩阵P选择行为a t 。步骤3:根据式( 8)及式( 9)计算本轮收益R t 。步骤4:根据式( 3)更新矩阵Q。步骤5:根据式( 4)更新矩阵P 。步骤6:进入下一轮, t t + 1。步骤7:当学习步数大于K ,仿真
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 代理 技术 电动 出租车 运营 实时 仿真 系统 应用 朝霞
限制150内