首页 > 新闻资讯

用于多微电网电池储能系统自适应控制的元强化学习方法

随着根据逆变器的可再生能源和传感密布的配电网规划扩大，短期波动性与猜测差错加剧，使得配电级灵活性更具价值[1]。由微电网组成的和谐社区，通常称为多微电网(MMG)，经过整合异构散布式能源(DER)来和谐电网交互，并提升部分扰动与市场波动下的韧性[2]。因而，MMG调度归于序贯决策问题：在净负荷、可再生能源发电量和电价等不确定时变外生输入条件下，需在保障设备可行性与运转安全的同时完成运营本钱最小化。
电池储能体系（BESS）为可再生能源功率平滑、套利和快速运营服务供给了中心灵活性[3]。然而在实践应用中，因为参数和束缚条件会随时刻漂移，准确的BESS调度依然存在困难。尽管电化学模型和等效电路模型能够捕捉要害动态特性，但参数不确定性和老化效应会降低可用容量与功率的估计精度。若模型未及时更新，这种功能衰减将导致调度差错和束缚条件违背问题[4]。数字孪生技能流程虽能提升猜测保真度，但在参数漂移情况下，校准与周期性再校准进程会明显添加调试工作量及保护负担[5]。
微电网群布置进一步引入了结构化异质性和时刻非平稳性。各站点在电池储能体系容量、充放电功率、衰减特性、可再生能源渗透率及负荷统计数据方面存在差异，且每个站点可能因设备老化、季节性影响、电价政策调整及异常事情[6][7]而切换运转状况。因而，针对某一微电网实例表现优异的控制器，在搬迁至其他站点或原站点进入新运转状况时可能呈现功能退化。
深度强化学习（DRL）在微电网能量办理范畴得到广泛研讨，因其战略可从交互数据中习得并能习惯多目标（Multi-objective）奖励机制[8]。前期研讨包括根据价值和战略梯度的储能调度办法，以及分散式电力买卖、零售定价和弹性机制下的微电网协同计划[9][10][11]。但规范DRL常过度适配练习环境，在布置阶段遭遇散布偏移时功能明显下降[12][13]。根据猜测条件的DRL会继承猜测误差和状况突变[5]，而安全强化学习虽能改进束缚处理，却无法保证对决定异构性与老化条件下电池储能体系（BESS）功能的设备参数完成快速习惯[14]。
现有搬迁与泛化机制虽能缓解但无法彻底消除这一差距。域随机化经过扩展参数覆盖规模提升鲁棒性，但其优化目标通常针对平均场景稳健性，而非针对新遇场景或运转模式的快速专项习惯能力[15][16]。联邦学习与联邦强化学习经过聚合跨站点经验值完成协同，但这些办法通常依赖于继续连接、长期参与或联合练习机制，无法直接优化新布置微电网面临的冷启动少样本专项习惯问题[17][18]。拓扑感知与根据图的强化学习提升了网络结构间的可扩展性，但设备级漂移与站点特异性电池参数仍需限制级适配机制[19][20]。因而，微型电网群要求控制器具有异构实例搬迁能力，并能在非稳态机制下经过有限布置后交互完成快速特化，无需依赖校准的数字孪生体或继续联邦连接。本研讨的Objective是从物理参数化的微型电网群使命族中离线学习可复用的控制初始化战略，使得布置仅需有限的本地适配[5][17]。
元学习直接针对使命散布的快速习惯[21][22]。在元强化学习中，练习获得一个战略初始化，该初始化能够使用少量轨迹快速习惯新实例[23]。本文重点在于建立物理参数化的多微电网使命散布，并在布置相关偏移条件下对零样本搬迁和少样本习惯进行限制级评价，而非单一战略的平均事例鲁棒性或继续跨站点聚合。
因而，和谐式电池储能体系调度被构建为一个元强化学习问题，并选用模型无关元学习（MAML）框架进行实例化，其中内循环自习惯选用一阶近似（FOMAML）[24]和近端战略优化（PPO）[25]完成。选用PPO算法是因为其裁剪机制能限制高方差回报下的单使命战略变动，而在线采样可减少内循环与外循环数据散布间的失配[25][26]。使命变量经过可再生能源出力曲线及电池储能体系的额定参数与功率表现。该战略选用当前丈量数据，并在根据学习的基线办法中可控信息模式下，优先使用短期猜测数据。研讨聚焦于日标准能量办理，选用聚合功率平衡模型与设备级可行性束缚。散布外评价使用实在外生时刻序列数据，这些数据在坚持相同可行性束缚调度环境的同时，改变了电价与净负荷。本文的立异点如下：

•
针对异构多微电网中电池储能体系和谐调度问题，提出一种布置导向的元强化学习办法框架，该办法经过可复用战略初始化完成布置后的少样本快速习惯，有效应对站点间异质性与站点内时序非平稳性。
•
规划根据物理参数的多使命练习课程，经过体系化调整电池储能体系额定容量、充放电功率、可再生能源发电模式、负荷曲线及电价波动等参数构建使命变体，使战略充分触摸与布置场景相关的动态变化，从而在非结构化范畴随机化基础上完成更高效的快速习惯能力。
•
一项试验计划，在散布内组成使命中将所提办法与PPO及根据优化的基线办法进行比照测试，并在散布外评价中与PPO、MPC及根据规则的控制器进行比照，同时对布置相关偏移下的零样本搬迁和小样本习惯能力开展限制级分析。

上一篇：具有双模式储能功能的三网络共晶水合盐凝胶用于增强锂离子电池热管理及热失控抑制
下一篇：通过混合智能技术与双向功率转换提升光伏-电池储能系统在干旱气候下的性能

美国ROADHAWK蓄电池

首页 > 新闻资讯

用于多微电网电池储能系统自适应控制的元强化学习方法

认证

可持续发展

请与我们联系