1 引言
随着传感器技术、人工智能与智能控制的快速发展,自动驾驶已成为多学科交叉融合的研究热点[1]。在复杂城市交通场景中, 自动驾驶车辆不仅需要准确感知周围环境,还需要在多主体强交互、交通规则约束以及动态不确定性并存的条件下,实现安全、平稳且高效的自主决策[2]。自动驾驶系统设计分为两类, 一类是传统的模块化设计, 一类则是最近兴起的端到端设计[3]。端到端自动驾驶方法通过构建从环境观测到控制输出的统一映射模型,能够在整体目标驱动下实现感知与决策控制的协同优化,因此已成为自动驾驶研究的重要发展方向[4]。
传统的研究在很大程度上遵循模块化的管道体系结构,其中感知、预测、计划和控制被分离到不同的子系统 [4]。但是由于各模块之间的优化目标不同,检测追求的是平均精度,而规划的目标是驾驶安全性和舒适性,因此整个系统可能不会与统一的目标保持一致, 即最终的控制任务。随着顺序过程的进行, 每个模块的错误可能会加剧并导致信息丢失[5]。因此,端到端方法得到了越来越多的应用,端到端自动驾驶系统定义为完全可微分的程序, 将原始传感器数据作为输入, 并产生低级控制动作作为输出, 其主要使用的方法仍然是基于数据驱动的模仿学习或者强化学习[6]。
赵祥模等提出了基于时空卷积的端到端自动驾驶行为决策模型,将RGB图像、深度图像和车辆历史运动状态序列作为多模态输入, 并结合时空卷积结构提升端到端驾驶行为决策精度[7]。郭应时等提出了基于注意力机制的多模态自动驾驶行为决策模型, 针对端到端自动驾驶中不同区域重要性和不同语义类别关系建模不足的问题, 引入注意力机制以增强关键场景信息表征能力[8]。吕宜生等提出了融合时空特征的端到端自动驾驶车辆转向角预测模型Two-Stream C-GRU,通过融合RGB图像、光流图像与门控循环单元信息, 实现了面向连续控制输出的端到端转向角预测[9]。
然而,现有端到端自动驾驶方法在城市道路场景中的应用仍面临若干挑战[10]。单纯依赖当前时刻观测信息的决策模型, 往往难以充分刻画周围交通参与者未来行为的演化趋势, 导致模型在交叉口、汇入汇出及高密度混行场景下缺乏足够的前瞻性,难以及时识别潜在冲突并进行主动规避[11]。基于上述分析, 本文基于轨迹预测, 将未来信息引入强化学习的状态表示与奖励函数设计中, 以提升模型对周围交通参与者未来运动趋势的感知能力和风险判断能力,并依托CARLA仿真平台开展对比实验与消融实验, 对所提方法的有效性、鲁棒性和安全性进行验证。
2 理论基础
2.1 问题描述
本文将自动驾驶任务形式化为马尔可夫决策过程[12] ,记为M = (ss,CA,p, r, n)。在离散时间步t,智能体(自车)从环境感知得到状态表征st
s,并依据策略
(at
st)选择动作at e CA。环境在执行动作后发生状态转移st+
P( ·
st, at),并返回即时奖励rt = r(st, at)。模型的优化目标是求解最优策略,使得期望累积折扣回报最大化,如式(1)所示:

2.2 控制算法
本文选择在连续控制场景表现较为优秀的深度强化学习算法软演员-评论家(Soft Actor-Critic, SAC)作为核心。 SAC是一种面向连续动作控制任务的离策略深度强化学习方法,其核心思想是在累计回报最大化的基础上引入策略熵项,使智能体在学习高收益策略的同时保持适度探索能力[13]。基于最大熵强化学习思想, SAC的优化目标可表示为式(2):

式中, y为折扣因子, r(st , at)为时刻t的即时奖励, 为熵权重系数, H(n ( · Ist))表示状态st下策略的熵。该目标表明, SAC不仅鼓励智能体选择具有较高回报的动作,而且鼓励其保留一定的动作随机性,以增强对复杂环境的探索能力。
在网络结构上, SAC通常采用双评论家网络与单演员网络的结构。其中,评论家网络用于估计状态-动作值函数, 演员网络用于输出随机策略。为减弱值函数估计中的高估偏差, SAC在目标值计算时采用两个评论家网络输出的较小值,其目标值可表示为式(3):
(3)
其中,Qi表示目标评论家网络, s '和a '分别表示下一时刻状态与动作。在此基础上,评论家网络通过最小化当前估计值与目标值之间的误差进行更新,其损失函数为式(4):
(4)
其中,表示经验回放池。与此同时,演员网络依据当前评论家网络对动作价值的评估结果进行更新,其目标是在提高动作价值的同时保持适度探索性,对应优化目标为式(5):

由式(5)可知, 演员网络更新的本质是在价值提升与策略熵之间进行权衡,使策略在连续动作空间中能够兼顾收益性与探索性。
2.3 控制系统建模
在自动驾驶控制系统的研究中,车辆与环境交互的真实性取决于底层物理模型的保真度,而控制算法的有效性则依赖于状态空间的合理抽象与控制信号的精确映射[14]。本系统在底层仿真与上层控制之间建立了严密的动力学层级架构,具体如图1所示。
车辆控制信号的计算是在车体坐标系下进行的。此外,为真实还原车辆的物理表现,底层仿真环境采用高保真度的物理引擎对每辆车执行全量刚体动力学仿真。其核心控制方程基于三维空间下的Newton-Euler方程组,如式(6)所示:

式中, m为车辆质量, p为质心位置, I为转动惯量张量,w· 为角速度。在受力分析中, Ftire代表基于魔术公式等复杂轮胎模型计算出的侧向力,而其他三项则分别代表驱动力、制动力、空气阻力以及相应的力矩。

图1 车辆动力学架构与控制信号转换
在每个仿真步长内,物理引擎会自动对上述方程组进行积分,输出车辆真实的瞬时速度vt、角速度wt以及更新后的空间位姿(pt , Rt)。在本研究中,系统不对上述复杂的物理过程进行任何人为简化或替代,而是将其视为一个整体的动力学系统,强化学习策略网络仅通过标准化的接口与该系统进行交互,从而最大限度保证了训练环境的物理真实性。
从上层策略控制的视角来看, 复杂的刚体车辆被抽象为一个受控的离散时间动力学系统,如式(7)所示:

其中,状态向量t = [px , py . V , V T分别表示世界坐标系下的位置、航向角与速度;连续控制输入向量为ult = [6t,Tit]T。为使策略网络的归一化输出适配底层物理接口,系统对控制信号进行了以下映射与处理:
横向控制与平滑:归一化方向盘转角6t e [ - 1 , 1]会结合车辆设定的最大物理转角6max,线性缩放为前轮的实际转角wheel。为抑制策略网络输出的高频抖动,避免执行机构产生突变,系统对转向信号引入了一阶低通滤波(指数移动平均),如式(8)所示:

式中,tra"为原始输出指令,ae[0 , 1]为平滑系数。越大则信号越平滑,但响应延迟也随之增加。纵向控制分支映 射:综合加减速指令Tt E [ - 1 , 1]通过分支映射转化为独立的驱动与制动信号。当Tt ≥ 0时,直接映射为油门开度;当Tt < 0时,切断动力,并将其绝对值映射为刹车力度。此外,接口还保留了手刹与倒挡等离散布尔型信号,以支持车辆的完整机动能力。
为保证训练数据的时序一致性, 避免异步渲染导致观测与动作时序错位,整个系统运行在固定时间步长的同步模式下。系统严格控制调用顺序,确保控制指令下发后立即进 一 步刚体物理积分 ,从而保证指令在当前物理步内即时生效。尽管底层执行了全量动力学仿真,但在上层的路径点追踪与奖励计算模块中,为了提升运算效率并简化几何约束,系统采用自行车运动学模型(Bicycle Kinematic Model) [15]对车辆状态进行近似表达(如图1所示),公式如式(9)~(12)所示:

式中,为车辆轴距。在实际的状态信息解算层面,系统进行了针对性的优化以弥合运动学近似与 实际动力学之间的差异。车辆的标量速度v_t直接由底层三维速度向量的模长计算得出,如式(13)所示:

3 具体模型
强化学习作为一种数据驱动的序贯决策方法,能够通过与仿真环境的持续交互学习由场景状态到驾驶动作的端到端映射关系, 并在一定程度上隐式反映对未来收益的评估。然而,在强交互场景下,仅依赖策略网络对未来信息进行表征往往存在不稳定性, 且会进一步增加策略训练难度。基于此,本节在强化学习框架中引入周围车辆未来轨迹预测信息,使智能体不仅能够感知当前场景中的车辆状态,还能够理解其短时运动趋势,从而实现更具预见性的主动决策。具体模型设计如图2所示。

图2 模型设计与训练流程
模型动作空间设计沿用上节设定,以油门和方向盘作为底层控制量,平滑系数取0.75。整体架构主要包括感知与状态编码以及策略与价值网络两部分:首先,在感知与状态编码阶段, 将仿真器提供的多源原始信息, 包括鸟瞰语义分割图、车辆运动学状态和路网规划路点等, 与轨迹预测模块输出的周围车辆未来轨迹进行统一编码,形成结构化状态向量,作为策略网络输入;随后,在策略与价值网络中, SAC的网均采用多输入特征提取结构, 其中对鸟瞰语义分割图等图像类观测利用卷积神经网络提取空间特征,对车辆状态、路点坐标及预测轨迹特征等向量类观测通过多层感知机进行编码, 最终将各类子特征在特征维度上拼接后输入共享的两层全连接网络, 以完成策略生成与价值评估。
3.1 多输入特征提取网络
由于状态空间包含异构模态的信息,即图像型(鸟瞰语义分割图)和向量型(车辆运动学量、路点坐标、预测轨迹特征等),本文设计了一个自定义多输入特征提取器以适配SAC模型的接口。

图3 图像特征提取网络
对于鸟瞰语义分割图(192×192×6通道),使用一个6层卷积神经网络进行空间特征提取,其结构如图3所示,最终将空间特征压缩为256维向量。对于其余向量型观测(车辆测量值、路点序列等), 直接展平后保留原始维度。所有子特征在特征维度拼接后,其总维度作为后续网络的输入维度。
3.2 状态空间设计
本文的核心创新之 一 是训练 一 个轨迹预测模块,并将其输出作为状态空间的显式扩展,使算法从被动感知升级为预见性感知。具体而言,轨迹预测模型选用单层门控神经网络(Gated Recurrent Unit, GRU)。此外, 算法的状态空间为一个多键字典结构stim , st m , st”p, stpred},各分量的定义
如下:
(1)鸟瞰语义分割图stimg e R192x192 6
以自车为中心的鸟瞰视角(Bird's-Eye View, BEV)语义分割图像,分辨率为192×192,包含6个语义通道。不同通道分别编码道路区域、车道标线、交通参与者、可行驶区域等空间语义信息。BEV表示相较于透视图像具有天然的尺度不变性, 能够为策略网络提供结构化的空间布局先验。
(2)车辆运动学测量向量svm
R4编码自车当前时刻的运动学状态,包含四个分量,如式(14)所示:

其中steert E [ - 1 , 1]为当前方向盘转角,throttle t e [o , 1]为 油 门 开 度 , vt [0 , 120] km/h为当前车速, t”p e [ - T , n]为车头朝向与下一个参考路点方向之间的夹角。
(3)参考路点序列s”p e R15x2
从全局路径规划模块提取的未来15个参考路 点 在 自 车 坐 标 系 下 的 相 对 坐 标 (xriel , yriel),i = 1 , 2 , … , 15。坐标转换过程参考2 .2 .3 所述,将全局坐标系下的路点位置变换至车体局部坐标系。该序列描述了自车应当遵循的近期行驶路径, 是路径跟踪行为的核心引导信号。
当剩余全局路点不足15个时, 采用末端方向外推策略进行填充: 以最后两个已知路点的方向向量为参考, 等间距地向前延伸直至补齐15个路点, 确保状态维度恒定。
(4) 预测轨迹特征stpred—基于轨迹预测的状态扩展
这是本文相较于传统方法的关键扩展。利用轨迹预测模块, 以交通参与者的历史轨迹为输入, 对检测范围(15m)内最多5个最近的周车分别输出其未来Tpred步的预测位置序列。本文将这些预测信息以两种互补的方式融入状态空间:
具体而言,将每辆周车的预测轨迹点poi bs = (Ri ,rJi r) ( i为障碍物索引,t = 1 , Tpred为预测时域)变换至自车坐标系后,按照与自车参考路点相同的编码方式进行表示, 并与自车的路点序列在通道维度拼接。这一设计使得策略网络能够在统一的空间参考系下同时感知到自己应该去的地方和周车即将去的地方, 从而建立起路径层面的冲突预判能力。
综上,本文的状态空间设计不仅使模型能通过BEV来感知周围智能体的状态,还通过将轨迹预测信息显式编码为算法的可观测量, 突破了传统方法仅依赖当前帧信息的局限性。这一设计使RL策略获得了时间维度上的预见性,能够在危险尚未实际发生时便提前规划安全的驾驶行为。
3.3 奖励函数设计
奖励函数是强化学习的核心塑形信号,决定了算法的行为偏好和学习方向。本文的奖励函数设计遵循三个原则:(1)各分量在每步均产生有效梯度信号, 避免稀疏奖励导致的学习困难;(2)逐步奖励与终止奖励在数量级上可比,防止算法过度追求短期利益或过度规避终止惩罚;(3)使用平滑连续函数替代阶跃式惩罚,便于Critic网络拟合。
(1)速度跟踪奖励r speed。采用高斯型速度奖励函数,峰值位于目标巡航速度vtarget处,如式(15)所示:

其中vt为当前车速 (m / s ) , vtarget =25/3 . 6 x 6 . 94m/s, Ov = 3 . 0 m/s为容忍宽度参数。相较于分段线性函数,高斯型奖励在目标速度附近提供了更平滑的梯度,有助于精细的速度调节。当车速偏离目标越远,r speed越接近0。
(2) 车道居中奖励r center。鼓励自车保持在车道中心行驶,如式(16)所示:

其中d center为自车到车道中心线的横向偏移距离,dmax = 2 . 0 m为允许的最大偏移。当自车完全居中时r center = 1,偏移达到上限时r center = 0。
(3) 转向平滑惩罚r steer。以二次型惩罚抑制大幅转向,引导平顺驾驶,如式(17)所示:

其中6t e [ - 1 , 1]为当前方向盘转角。
(4)速度门控机制。为防止Agent通过停在原地来回避碰撞风险(“消极安全”策略),引入速度门控因子,如式(18)所示:

当车速低于1m/s时门控因子线性衰减至0,使所有正向奖励失效;配合奖励基线b=1.0的减除,停车状态实际获得负奖励,迫使智能体保持合理速度。
在上述基础奖励之上,本文的核心改进在于利用轨迹预测结果构建前瞻性的安全奖励信号。本文提出的预测安全奖励rpred safety则在碰撞尚未发生时就向智能体传递风险信号 , 相当于让智能体在碰撞还没发生时就收到负面提示。具体而言,利用轨迹预测模块输出的各周车未来Tpred步位置序列,计算自车与每辆周车在每个预测时刻的最小距离,如式(19)所示:

其中N为检测范围内的周车数量, pego (T)和p i bs (r)分别为自车和第i辆周车在预测时刻的位置,dsafe为安全距离阈值, a为惩罚系数。该指示函数在任何一个预测时刻的距离低于安全阈值时即激活惩罚,使智能体提前感知到潜在的碰撞事件。除逐步奖励外,在碰撞或出现时提前终止并施加终止惩罚,具体的量为-10。而当智能体成功完成完整路线时,获得成功奖励r success = + 10。
4 实验结果
4.1 对比模型
为全面评估所提方法, 本文将改进后的软演员-评论家算法命名为轨迹预测引导软演员-评论家(Trajectory-Prediction-guided Soft Actor- Critic, TP-SAC),并将其与若干基线模型进行对比。同时,为进一步分析各组成模块的作用,本文还设置了相应的消融实验,具体对比模型如下:
近端策略优化(Proximal Policy Optimization, P PO):经典策略优化方法,用作通用端到端驾驶基线模型;深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG):面向连续动作空间的经典演员-评论家方法;SAC-1:在基础软演员-评论家(Soft Actor-Critic, SAC)框架下去除状态空间中的预测轨迹特征,用于验证预测增强状态表征的作用;SAC-2:保留预测增强状态空间,但去除基于预测结果构建的安全奖励项,用于分析前瞻性奖励塑形的贡献;SAC-3: 同时去除预测轨迹特征与预测安全奖励项,可视为接近原始SAC的对照模型,用于衡量轨迹预测引导机制带来的总体性能增益。
为全面评估所提模型在城市交通场景中的决策性能,本文选取评价指标分别为成功率、碰撞率、平均奖励和平均速度。其中,成功率用于衡量模型完成驾驶任务的能力;碰撞率用于表征模型在复杂交通交互中的安全性;平均奖励用于综合反映策略在奖励函数约束下的整体表现;平均速度用于评价模型的通行效率。上述指标能够从安全、效率等角度较为全面地刻画不同模型的综合性能。
4.2 训练对比
本节选择CARLA进行仿真,使用其内置的Town03地图作为主要实验场景 [16]。Town03是一个方格状城市布局的中等规模地图,包含多车道道路、十字路口、T型路口等多种典型城市道路结构,能够为智能体提供充分多样的交通场景。本节的训练与评估均基于固定的路线任务。每条路线由一对起点-终点的出生点索引定义, 训练阶段使用12条预定义的交叉口路线,以交替循环方式选取。 CARLA通过全局路径规划器基于A*算法自动生成从起点到终点的全局参考路径,路径分辨率为1m点(即每米生成一个参考路点),如图4所示。

图4 Town03城镇
为模拟真实城市交通环境, 实验中采用CARLA的Traffic Manager模块生成背景交通流。参数设置方面,全局跟车距离设为2.5m,启用混合物理模式, 在自车周围50m范围内进行完整物理模拟,范围外车辆采用简化运动学模型,以兼顾仿真真实性与计算效率;同时,将所有交通信号灯统一设为常绿状态,以消除信号控制对强化学习训练的额外干扰,使实验聚焦于车车交互决策。训练阶段默认设置40辆背景车,并在每个回合开始时重新随机生成,以增强场景随机性并避免模型对特定交通配置过拟合。训练总步数设为500000步,在15FPS仿真帧率下约对应18.5h的仿真驾驶时间;训练过程中每10000步保存一次模型,共保存100个检查点, 同时记录奖励、回合回报和损失等关键训练信息。

图5 测试过程中的指标、轨迹和数据变化
从图5可以看出,本文提出的TP-SAC模型在整个训练过程中整体表现最优,在成功率、碰撞率、平均奖励和平均速度四项指标上均优于对比模型,体现出较强的综合决策能力与训练稳定性。具体来看,TP-SAC在训练早期即表现出更快的收敛速度和更高的成功率,说明其能够以更高的样本效率学习有效驾驶策略;同时,其碰撞率下降更快且最终保持在最低水平,表明引入轨迹预测信息后,模型能够更准确地预判周围车辆的运动趋势,从而提前做出规避决策。在平均奖励和平均速度方面, TP-SAC同样保持领先,说明该模型并非通过保守低速策略换取安全性,而是在安全性、任务完成能力与通行效率之间实现了更优平衡。
与基线模型相比, PPO和DDPG的整体表现均逊于TP-SAC,其中PPO的任务完成能力和综合收益较弱, DDPG则表现出更明显的训练波动,反映出其在复杂连续控制场景中的稳定性不足。消融实验进一步验证了轨迹预测信息的有效性:去除预测轨迹特征的SAC-1在成功率和平均奖励上均有所下降,碰撞率上升;保留预测状态但移除预测安全奖励项的SAC-2,整体性能虽有所保持, 但在安全性和综合收益上仍落后于TP-SAC;同时去除预测状态特征和预测安全奖励的SAC-3表现最差。上述结果表明,轨迹预测信息能够通过状态表征增强与奖励塑形协同作用,共同提升强化学习决策模型在城市交通场景中的安全性、效率性与稳定性。
4.3 模型测试
为系统地衡量各方法在驾驶安全性、任务完成能力和行驶质量等方面的表现,我们采用闭环测试范式进行评估,即由训练好的算法在CARLA仿真环境中直接驱动自车完成给定路线任务,全程不进行任何人工干预,具体结果如图6所示。

图6 测试过程中的指标,轨迹和数据变化
在安全性与任务完成方面,本节10回合评估中未发生碰撞,平均路线完成度为100%,表明所学策略能够在复杂城市路网中稳定完成中等距离驾驶任务。从轨迹结果可以看出,各回合车辆行驶轨迹均与预规划路线高度一致,自车能够沿道路平滑通过弯道路段,未出现偏离路面或在路口迷失等异常行为。同时,各回合累积奖励分布较为集中,说明模型在不同测试回合中具有较好的一致性与鲁棒性,整体表现出较强的安全性和任务执行能力。
在行驶质量方面,模型同样表现稳定。速度曲线表明,自车在短暂加速后能够较快收敛至目标速度附近,并在后续行驶过程中保持相对平稳,体现出较好的速度跟踪能力;车道中心偏差整体较小,说明模型具备较强的车道保持能力;航向误差在大多数时刻均维持在较小范围内,仅在弯道过渡阶段出现短时波动,随后能够迅速收敛,反映出较好的路径跟踪性能。与此同时,由于动作输出采用平滑处理,转向与油门控制信号整体变化连续,无明显高频振荡,说明策略在保证任务完成和安全性的同时,也具备较好的控制平顺性。
5 结论
本文围绕城市道路场景下的端到端自动驾驶决策问题展开研究。针对传统方法在复杂动态环境中对周围交通参与者未来行为刻画不足、决策前瞻性较弱,以及安全性与通行效率难以兼顾的问题,本文提出了一种融合轨迹预测信息的端到端强化学习决策方法:首先,将城市道路驾驶任务建模为马尔可夫决策过程,并采用适用于连续控制任务的SAC算法构建决策框架;其次,结合车辆动力学特性与控制映射关系,建立了由环境观测到控制输出的端到端决策流程。
在模型设计上,本文将鸟瞰语义分割图、自车运动学信息、参考路径点以及周围车辆未来预测轨迹共同作为状态输入,以增强模型对交通环境的时序理解能力;同时,在奖励函数中引入预测安全奖励,提升智能体对潜在风险的提前感知与主动避碰能力。针对多源异构输入,本文进一步设计了相应的特征提取与融合网络,以提高复杂场景信息表征能力。仿真与消融实验结果表明,所提方法能够在复杂城市交通场景下实现更安全、更稳定且更高效的自动驾驶决策,验证了将轨迹预测信息与安全约束机制引入端到端强化学习决策框架的有效性。
作者简介:
王伟强(2000-) ,男,山西长治人,本科,现为北方工业大学道路交通工程专业硕士研究生,研究方向为自动驾驶车辆轨迹预测与决策。
刘小明(1974-),男,河北唐山人,教授,博士生导师,现任教于北方工业大学,研究方向为智能交通系统。
杨尚将(2001-),男,河南信阳人,本科,现为北方工业大学道路交通工程专业硕士研究生,研究方向为智能交通系统与智能网联汽车。
杨玉齐(2001-),男,河南信阳人,本科,现为北方工业大学道路交通工程专业硕士研究生,研究方向为实时响应公交系统及模块化公交。
参考文献:
[1] 冯洋, 夏志龙, 郭安, 等. 自动驾驶软件测试技术研究综述[J]. 中国图象图形学报, 2021, 26 (01) : 13 - 27.
[2] 黄昭彦, 杨烁, 吴建华, 等. 基于信息融合的智能网联汽车安全交互决策[J]. 自动化学报, 2025, 51 (09) : 1883 - 1898.
[3] 褚端峰, 王如康, 王竞一, 等. 端到端自动驾驶的研究进展及挑战[J]. 中国公路学报, 2024, 37 (10) : 209 - 232.
[4] 陈妍妍, 田大新, 林椿眄, 等. 端到端自动驾驶系统研究综述[J]. 中国图象图形学报, 2024, 29 (11) : 3216 - 3237.
[5] 计洁, 牛润新, 余彪, 等. 端到端自动驾驶: 从技术演进到未来挑战[J]. 吉林大学学报(工学版), 2025 : 1 - 24.
[6] 孙剑, 黄䶮, 聂通, 等. 面向端到端自动驾驶的测试技术: 前沿与展望[J]. 中国公路学报, 2026 : 1 - 30.
[7] 赵祥模, 连心雨, 刘占文, 等. 基于MM-STConv的端到端自动驾驶行为决策模型[J]. 中国公路学报, 2020, 33 (03) : 170 - 183.
[8] 郭应时, 黄涛. 基于注意力机制的多模态自动驾驶行为决策模型[J]. 中国公路学报, 2022, 35 (09) : 141 - 156.
[9] 吕宜生, 刘雅慧, 陈圆圆, 等. 融合时空特征的端到端自动驾驶车辆转向角预测[J]. 中国公路学报, 2022, 35 (03) : 263 - 272.
[10] Chen X, Xu B, Hu M, et al. Safe efficient policy optimization algorithm for unsignalized intersection navigation[J]. IEEE/CAA Journal of Automatica Sinica, 2024, 11 (9) : 2011 - 2026.
[11] 马万经, 俞春辉. 智能网联混合交通流交叉口控制: 研究进展与前沿[J]. 中国公路学报, 2023, 36 (2) : 22 - 40.
[12] 胥杰馨, 柴俊霖, 董志明, 等. 基于深度强化学习的电动轮矿车制动能量控制研究[J]. 矿山机械, 2026, 54 (04) : 11 - 17.
[13] 张新纪, 赵佳君, 李涛. 基于改进SAC算法的气象无人机路径规划[J]. 自动化应用, 2026, 67 (06) : 14 - 19.
[14] 贾志龙, 霍婷婷. 基于车辆运动学的路径跟踪算法研究[J]. 内燃机与配件, 2025 (23) : 35 - 39.
[15] ZHANG J J, YE B L, WANG X, et al. A trajectory planning and tracking method based on deep hierarchical reinforcement learning[J]. Journal of Intelligent and Connected Vehicles, 2025, 8 (2) : 9210056 - 1 - 9210056 - 9.
[16] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: an open urban driving simulator[C]. Proceedings of the 1st Annual Conference on Robot Learning. PMLR, 2017, 78 : 1 - 16.
摘自《自动化博览》2026年4月刊






资讯频道