针对城市道路场景下端到端自动驾驶决策中前瞻性不足、复杂交互环境下安全性与通行效率难以兼顾等问题,本文提出了一种考虑未来交互的端到端强化学习决策方法:首先,将城市道路驾驶任务建模为马尔可夫决策过程,并采用软演员-评论家算法构建连续控制决策框架;其次,将鸟瞰语义分割图、自车运动学信息、参考路径点以及周围车辆未来预测轨迹共同作为状态输入,提升模型对动态交通环境的时序理解能力;进一步地,在奖励函数中引入基于预测结果的安全奖励,引导智能体提前感知潜在风险并实施主动避碰,并针对多源异构输入,设计多输入特征提取与融合网络,实现图像信息与向量信息的联合表征;最后,基于CARLA仿真平台开展对比实验与消融实验。结果表明,本文所提轨迹预测引导软演员-评论家模型在成功率、碰撞率、平均奖励和平均速度等指标上均优于对比模型,能够在复杂城市交通场景中实现更安全、更稳定且更高效的自动驾驶决策。