Scalable reinforcement learning approaches for dynamic pricing in ride-hailing systems

动态定价 强化学习 马尔可夫决策过程 计算机科学 可扩展性 马尔可夫过程 数学优化 利润(经济学) 收益管理 增强学习 运筹学 人工智能 微观经济学 经济 工程类 数学 收入 会计 数据库 统计
作者
Zengxiang Lei,Satish V. Ukkusuri
出处
期刊:Transportation Research Part B-methodological [Elsevier]
卷期号:178: 102848-102848 被引量:6
标识
DOI:10.1016/j.trb.2023.102848
摘要

Dynamic pricing is a widely applied strategy by ride-hailing companies, such as Uber and Lyft, to match the trip demand with the availability of drivers. Deciding proper pricing policies is challenging and existing reinforcement learning (RL)-based solutions are restricted in solving small-scale problems. In this study, we contribute to RL-based approaches that can address the dynamic pricing problem in real-world-scale ride-hailing systems. We first characterize the dynamic pricing problem with a clear distinction between historical prices and current prices. We then translate our dynamic pricing problem into Markov Decision Process (MDP) and prove the existence of a deterministic stationary optimal policy. Our solutions are based on an off-policy reinforcement learning algorithm called twin-delayed deep determinant policy gradient (TD3) that performs offline learning of the optimal pricing policy using historical data and applies the learned policy to the next time slot, e.g., one week. We enhance TD3 by creating three mechanisms to reduce our model complexity and enhance training effectiveness. Extensive numerical experiments are conducted on both small grid networks (16 zones) and the NYC network (242 zones) to demonstrate the performance of the proposed algorithm. The results show our algorithm can efficiently find the optimal pricing policy for both the small and large networks, and can significantly enhance the platform profit and service efficiency.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
wujiwuhui完成签到 ,获得积分10
刚刚
杨永佳666完成签到 ,获得积分10
2秒前
9秒前
要笑cc完成签到,获得积分10
17秒前
DaSheng完成签到,获得积分10
17秒前
宣宣宣0733完成签到,获得积分10
19秒前
胡质斌完成签到,获得积分10
21秒前
沉沉完成签到 ,获得积分0
24秒前
LANER完成签到 ,获得积分10
24秒前
coolplex完成签到 ,获得积分10
28秒前
652183758完成签到 ,获得积分10
34秒前
范白容完成签到 ,获得积分10
40秒前
baitaowl完成签到 ,获得积分10
42秒前
qiancib202完成签到,获得积分10
43秒前
深情安青应助DrleedsG采纳,获得10
53秒前
t铁核桃1985完成签到 ,获得积分10
57秒前
马大翔完成签到,获得积分0
1分钟前
六一儿童节完成签到 ,获得积分10
1分钟前
btcat完成签到,获得积分10
1分钟前
Pauline完成签到 ,获得积分10
1分钟前
草莓熊1215完成签到 ,获得积分10
1分钟前
1111完成签到,获得积分10
1分钟前
泡泡茶壶o完成签到 ,获得积分10
1分钟前
clare完成签到 ,获得积分10
1分钟前
1分钟前
竺兰舞发布了新的文献求助10
1分钟前
DrleedsG发布了新的文献求助10
1分钟前
甜甜圈完成签到 ,获得积分10
2分钟前
竺兰舞完成签到,获得积分20
2分钟前
00完成签到 ,获得积分10
2分钟前
ght完成签到 ,获得积分10
2分钟前
cq_2完成签到,获得积分10
2分钟前
慕青应助科研通管家采纳,获得10
2分钟前
权小夏完成签到 ,获得积分10
2分钟前
南风完成签到 ,获得积分10
2分钟前
情怀应助咿呀咿呀采纳,获得10
2分钟前
枫威完成签到 ,获得积分10
2分钟前
2分钟前
柒八染完成签到 ,获得积分10
2分钟前
咿呀咿呀发布了新的文献求助10
2分钟前
高分求助中
Solution Manual for Strategic Compensation A Human Resource Management Approach 1200
Natural History of Mantodea 螳螂的自然史 1000
Glucuronolactone Market Outlook Report: Industry Size, Competition, Trends and Growth Opportunities by Region, YoY Forecasts from 2024 to 2031 800
A Photographic Guide to Mantis of China 常见螳螂野外识别手册 800
Autoregulatory progressive resistance exercise: linear versus a velocity-based flexible model 500
The analysis and solution of partial differential equations 400
Sociocultural theory and the teaching of second languages 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3339051
求助须知:如何正确求助?哪些是违规求助? 2967054
关于积分的说明 8627952
捐赠科研通 2646523
什么是DOI,文献DOI怎么找? 1449277
科研通“疑难数据库(出版商)”最低求助积分说明 671343
邀请新用户注册赠送积分活动 660176