小白指南:Apache DolphinScheduler 補數據功能實(shí)操演示

最近使用 Apache DolphinScheduler 調度任務(wù),不可避免地使用到【補數據】功能,經(jīng)過(guò)不斷嘗試,終于成功運行了【補數據】功能,以此帖記錄。
- 版本說(shuō)明:3.1.9
補數據功能簡(jiǎn)介
"補數據" 在 Apache DolphinScheduler 中指的是 補數據(Complement Data) 功能,用于補充執行歷史時(shí)間段內的工作流實(shí)例。
補數據功能概述
補數據是工作流執行的一種特殊模式,讓用戶(hù)可以為過(guò)去的時(shí)間段批量創(chuàng )建和執行工作流實(shí)例。這在以下場(chǎng)景中特別有用:
- 需要重新處理歷史數據
- 系統故障后需要補充缺失的數據處理
- 新增數據處理邏輯后需要回填歷史數據
- 定期批量數據處理
補數據配置參數
在工作流啟動(dòng)界面中,補數據功能包含以下配置選項:
-
是否是補數據 (
whether_complement_data): 開(kāi)關(guān)選項,啟用補數據模式 -
調度日期 (
schedule_date): 指定需要補數據的時(shí)間范圍 :- 支持日期選擇和手動(dòng)輸入兩種方式
- 格式為
yyyy-MM-dd HH:mm:ss,多個(gè)日期用逗號分隔 - 限制最多輸入100條日期
-
執行方式 (
mode_of_execution):- 串行執行: 按順序逐個(gè)執行補數據任務(wù)
- 并行執行: 同時(shí)執行多個(gè)補數據任務(wù)
-
并行度 (
parallelism): 當選擇并行執行時(shí),可以設置自定義并行度來(lái)控制同時(shí)執行的任務(wù)數量- 這有助于避免大量補數據任務(wù)對服務(wù)器造成過(guò)大影響
-
執行順序 (
order_of_execution) :- 按日期升序執行: 從最早的日期開(kāi)始執行
- 按日期降序執行: 從最近的日期開(kāi)始執行
使用補數據功能操作步驟
首先是工作流的任務(wù)配置,見(jiàn)下圖

接著(zhù),保存工作流,未設置全局變量。上線(xiàn)工作流。
最后,運行工作流,運行參數見(jiàn)下圖

- 選擇補數據的日期范圍
- 【啟動(dòng)參數】為定義任務(wù)時(shí)設置的參數dt,value為空即可。
- 點(diǎn)擊【確定】后自動(dòng)運行
驗證結果
點(diǎn)擊【工作流實(shí)例】,查看運行結果。

點(diǎn)擊第1個(gè)實(shí)例進(jìn)入,查看日志

結果顯示,SQL 運行結果為補數據選擇的日期,補數據功能正??捎?。
Notes
補數據功能是 Apache DolphinScheduler 工作流管理中的重要特性,通過(guò)靈活的配置選項(執行方式、并行度、執行順序等)來(lái)滿(mǎn)足不同的數據補充需求。在使用時(shí)需要注意合理設置并行度,避免對系統資源造成過(guò)大壓力。
