去重
簡介
功能簡介
資料工廠的去重節點可以對資料表中的重複資料進行刪除,僅保留一條資料參與資料計算。
一個資料工廠資料流最多可使用十個去重節點進行去重計算。
使用場景
- 當資料源含子表資料時,主表資料在資料流中就會被重複記錄,若想準確地統計主表資料,可以透過去重節點刪除重複資料行再計算。
- 因爲業務需要,導致同一份資料需要維護多份。如,同一客戶資料,可能存在多條,在統計客戶資料時如果不去重處理就會導致重複計算。
預期效果
當需要對訂單金額進行統計而表單中含有子表單時,主表資料中的總金額就會被重複記錄,透過「去重」節點,按照訂單編號進行去重處理,即可得到每條訂單對應的唯一一條總金額資料,多餘的資料則自動刪除。如下圖所示:
設定步驟
新建資料流
在應用管理後台的資料工廠處,點擊「新建資料流」。如下圖所示:
選擇資料源
點擊輸入節點,選擇需要進行去重統計的資料源表單及具體需要參與分析的欄位:
資料去重
1. 新增去重節點
從左側的資料處理節點選擇「去重」節點新增至設計面板中,將選擇的資料源表單連向「去重」節點。如下圖所示:
2. 設定去重欄位
新增去重欄位,去重欄位即去重的依據,支援新增多個去重欄位。多個去重欄位的關係爲「且」,即必須同時滿足多個欄位完全重複方進行去重處理。
例如,根據訂單編號去重,相同訂單編號的資料僅保留一條,便於後續對訂單總金額進行計算。
效果演示
可以看到原本五條資料,根據訂單編號去掉重複資料後,僅剩兩條資料。
注意事項
1. 去重節點隨機保留一條資料參與計算。
2. 若在已進行去重操作的資料中加入新資料,保留的資料可能發生改變。