【背景】
利用kettle工具,完成某表的增量工作。
【解決】
利用模塊完成便可,以下簡圖:
【實驗】
先手工準備1個實驗環(huán)境:
準備基本完成以下效果:
select t.*, t.rowid from EMP_ETL t
select max(hiredate) maxsj from EMP_ETL
我們驗證將2015年10月22日的數(shù)據(jù)插入目標表中。
創(chuàng)建目標表:
create table EMP_ETL_1 as select * from EMP_ETL t where 1=2;
此時EMP_ETL_1數(shù)據(jù)為空,我們只插入hiredate 為2015/10/22的數(shù)據(jù)。
可以看到有兩條數(shù)據(jù)符合這個條件,以下圖所示:
編寫時間戳ktr轉(zhuǎn)換進程,把原表中最大的hiredate作為變量,以下圖:
下面在“表輸入”環(huán)節(jié)中,使用傳遞過來的${MAXSJ}作為條件,完成向目標表插入數(shù)據(jù),扼要流程以下:
履行轉(zhuǎn)換,完成數(shù)據(jù)插入,簡圖以下:
補充:這只是1個簡單的舉例,對使用時間戳的方式來完成增量時,這個實驗中的方法如果每次都是全表max,當數(shù)據(jù)量特別大時,效力將大打折扣。而此時,我們就需要添加1個時間戳記錄表,另添加1個時間戳字段,每次抽取結(jié)束后,將每次抽取后最晚1條記錄的時間戳時間記錄到時間戳表中,然后每次查詢出發(fā)點時間時只需要從時間戳表中提取便可。
小知識,簡而記之。
藍的成長記系列_20151022
原創(chuàng)作品,出自 “深藍的blog” 博客,歡迎轉(zhuǎn)載,轉(zhuǎn)載時請務必注明出處(http://blog.csdn.net/huangyanlong)。
藍的成長記――追逐DBA(1):奔走于路上,挺進山東
藍的成長記――追逐DBA(2):安裝!安裝!久背的記憶,引發(fā)我對DBA的重新認知
藍的成長記――追逐DBA(3):古董上操作,數(shù)據(jù)導入導出成了問題
藍的成長記――追逐DBA(4):追思少年情愁,再探oracle安裝
藍的成長記――追逐DBA(5):不談技術(shù)談業(yè)務,惱人的利用系統(tǒng)
藍的成長記――追逐DBA(6):做事與做人:小技術(shù),大為人
藍的成長記――追逐DBA(7):基礎(chǔ)命令,地基之石
藍的成長記――追逐DBA(8):重拾SP報告,回想oracle的STATSPACK實驗
藍的成長記――追逐DBA(9):國慶漸去,追逐DBA,新計劃,新出發(fā)
藍的成長記――追逐DBA(10):飛刀防身,熟絡而非專長:玩弄中間件Websphere
藍的成長記――追逐DBA(11):回家后的安逸,暈暈乎乎醒了過來
藍的成長記――追逐DBA(12):7天7收獲的SQL
藍的成長記――追逐DBA(13):調(diào)和硬件廠商,6個故事:所見所感的“服務器、存儲、交換機……”
藍的成長記――追逐DBA(14):難忘的“云”端,起步的hadoop部署
藍的成長記――追逐DBA(15):以為FTP很“簡單”,誰成想1波3折
藍的成長記――追逐DBA(16):DBA也飲酒,被捭闔了
藍的成長記――追逐DBA(17):是分享,還是消費,在后IOE時期學會成長
藍的成長記――追逐DBA(18):小機上WAS集群故障,由1次更換IP引發(fā)
藍的成長記――追逐DBA(19):路上的插曲:觸碰“框架”與“軟件系統(tǒng)”
藍的成長記――追逐DBA(20):何故緣起,建庫護航
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。