不太清楚你說的是搭建pipeline的工具還是說pipeline里面處理數據的工具,就順道都說一下。
1. pipeline工具本身一般是控制這些工具的流程,最簡單的crontab就定時執行就好,但是有時候會有數據依賴的問題,比如第7步依賴第三步的兩個文件以及平行的第6步的文件,這個依賴并不是線性的,而是一個圖的形式。當中加上有些技術延遲比如有些數據生成失敗了需要重啟某些特定的步驟重新生成,這個問題就稍微復雜了。crontab一般在這時候就搞不定,需要一些專門的pipeline管理,比如 spotify/luigi · GitHub 或者 Azkaban
2. 預處理文本數據本身一般用一些Linux的工具比如cut啊awk啊等等做數據篩選和清理,自己寫一寫python小工具做數據的簡單組合比如復雜的regex規則組合,比較大的數據歸類和抽象一般用Hive之類的hadoop工具都可以,里面也可以插入linux小工具和自己寫的工具。
工業界的數據項目多數時間要設計如何清理數據,這和學術界的玩具數據玩起來很不一樣,歡迎來到真實的世界。-ITjob