挤公交忘穿内裤被挺进,國產日韓亞洲精品AV,午夜漫画,china中国gary廖男男

機器學習中的數據預處理有哪些常見/重要的工具

不太清楚你說的是搭建pipeline的工具還是說pipeline里面處理數據的工具,就順道都說一下。

1. pipeline工具本身一般是控制這些工具的流程,最簡單的crontab就定時執行就好,但是有時候會有數據依賴的問題,比如第7步依賴第三步的兩個文件以及平行的第6步的文件,這個依賴并不是線性的,而是一個圖的形式。當中加上有些技術延遲比如有些數據生成失敗了需要重啟某些特定的步驟重新生成,這個問題就稍微復雜了。crontab一般在這時候就搞不定,需要一些專門的pipeline管理,比如 spotify/luigi · GitHub 或者 Azkaban

2. 預處理文本數據本身一般用一些Linux的工具比如cut啊awk啊等等做數據篩選和清理,自己寫一寫python小工具做數據的簡單組合比如復雜的regex規則組合,比較大的數據歸類和抽象一般用Hive之類的hadoop工具都可以,里面也可以插入linux小工具和自己寫的工具。

工業界的數據項目多數時間要設計如何清理數據,這和學術界的玩具數據玩起來很不一樣,歡迎來到真實的世界。-ITjob

主站蜘蛛池模板: 浙江省| 祁东县| 绥滨县| 新源县| 周至县| 明溪县| 福鼎市| 桂东县| 和静县| 乌什县| 新巴尔虎右旗| 当雄县| 镇康县| 井陉县| 南京市| 霍林郭勒市| 确山县| 江达县| 沙坪坝区| 剑河县| 桐柏县| 建宁县| 察哈| 迁安市| 马山县| 威海市| 乐亭县| 揭阳市| 陆川县| 潜山县| 白沙| 桂平市| 凤城市| 黄骅市| 南溪县| 松溪县| 东乌| 莱西市| 张掖市| 缙云县| 绥中县|