一、數(shù)據(jù)挖掘從入門到進階,要看什么書
數(shù)據(jù)挖掘入門的書籍,中文的大體有這些:
Jiawei Han的《數(shù)據(jù)挖掘概念與技術》
Ian H. Witten / Eibe Frank的《數(shù)據(jù)挖掘 實用機器學習技術》
Tom Mitchell的《機器學習》
TOBY SEGARAN的《集體智慧編程》
Anand Rajaraman的《大數(shù)據(jù)》
Pang-Ning Tan的《數(shù)據(jù)挖掘導論》
Matthew A. Russell的《社交網站的數(shù)據(jù)挖掘與分析》
很多人的第一本數(shù)據(jù)挖掘書都是Jiawei Han的《數(shù)據(jù)挖掘概念與技術》,這本書也是我們組老板推薦的入門書(我個人覺得他之所以推薦是因為Han是他的老師)。
其實我個人來說并不是很推薦把這本書。這本書什么都講了,甚至很多書少有涉及的一些點比如OLAP的方面都有涉獵。
但是其實這本書對于初學者不是那么友好的,給人一種教科書的感覺,如果你有大毅力讀完這本書,也只能獲得一些零碎的概念的認識,很難上手實際的項目。
二、在數(shù)據(jù)分析,挖掘方面,有哪些好書值得推薦
深入淺出數(shù)據(jù)分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最后談到了R是大加分。難易程度:非常易。
啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。
數(shù)據(jù)之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數(shù)據(jù)分析的應用領域和做法非常有幫助。難易程度:易。
數(shù)學之美 (豆瓣) 這本書非常棒啦,入門讀起來很不錯!
數(shù)據(jù)分析:
SciPy and NumPy (豆瓣) 這本書可以歸類為數(shù)據(jù)分析書吧,因為numpy和scipy真的是非常強大啊。
Python for Data Analysis (豆瓣) 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!
Bad Data Handbook (豆瓣) 很好玩的書,作者的角度很不同。
適合入門的教程:
集體智慧編程 (豆瓣) 學習數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數(shù)據(jù)挖掘中的算法,淺顯易懂,還有可執(zhí)行的Python代碼。難易程度:中。
Machine Learning in Action (豆瓣) 用人話把復雜難懂的機器學習算法解釋清楚了,其中有零星的數(shù)學公式,但是是以解釋清楚為目的的。而且有Python代碼,大贊!目前中科院的王斌老師(微博:王斌_ICTIR)已經翻譯這本書了 機器學習實戰(zhàn) (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我?guī)У难芯可腴T必看數(shù)目之一!
Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,但是由于寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。
數(shù)據(jù)挖掘導論 (豆瓣) 最近幾年數(shù)據(jù)挖掘教材中比較好的一本書,被美國諸多大學的數(shù)據(jù)挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對于初學者來說不太容易讀懂。難易程度:中上。
Machine Learning for Hackers (豆瓣) 也是通過實例講解機器學習算法,用R實現(xiàn)的,可以一邊學習機器學習一邊學習R。
三、淺析:數(shù)據(jù)挖掘從入門到進階 要看什么書
搜一下:淺析:數(shù)據(jù)挖掘從入門到進階 要看什么書