人工智能基本概念
人工智能(AI)是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI用來生產出一種新的能以人類智能相似的方式做出反應的智能機器,領域包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。AI智能程度分為弱人工智能(ANI)、強人工智能(AGI)和超強人工智能(ASI)。弱人工智能專注于解決單個特定領域問題。強人工智能能夠勝任人類所有工作。而超強人工智能在科學創造力、智能和社交能力等各個方面都比最強人類大腦還要聰明。AI具有算力、算法、數據三大要素,基礎層提供算力支持,通用技術平臺解決算法問題,場景化應用挖掘數據價值。
機器學習是AI的子集
機器學習是人工智能的一個子集,AI還包括自然語言處理、語音識別等方面。機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等。機器學習研究計算機如何通過利用數據、訓練出模型、然后使用模型預測,以獲取新的知識或技能。機器學習于1959年提出,目標是通過算法使計算機在數據中學習,從而實現算法進化。
機器學習任務
機器學習任務主要包括監督學習、無監督學習、概率圖模型和強化學習。在監督學習中,訓練數據是有標簽的,旨在通過建立輸入變量和輸出變量之間的關系來預測輸出變量。無監督學習中,數據集沒有標簽,主要分為聚類和降維。概率圖模型以貝葉斯學派為主,強化學習讓模型以“試錯”的方式在環境中學習,目標是使得到的獎勵最大化。
有監督學習與無監督學習
有監督學習是從標記的訓練數據中推斷出函數,用于解決分類和回歸問題。有監督學習的模型旨在通過訓練數據中的標簽來預測未知標簽。無監督學習從未標記的訓練數據中解決模式識別問題,主要用于聚類,如K-means算法,通過將樣本劃分為k個方差齊次的類來實現數據聚類。
機器學習操作流程
機器學習操作包括數據獲取、數據處理、模型選擇、模型訓練、模型評估、模型調參和模型預測。數據獲取時,要確保數據質量高、缺失值少。數據處理時,進行數據清洗,將非標準化數據轉為標準化格式。模型選擇時,匹配數據集大小和應用場景,避免過擬合。模型訓練是尋找最優參數,最小化損失函數。模型評估時,計算準確率,模型調參通過網格化搜尋找到較好的模型架構。模型預測在測試集上進行,評價模型在新數據上的表現。
人工智能機器學習領域關鍵技術
深度學習是機器學習的一種,通過組合低層特征形成更抽象的高層表示,發現數據的分布式特征表示。深度學習通過模擬人腦分析學習的神經網絡,學習樣本數據的內在規律和表示層次。深度學習強調模型結構的深度,明確特征學習的重要性。深度學習框架多硬件平臺適配,提供總體架構技術方案,包括設備管理層、算子適配層、訓練框架與推理框架的多硬件適配指標體系。
聯邦學習是加密分布式學習
聯邦學習是一種分布式機器學習技術,通過在多個擁有本地數據的數據源之間進行分布式模型訓練,僅通過交換模型參數或中間結果,構建基于虛擬融合數據下的全局模型,實現數據隱私保護和數據共享計算平衡。聯邦學習在醫療領域多中心電子病歷結構化上使用,使得各中心間數據能力共享,優化結構化能力。
計算機視覺與機器視覺
計算機視覺是指通過攝影機和電腦識別、跟蹤和測量圖像,并進行圖形處理,使計算機處理適合人眼觀察或儀器檢測的圖像。計算機視覺研究如何建立能夠從圖像或多維數據中獲取信息的人工智能系統。機器視覺則是用機器代替人眼進行測量和判斷,自動采集并分析圖像,獲取特定零件和特定活動所需的數據。機器視覺需要圖像信號、紋理和顏色建模、幾何處理和推理,以及物體建模。
自然語言處理NLP
自然語言處理(NLP)利用人類交流所使用的自然語言與機器進行交互通訊,通過人為處理自然語言,使計算機能夠理解。NLP包括文本分類、信息檢索、機器翻譯等細分領域。文本處理通過關鍵字詞統計和索引庫實現檢索,信息檢索實時檢查網絡關鍵詞并運行處理,機器翻譯利用深度學習算法進行語言翻譯并提升正確性。