複製鏈接
請複製以下鏈接發送給好友

機器學習

(多領域交叉學科)

鎖定
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是人工智能核心,是使計算機具有智能的根本途徑。
中文名
機器學習
外文名
Machine Learning
性    質
多領域交叉學科
涉及學科
概率論、統計學、逼近論、線性代數、高等數學

機器學習定義

機器學習是一門多學科交叉專業,涵蓋概率論知識,統計學知識,近似理論知識和複雜算法知識,使用計算機作為工具並致力於真實實時的模擬人類學習方式,並將現有內容進行知識結構劃分來有效提高學習效率。 [1] 
機器學習有下面幾種定義:
(1)機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。
(2)機器學習是對能通過經驗自動改進的計算機算法的研究。
(3)機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。 [2] 

機器學習發展歷程

機器學習實際上已經存在了幾十年或者也可以認為存在了幾個世紀。追溯到17世紀,貝葉斯拉普拉斯關於最小二乘法的推導和馬爾可夫鏈,這些構成了機器學習廣泛使用的工具和基礎。1950年(艾倫.圖靈提議建立一個學習機器)到2000年初(有深度學習的實際應用以及最近的進展,比如2012年的AlexNet),機器學習有了很大的進展。
從20世紀50年代研究機器學習以來,不同時期的研究途徑和目標並不相同,可以劃分為四個階段。
第一階段是20世紀50年代中葉到60年代中葉,這個時期主要研究“有無知識的學習”。這類方法主要是研究系統的執行能力。這個時期,主要通過對機器的環境及其相應性能參數的改變來檢測系統所反饋的數據,就好比給系統一個程序,通過改變它們的自由空間作用,系統將會受到程序的影響而改變自身的組織,最後這個系統將會選擇一個最優的環境生存。在這個時期最具有代表性的研究就是Samuet的下棋程序。但這種機器學習的方法還遠遠不能滿足人類的需要。 [2] 
第二階段從20世紀60年代中葉到70年代中葉,這個時期主要研究將各個領域的知識植入到系統裏,在本階段的目的是通過機器模擬人類學習的過程。同時還採用了圖結構及其邏輯結構方面的知識進行系統描述,在這一研究階段,主要是用各種符號來表示機器語言,研究人員在進行實驗時意識到學習是一個長期的過程,從這種系統環境中無法學到更加深入的知識,因此研究人員將各專家學者的知識加入到系統裏,經過實踐證明這種方法取得了一定的成效。在這一階段具有代表性的工作有Hayes-Roth和Winson的對結構學習系統方法。
第三階段從20世紀70年代中葉到80年代中葉,稱為復興時期。在此期間,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和學習方法,且在本階段已開始把學習系統與各種應用結合起來,並取得很大的成功。同時,專家系統在知識獲取方面的需求也極大地刺激了機器學習的研究和發展。在出現第一個專家學習系統之後,示例歸納學習系統成為研究的主流,自動知識獲取成為機器學習應用的研究目標。1980年,在美國的卡內基梅隆(CMU)召開了第一屆機器學習國際研討會,標誌着機器學習研究已在全世界興起。此後,機器學習開始得到了大量的應用。1984年,Simon等20多位人工智能專家共同撰文編寫的MachineLearning文集第二卷出版,國際性雜誌Machine Learning創刊,更加顯示出機器學習突飛猛進的發展趨勢。這一階段代表性的工作有Mostow的指導式學習、Lenat的數學概念發現程序、Langley的BACON程序及其改進程序。
第四階段20世紀80年代中葉,是機器學習的最新階段。這個時期的機器學習具有如下特點:
(1)機器學習已成為新的學科,它綜合應用了心理學、生物學、神經生理學、數學、自動化和計算機科學等形成了機器學習理論基礎。
(2)融合了各種學習方法,且形式多樣的集成學習系統研究正在興起。
(3)機器學習與人工智能各種基礎問題的統一性觀點正在形成。
(4)各種學習方法的應用範圍不斷擴大,部分應用研究成果已轉化為產品。
(5)與機器學習有關的學術活動空前活躍。 [2] 

機器學習研究現狀

機器學習是人工智能及模式識別領域的共同研究熱點,其理論和方法已被廣泛應用於解決工程應用和科學領域的複雜問題。2010年的圖靈獎獲得者為哈佛大學的Leslie vlliant教授,其獲獎工作之一是建立了概率近似正確(Probably Approximate Correct,PAC)學習理論;2011年的圖靈獎獲得者為加州大學洛杉磯分校的Judea Pearll教授,其主要貢獻為建立了以概率統計為理論基礎的人工智能方法。這些研究成果都促進了機器學習的發展和繁榮。 [2] 
機器學習是研究怎樣使用計算機模擬或實現人類學習活動的科學,是人工智能中最具智能特徵,最前沿的研究領域之一。自20世紀80年代以來,機器學習作為實現人工智能的途徑,在人工智能界引起了廣泛的興趣,特別是近十幾年來,機器學習領域的研究工作發展很快,它已成為人工智能的重要課題之一。機器學習不僅在基於知識的系統中得到應用,而且在自然語言理解、非單調推理、機器視覺模式識別等許多領域也得到了廣泛應用。一個系統是否具有學習能力已成為是否具有“智能”的一個標誌。機器學習的研究主要分為兩類研究方向:第一類是傳統機器學習的研究,該類研究主要是研究學習機制,注重探索模擬人的學習機制;第二類是大數據環境下機器學習的研究,該類研究主要是研究如何有效利用信息,注重從巨量數據中獲取隱藏的、有效的、可理解的知識。 [2] 
機器學習歷經70年的曲折發展,以深度學習為代表借鑑人腦的多分層結構、神經元的連接交互信息的逐層分析處理機制,自適應、自學習的強大並行信息處理能力,在很多方面收穫了突破性進展,其中最有代表性的是圖像識別領域。 [3] 

機器學習傳統機器學習的研究現狀

傳統機器學習的研究方向主要包括決策樹隨機森林人工神經網絡貝葉斯學習等方面的研究。
決策樹是機器學習常見的一種方法。20世紀末期,機器學習研究者J.Ross Quinlan將Shannon的信息論引入到了決策樹算法中,提出了ID3算法。1984年I.Kononenko、E.Roskar和I.Bratko在ID3算法的基礎上提出了AS-SISTANTAlgorithm,這種算法允許類別的取值之間有交集。同年,A.Hart提出了Chi-Squa統計算法,該算法採用了一種基於屬性與類別關聯程度的統計量。1984年L.Breiman、C.Ttone、R.Olshen和J.Freidman提出了決策樹剪枝概念,極大地改善了決策樹的性能。1993年,Quinlan在ID3算法的基礎上提出了一種改進算法,即C4.5算法。C4.5算法克服了ID3算法屬性偏向的問題增加了對連續屬性的處理通過剪枝,在一定程度上避免了“過度適合”現象。但是該算法將連續屬性離散化時,需要遍歷該屬性的所有值,降低了效率,並且要求訓練樣本集駐留在內存,不適合處理大規模數據集。2010年Xie提出一種CART算法,該算法是描述給定預測向量X條件分佈變量Y的一個靈活方法,已經在許多領域得到了應用。CART算法可以處理無序的數據,採用基尼係數作為測試屬性的選擇標準。CART算法生成的決策樹精確度較高,但是當其生成的決策樹複雜度超過一定程度後,隨着複雜度的提高,分類精確度會降低,所以該算法建立的決策樹不宜太複雜。2007年房祥飛表述了一種叫SLIQ(決策樹分類)算法,這種算法的分類精度與其他決策樹算法不相上下,但其執行的速度比其他決策樹算法快,它對訓練樣本集的樣本數量以及屬性的數量沒有限制。SLIQ算法能夠處理大規模的訓練樣本集,具有較好的伸縮性;執行速度快而且能生成較小的二叉決策樹。SLIQ算法允許多個處理器同時處理屬性表,從而實現了並行性。但是SLIQ算法依然不能擺脱主存容量的限制。2000年RajeevRaSto等提出了PUBLIC算法,該算法是對尚未完全生成的決策樹進行剪枝,因而提高了效率。近幾年模糊決策樹也得到了蓬勃發展。研究者考慮到屬性間的相關性提出了分層迴歸算法、約束分層歸納算法和功能樹算法,這三種算法都是基於多分類器組合的決策樹算法,它們對屬性間可能存在的相關性進行了部分實驗和研究,但是這些研究並沒有從總體上闡述屬性間的相關性是如何影響決策樹性能。此外,還有很多其他的算法,如Zhang.J於2014年提出的一種基於粗糙集的優化算法、Wang.R在2015年提出的基於極端學習樹的算法模型等。 [2] 
隨機森林(RF)作為機器學習重要算法之一,是一種利用多個樹分類器進行分類和預測的方法。近年來,隨機森林算法研究的發展十分迅速,已經在生物信息學、生態學、醫學、遺傳學、遙感地理學等多領域開展的應用性研究。 [2] 
人工神經網絡(Artificial Neural Networks,ANN)是一種具有非線性適應性信息處理能力的算法,可克服傳統人工智能方法對於直覺,如模式、語音識別、非結構化信息處理方面的缺陷。早在20世紀40年代人工神經網絡已經受到關注,並隨後得到迅速發展。 [2] 
貝葉斯學習是機器學習較早的研究方向,其方法最早起源於英國數學家托馬斯,貝葉斯在1763年所證明的一個關於貝葉斯定理的一個特例。經過多位統計學家的共同努力,貝葉斯統計在20世紀50年代之後逐步建立起來,成為統計學中一個重要的組成部分。 [2] 

機器學習大數據環境下機器學習的研究現狀

大數據的價值體現主要集中在數據的轉向以及數據的信息處理能力等等。在產業發展的今天,大數據時代的到來,對數據的轉換,數據的處理數據的存儲等帶來了更好的技術支持,產業升級和新產業誕生形成了一種推動力量,讓大數據能夠針對可發現事物的程序進行自動規劃,實現人類用户以計算機信息之間的協調。另外現有的許多機器學習方法是建立在內存理論基礎上的。大數據還無法裝載進計算機內存的情況下,是無法進行諸多算法的處理的,因此應提出新的機器學習算法,以適應大數據處理的需要。大數據環境下的機器學習算法,依據一定的性能標準,對學習結果的重要程度可以予以忽視。採用分佈式和並行計算的方式進行分治策略的實施,可以規避掉噪音數據和冗餘帶來的干擾,降低存儲耗費,同時提高學習算法的運行效率。 [4] 
隨着大數據時代各行業對數據分析需求的持續增加,通過機器學習高效地獲取知識,已逐漸成為當今機器學習技術發展的主要推動力。大數據時代的機器學習更強調“學習本身是手段"機器學習成為一種支持和服務技術。如何基於機器學習對複雜多樣的數據進行深層次的分析,更高效地利用信息成為當前大數據環境下機器學習研究的主要方向。所以,機器學習越來越朝着智能數據分析的方向發展,並已成為智能數據分析技術的一個重要源泉。另外,在大數據時代,隨着數據產生速度的持續加快,數據的體量有了前所未有的增長,而需要分析的新的數據種類也在不斷湧現,如文本的理解、文本情感的分析、圖像的檢索和理解、圖形和網絡數據的分析等。使得大數據機器學習和數據挖掘等智能計算技術在大數據智能化分析處理應用中具有極其重要的作用。在2014年12月中國計算機學會(CCF)大數據專家委員會上通過數百位大數據相關領域學者和技術專家投票推選出的“2015年大數據十大熱點技術與發展趨勢”中,結合機器學習等智能計算技術的大數據分析技術被推選為大數據領域第一大研究熱點和發展趨勢。 [2] 

機器學習機器學習的分類

幾十年來,研究發表的機器學習的方法種類很多,根據強調側面的不同可以有多種分類方法。

機器學習基於學習策略的分類

(1)模擬人腦的機器學習
符號學習:模擬人腦的宏現心理級學習過程,以認知心理學原理為基礎,以符號數據為輸入,以符號運算為方法,用推理過程在圖或狀態空間中搜索,學習的目標為概念或規則等。符號學習的典型方法有記憶學習、示例學習、演繹學習.類比學習、解釋學習等。
神經網絡學習(或連接學習):模擬人腦的微觀生理級學習過程,以腦和神經科學原理為基礎,以人工神經網絡為函數結構模型,以數值數據為輸入,以數值運算為方法,用迭代過程在係數向量空間中搜索,學習的目標為函數。典型的連接學習有權值修正學習、拓撲結構學習。
(2)直接採用數學方法的機器學習
主要有統計機器學習。 [2] 
統計機器學習是基於對數據的初步認識以及學習目的的分析,選擇合適的數學模型,擬定超參數,並輸入樣本數據,依據一定的策略,運用合適的學習算法對模型進行訓練,最後運用訓練好的模型對數據進行分析預測。
統計機器學習三個要素:
模型(model):模型在未進行訓練前,其可能的參數是多個甚至無窮的,故可能的模型也是多個甚至無窮的,這些模型構成的集合就是假設空間。
策略(strategy):即從假設空間中挑選出參數最優的模型的準則。模型的分類或預測結果與實際情況的誤差(損失函數)越小,模型就越好。那麼策略就是誤差最小。
算法(algorithm):即從假設空間中挑選模型的方法(等同於求解最佳的模型參數)。機器學習的參數求解通常都會轉化為最優化問題,故學習算法通常是最優化算法,例如最速梯度下降法、牛頓法以及擬牛頓法等。

機器學習基於學習方法的分類

(1)歸納學習
符號歸納學習:典型的符號歸納學習有示例學習、決策樹學習。
函數歸納學習(發現學習):典型的函數歸納學習有神經網絡學習、示例學習、發現學習、統計學習。
(2)演繹學習
(3)類比學習:典型的類比學習有案例(範例)學習。
(4)分析學習:典型的分析學習有解釋學習、宏操作學習。 [2] 

機器學習基於學習方式的分類

(1)監督學習(有導師學習):輸入數據中有導師信號,以概率函數、代數函數或人工神經網絡為基函數模型,採用迭代計算方法,學習結果為函數。 [2] 
(2)無監督學習(無導師學習):輸入數據中無導師信號,採用聚類方法,學習結果為類別。典型的無導師學習有發現學習、聚類、競爭學習等。 [2] 
(3)強化學習(增強學習):以環境反饋(獎/懲信號)作為輸入,以統計和動態規劃技術為指導的一種學習方法。 [2] 

機器學習基於數據形式的分類

(1)結構化學習:以結構化數據為輸入,以數值計算或符號推演為方法。典型的結構化學習有神經網絡學習、統計學習、決策樹學習、規則學習。 [2] 
(2)非結構化學習:以非結構化數據為輸入,典型的非結構化學習有類比學習案例學習、解釋學習、文本挖掘、圖像挖掘Web挖掘等。 [2] 

機器學習基於學習目標的分類

(1)概念學習:學習的目標和結果為概念,或者説是為了獲得概念的學習。典型的概念學習主要有示例學習。
(2)規則學習:學習的目標和結果為規則,或者為了獲得規則的學習。典型規則學習主要有決策樹學習。
(3)函數學習:學習的目標和結果為函數,或者説是為了獲得函數的學習。典型函數學習主要有神經網絡學習。 [2] 
(4)類別學習:學習的目標和結果為對象類,或者説是為了獲得類別的學習。典型類別學習主要有聚類分析。
(5)貝葉斯網絡學習:學習的目標和結果是貝葉斯網絡,或者説是為了獲得貝葉斯網絡的一種學習。其又可分為結構學習和多數學習。 [2] 

機器學習常見算法

機器學習決策樹算法

決策樹及其變種是一類將輸入空間分成不同的區域,每個區域有獨立參數的算法。決策樹算法充分利用了樹形模型,根節點到一個葉子節點是一條分類的路徑規則,每個葉子節點象徵一個判斷類別。先將樣本分成不同的子集,再進行分割遞推,直至每個子集得到同類型的樣本,從根節點開始測試,到子樹再到葉子節點,即可得出預測類別。此方法的特點是結構簡單、處理數據效率較高。 [3] 

機器學習樸素貝葉斯算法

樸素貝葉斯算法是一種分類算法。它不是單一算法,而是一系列算法,它們都有一個共同的原則,即被分類的每個特徵都與任何其他特徵的值無關。樸素貝葉斯分類器認為這些“特徵”中的每一個都獨立地貢獻概率,而不管特徵之間的任何相關性。然而,特徵並不總是獨立的,這通常被視為樸素貝葉斯算法的缺點。簡而言之,樸素貝葉斯算法允許使用概率給出一組特徵來預測一個類。與其他常見的分類方法相比,樸素貝葉斯算法需要的訓練很少。在進行預測之前必須完成的唯一工作是找到特徵的個體概率分佈的參數,這通常可以快速且確定地完成。這意味着即使對於高維數據點或大量數據點,樸素貝葉斯分類器也可以表現良好。 [3] 

機器學習支持向量機算法

基本思想可概括如下:首先,要利用一種變換將空間高維化,當然這種變換是非線性的,然後,在新的複雜空間取最優線性分類表面[8]。由此種方式獲得的分類函數在形式上類似於神經網絡算法。支持向量機是統計學習領域中一個代表性算法,但它與傳統方式的思維方法很不同,輸入空間、提高維度從而將問題簡短化,使問題歸結為線性可分的經典解問題。支持向量機應用於垃圾郵件識別,人臉識別等多種分類問題。 [3] 

機器學習隨機森林算法

控制數據樹生成的方式有多種,根據前人的經驗,大多數時候更傾向選擇分裂屬性和剪枝,但這並不能解決所有問題,偶爾會遇到噪聲或分裂屬性過多的問題。基於這種情況,總結每次的結果可以得到袋外數據的估計誤差,將它和測試樣本的估計誤差相結合可以評估組合樹學習器的擬合及預測精度。此方法的優點有很多,可以產生高精度的分類器,並能夠處理大量的變數,也可以平衡分類資料集之間的誤差。 [3] 

機器學習人工神經網絡算法

人工神經網絡與神經元組成的異常複雜的網絡此大體相似,是個體單元互相連接而成,每個單元有數值量的輸入和輸出,形式可以為實數或線性組合函數。它先要以一種學習準則去學習,然後才能進行工作。當網絡判斷錯誤時,通過學習使其減少犯同樣錯誤的可能性。此方法有很強的泛化能力和非線性映射能力,可以對信息量少的系統進行模型處理。從功能模擬角度看具有並行性,且傳遞信息速度極快。 [3] 

機器學習Boosting與Bagging算法

Boosting是種通用的增強基礎算法性能的迴歸分析算法。不需構造一個高精度的迴歸分析,只需一個粗糙的基礎算法即可,再反覆調整基礎算法就可以得到較好的組合迴歸模型。它可以將弱學習算法提高為強學習算法,可以應用到其它基礎迴歸算法,如線性迴歸、神經網絡等,來提高精度。Bagging和前一種算法大體相似但又略有差別,主要想法是給出已知的弱學習算法和訓練集,它需要經過多輪的計算,才可以得到預測函數列,最後採用投票方式對示例進行判別。 [3] 

機器學習關聯規則算法

關聯規則是用規則去描述兩個變量或多個變量之間的關係,是客觀反映數據本身性質的方法。它是機器學習的一大類任務,可分為兩個階段,先從資料集中找到高頻項目組,再去研究它們的關聯規則。其得到的分析結果即是對變量間規律的總結。 [3] 

機器學習期望最大化算法

EM(期望最大化)算法在進行機器學習的過程中需要用到極大似然估計等參數估計方法,在有潛在變量的情況下,通常選擇EM算法,不是直接對函數對象進行極大估計,而是添加一些數據進行簡化計算,再進行極大化模擬。它是對本身受限制或比較難直接處理的數據的極大似然估計算法。 [3] 

機器學習深度學習

深度學習(DL,Deep Learning)是機器學習(ML,Machine Learning)領域中一個新的研究方向,它被引入機器學習使其更接近於最初的目標——人工智能(AI,Artificial Intelligence)。
深度學習是學習樣本數據的內在規律和表示層次,這些學習過程中獲得的信息對諸如文字,圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。 深度學習是一個複雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關技術。
深度學習在搜索技術、數據挖掘、機器學習、機器翻譯自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動,解決了很多複雜的模式識別難題,使得人工智能相關技術取得了很大進步。

機器學習應用

機器學習應用廣泛,無論是在軍事領域還是民用領域,都有機器學習算法施展的機會,主要包括以下幾個方面。 [2] 

機器學習數據分析與挖掘

“數據挖掘”和"數據分析”通常被相提並論,並在許多場合被認為是可以相互替代的術語。關於數據挖掘,已有多種文字不同但含義接近的定義,例如“識別出巨量數據中有效的.新穎的、潛在有用的最終可理解的模式的非平凡過程”,無論是數據分析還是數據挖掘,都是幫助人們收集、分析數據,使之成為信息,並做出判斷,因此可以將這兩項合稱為數據分析與挖掘。 [2] 
數據分析與挖掘技術是機器學習算法和數據存取技術的結合,利用機器學習提供的統計分析、知識發現等手段分析海量數據,同時利用數據存取機制實現數據的高效讀寫。機器學習在數據分析與挖掘領域中擁有無可取代的地位,2012年Hadoop進軍機器學習領域就是一個很好的例子。 [2] 

機器學習模式識別

模式識別起源於工程領域,而機器學習起源於計算機科學,這兩個不同學科的結合帶來了模式識別領域的調整和發展。模式識別研究主要集中在兩個方面。 [2] 
(1)研究生物體(包括人)是如何感知對象的,屬於認識科學的範疇。 [2] 
(2)在給定的任務下,如何用計算機實現模式識別的理論和方法,這些是機器學習的長項,也是機器學習研究的內容之一。 [2] 
模式識別的應用領域廣泛,包括計算機視覺醫學圖像分析光學文字識別自然語言處理、語音識別、手寫識別、生物特徵識別、文件分類、搜索引擎等,而這些領域也正是機器學習大展身手的舞台,因此模式識別與機器學習的關係越來越密切。 [2] 

機器學習在生物信息學上的應用

隨着基因組和其他測序項目的不斷髮展,生物信息學研究的重點正逐步從積累數據轉移到如何解釋這些數據。在未來,生物學的新發現將極大地依賴於在多個維度和不同尺度下對多樣化的數據進行組合和關聯的分析能力,而不再僅僅依賴於對傳統領域的繼續關注。序列數據將與結構和功能數據基因表達數據、生化反應通路數據表現型和臨牀數據等一系列數據相互集成。如此大量的數據,在生物信息的存儲、獲取、處理、瀏覽及可視化等方面,都對理論算法和軟件的發展提出了迫切的需求。另外,由於基因組數據本身的複雜性也對理論算法和軟件的發展提出了迫切的需求。而機器學習方法例如神經網絡、遺傳算法、決策樹和支持向量機等正適合於處理這種數據量大、含有噪聲並且缺乏統一理論的領域。 [2] 

機器學習更廣闊的領域

國外的IT巨頭正在深入研究和應用機器學習,他們把目標定位於全面模仿人類大腦,試圖創造出擁有人類智慧的機器大腦。 [2] 
2012年Google在人工智能領域發佈了一個劃時代的產品一人腦模擬軟件,這個軟件具備自我學習功能。模擬腦細胞的相互交流,可以通過看YouTube視頻學習識別貓、人以及其他事物。當有數據被送達這個神經網絡的時候,不同神經元之間的關係就會發生改變。而這也使得神經網絡能夠得到對某些特定數據的反應機制,據悉這個網絡已經學到了一些東西,Google將有望在多個領域使用這一新技術,最先獲益的可能是語音識別。 [2] 

機器學習具體應用

(1)虛擬助手。Siri,Alexa,Google Now都是虛擬助手。顧名思義,當使用語音發出指令後,它們會協助查找信息。對於回答,虛擬助手會查找信息,回憶語音指令人員的相關查詢,或向其他資源(如電話應用程序)發送命令以收集信息。人們甚至可以指導助手執行某些任務,例如“設置7點的鬧鐘”等。 [3] 
(2)交通預測。生活中人們經常使用GPS導航服務。當使用GPS導航服務時,人們當前的位置和速度被保存在中央服務器上來進行流量管理。之後使用這些數據用於構建當前流量的映射。通過機器學習可以解決配備GPS的汽車數量較少的問題,在這種情況下的機器學習有助於根據估計找到擁擠的區域。 [3] 
(3)過濾垃圾郵件和惡意軟件。電子郵件客户端使用了許多垃圾郵件過濾方法。為了確保這些垃圾郵件過濾器能夠不斷更新,它們使用了機器學習技術。多層感知器和決策樹歸納等是由機器學習提供支持的一些垃圾郵件過濾技術。每天檢測到超過325000個惡意軟件,每個代碼與之前版本的90%~98%相似。由機器學習驅動的系統安全程序理解編碼模式。因此,他們可以輕鬆檢測到2%~10%變異的新惡意軟件,並提供針對它們的保護。 [3] 
(4)快速揭示細胞內部結構。藉由高功率顯微鏡和機器學習,美國科學家研發出一種新算法,可在整個細胞的超高分辨率圖像中自動識別大約30種不同類型的細胞器和其他結構。相關論文發表在最新一期的《自然》雜誌上。 [5] 
(5)2022年,中國科學家利用機器學習的方法,快速得到相接雙星的參數和誤差。 [6] 
參考資料