技術(shù)支持
來源:光虎
深度學(xué)習(xí)(DL, Deep Learning)是機(jī)器學(xué)習(xí)(ML, Machine Learning)領(lǐng)域中一個(gè)新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(AI, Artificial Intelligence)。
深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。 深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語音和圖像識別方面取得的效果,遠(yuǎn)遠(yuǎn)超過先前相關(guān)技術(shù)。
深度學(xué)習(xí)在搜索技術(shù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、機(jī)器翻譯、自然語言處理、多媒體學(xué)習(xí)、語音、推薦和個(gè)性化技術(shù)以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽和思考等人類的活動,解決了很多復(fù)雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步。
深度學(xué)習(xí)是一類模式分析方法的統(tǒng)稱,就具體研究內(nèi)容而言,主要涉及三類方法:
(1)基于卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò)系統(tǒng),即卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
(2)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼( Auto encoder)以及近年來受到廣泛關(guān)注的稀疏編碼兩類( Sparse Coding)。
(3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行預(yù)訓(xùn)練,進(jìn)而結(jié)合鑒別信息進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DBN)。
通過多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此可將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”(feature learning)或“表示學(xué)習(xí)”(representation learning)。
以往在機(jī)器學(xué)習(xí)用于現(xiàn)實(shí)任務(wù)時(shí),描述樣本的特征通常需由人類專家來設(shè)計(jì),這稱為“特征工程”(feature engineering)。眾所周知,特征的好壞對泛化性能有至關(guān)重要的影響,人類專家設(shè)計(jì)出好特征也并非易事;特征學(xué)習(xí)(表征學(xué)習(xí))則通過機(jī)器學(xué)習(xí)技術(shù)自身來產(chǎn)生好特征,這使機(jī)器學(xué)習(xí)向“全自動數(shù)據(jù)分析”又前進(jìn)了一步。
近年來,研究人員也逐漸將這幾類方法結(jié)合起來,如對原本是以有監(jiān)督學(xué)習(xí)為基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行無監(jiān)督的預(yù)訓(xùn)練,進(jìn)而利用鑒別信息微調(diào)網(wǎng)絡(luò)參數(shù)形成的卷積深度置信網(wǎng)絡(luò)。與傳統(tǒng)的學(xué)習(xí)方法相比,深度學(xué)習(xí)方法預(yù)設(shè)了更多的模型參數(shù),因此模型訓(xùn)練難度更大,根據(jù)統(tǒng)計(jì)學(xué)習(xí)的一般規(guī)律知道,模型參數(shù)越多,需要參與訓(xùn)練的數(shù)據(jù)量也越大。
20世紀(jì)八九十年代由于計(jì)算機(jī)計(jì)算能力有限和相關(guān)技術(shù)的限制,可用于分析的數(shù)據(jù)量太小,深度學(xué)習(xí)在模式分析中并沒有表現(xiàn)出優(yōu)異的識別性能。自從2006年, Hinton等提出快速計(jì)算受限玻耳茲曼機(jī)(RBM)網(wǎng)絡(luò)權(quán)值及偏差的CD-K算法以后,RBM就成了增加神經(jīng)網(wǎng)絡(luò)深度的有力工具,導(dǎo)致后面使用廣泛的DBN(由 Hinton等開發(fā)并已被微軟等公司用于語音識別中)等深度網(wǎng)絡(luò)的出現(xiàn)。與此同時(shí),稀疏編碼等由于能自動從數(shù)據(jù)中提取特征也被應(yīng)用于深度學(xué)習(xí)中。基于局部數(shù)據(jù)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)方法近年來也被大量研究。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的必經(jīng)路徑。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多個(gè)隱藏層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。研究深度學(xué)習(xí)的動機(jī)在于建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像、聲音和文本等。
從一個(gè)輸入中產(chǎn)生一個(gè)輸出所涉及的計(jì)算可以通過一個(gè)流向圖(flow graph)來表示:流向圖是一種能夠表示計(jì)算的圖,在這種圖中每一個(gè)節(jié)點(diǎn)表示一個(gè)基本的計(jì)算以及一個(gè)計(jì)算的值,計(jì)算的結(jié)果被應(yīng)用到這個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)的值。考慮這樣一個(gè)計(jì)算集合,它可以被允許在每一個(gè)節(jié)點(diǎn)和可能的圖結(jié)構(gòu)中,并定義了一個(gè)函數(shù)族。輸入節(jié)點(diǎn)沒有父節(jié)點(diǎn),輸出節(jié)點(diǎn)沒有子節(jié)點(diǎn)。
這種流向圖的一個(gè)特別屬性是深度(depth):從一個(gè)輸入到一個(gè)輸出的最長路徑的長度。
傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)能夠被看作擁有等于層數(shù)的深度(比如對于輸出層為隱層數(shù)加1)。SVMs有深度2(一個(gè)對應(yīng)于核輸出或者特征空間,另一個(gè)對應(yīng)于所產(chǎn)生輸出的線性混合)。
人工智能研究的方向之一,是以所謂 “專家系統(tǒng)” 為代表的,用大量 “如果-就”(If - Then)規(guī)則定義的,自上而下的思路。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),標(biāo)志著另外一種自下而上的思路。神經(jīng)網(wǎng)絡(luò)沒有一個(gè)嚴(yán)格的正式定義。它的基本特點(diǎn),是試圖模仿大腦的神經(jīng)元之間傳遞,處理信息的模式。
香港中文大學(xué)的多媒體實(shí)驗(yàn)室是最早應(yīng)用深度學(xué)習(xí)進(jìn)行計(jì)算機(jī)視覺研究的華人團(tuán)隊(duì)。在世界級人工智能競賽LFW(大規(guī)模人臉識別競賽)上,該實(shí)驗(yàn)室曾力壓FaceBook奪得冠軍,使得人工智能在該領(lǐng)域的識別能力首次超越真人。
微軟研究人員通過與hinton合作,首先將RBM和DBN引入到語音識別聲學(xué)模型訓(xùn)練中,并且在大詞匯量語音識別系統(tǒng)中獲得巨大成功,使得語音識別的錯(cuò)誤率相對減低30%。但是,DNN還沒有有效的并行快速算法,很多研究機(jī)構(gòu)都是在利用大規(guī)模數(shù)據(jù)語料通過GPU平臺提高DNN聲學(xué)模型的訓(xùn)練效率。
在國際上,IBM、Google等公司都快速進(jìn)行了DNN語音識別的研究,并且速度飛快。國內(nèi)方面,阿里巴巴、科大訊飛、百度、中科院自動化所等公司或研究單位,也在進(jìn)行深度學(xué)習(xí)在語音識別上的研究。
【來源:網(wǎng)絡(luò)】