与上司出轨的漂亮人妻日本少妇诱惑在线观看|日韩欧美视频二区|久碰人妻人妻人妻人妻人掠|丰满人妻三级黄片|出轨丈母娘电影|深夜人妻中文字幕|丰满人妻av午夜|清纯校花被奸日常|av人妻在线视频|丰满少妇喷潮,女的达到高潮,国产欧美在线观看一区二区,久久人妻少妇嫩草影院

【深度學(xué)習(xí)最精煉中文講義】前饋與卷積神經(jīng)網(wǎng)絡(luò)詳解,,復(fù)旦邱錫鵬老師《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》報(bào)告分享02(附報(bào)告pdf下載)

【深度學(xué)習(xí)最精煉中文講義】前饋與卷積神經(jīng)網(wǎng)絡(luò)詳解,復(fù)旦邱錫鵬老師《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》報(bào)告分享02(附報(bào)告pdf下載)

chenweixia 2025-03-20 百度 71 次瀏覽 0個(gè)評(píng)論

【導(dǎo)讀】復(fù)旦大學(xué)副教授,、博士生導(dǎo)師,、開源自然語言處理工具FudanNLP的主要開發(fā)者邱錫鵬(http://nlp.fudan.edu.cn/xpqiu/)老師撰寫的《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》書冊(cè),是國(guó)內(nèi)為數(shù)不多的深度學(xué)習(xí)中文基礎(chǔ)教程之一,,每一章都是干貨,,非常精煉。邱老師在今年中國(guó)中文信息學(xué)會(huì)《前沿技術(shù)講習(xí)班》做了題為《深度學(xué)習(xí)基礎(chǔ)》的精彩報(bào)告,,報(bào)告非常精彩,,深入淺出地介紹了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的一系列相關(guān)知識(shí),基本上圍繞著邱老師的《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》一書進(jìn)行講解,。專知希望把如此精華知識(shí)資料分發(fā)給更多AI從業(yè)者,,為此,專知特別聯(lián)系了邱老師,,獲得他的授權(quán)同意分享,。邱老師特意做了最新更新版本,,非常感謝邱老師,!專知內(nèi)容組圍繞邱老師的講義slides,進(jìn)行了解讀,,請(qǐng)大家查看,,并多交流指正! 此外,,請(qǐng)查看本文末尾,,可下載最新神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的slide

既昨天給大家?guī)砹?/strong>復(fù)旦邱錫鵬老師《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》講義報(bào)告分享01,,今天繼續(xù)為大家?guī)砘A(chǔ)模型這一部分,。

邱老師的報(bào)告內(nèi)容分為三個(gè)部分:

【特此注明】本報(bào)告材料獲邱錫鵬老師授權(quán)發(fā)布,由于筆者能力有限,,本篇所有備注皆為專知內(nèi)容組成員通過根據(jù)報(bào)告記錄和PPT內(nèi)容自行補(bǔ)全,,不代表邱錫鵬老師本人的立場(chǎng)與觀點(diǎn)。

邱老師個(gè)人主頁: http://nlp.fudan.edu.cn/xpqiu/

課程Github主頁:https://nndl.github.io/

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

深度學(xué)習(xí)(Deep Learning,, DL)是指如何從數(shù)據(jù)中學(xué)習(xí)一個(gè)“深度模型”的問題,,是機(jī)器學(xué)習(xí)的一個(gè)子問題。通過構(gòu)建具有一定“深度”的模型,,可以讓模型來自動(dòng)學(xué)習(xí)好的特征表示(從底層特征,,到中層特征,再到高層特征),,從而最終提升預(yù)測(cè)或識(shí)別的準(zhǔn)確性,。

深度學(xué)習(xí)的主要目的是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到有效的特征,,即表示學(xué)習(xí)。

深度學(xué)習(xí)技術(shù)在一定程度上可以看作是一個(gè)表示學(xué)習(xí)技術(shù),,通過多層的非線性轉(zhuǎn)換,,把原始數(shù)據(jù)變成為更高層次、更抽象的表示,。這些學(xué)習(xí)到的表示可以替代人工設(shè)計(jì)的特征,,從避免“特征工程”。

傳統(tǒng)機(jī)器學(xué)習(xí)模型主要關(guān)注于分類或預(yù)測(cè),,這類機(jī)器學(xué)習(xí)模型稱為淺層模型,,或淺層學(xué)習(xí)。淺層學(xué)習(xí)的一個(gè)重要特點(diǎn)是不涉及特征學(xué)習(xí),,其特征主要靠人工經(jīng)驗(yàn)或特征轉(zhuǎn)換方法來抽取,。

因此深度學(xué)習(xí)可以等價(jià)于 表示學(xué)習(xí)+淺層學(xué)習(xí) 這兩部分。

與“淺層”學(xué)習(xí)不同,,深度學(xué)習(xí)需要解決的關(guān)鍵問題是貢獻(xiàn)度分配問題(CreditAssignment Problem),,即一個(gè)系統(tǒng)中不同的組件(Components)對(duì)最終系統(tǒng)輸出結(jié)果的貢獻(xiàn)或影響,。

要提高一種表示方法的表示能力,其關(guān)鍵是構(gòu)建具有一定深度的多層次特征表示。一個(gè)深層結(jié)構(gòu)的優(yōu)點(diǎn)是可以增加特征的重用性,,從而指數(shù)級(jí)地增加表示能力,。

此外,,從底層特征開始,,一般需要多步非線性轉(zhuǎn)換才能得到較為抽象的高層語義特征。

因此,,表示學(xué)習(xí)可以看作是一種深度學(xué)習(xí),。所謂“深度”是指原始數(shù)據(jù)進(jìn)行非線性特征轉(zhuǎn)換的次數(shù)。

下面開始介紹神經(jīng)網(wǎng)絡(luò)

這是最早是作為一種主要的連接主義模型,。

連接主義的神經(jīng)網(wǎng)絡(luò)有著多種多樣的網(wǎng)絡(luò)結(jié)構(gòu)以及學(xué)習(xí)方法,,雖然早期模型強(qiáng)調(diào)模型的生物可解釋性(biological plausibility),但后期更關(guān)注于對(duì)某種特定認(rèn)知能力的模擬,,比如物體識(shí)別,、語言理解等。尤其在引入改進(jìn)其學(xué)習(xí)能力之后,,神經(jīng)網(wǎng)絡(luò)也越來越多地應(yīng)用在各種模式識(shí)別任務(wù)上,。隨著訓(xùn)練數(shù)據(jù)的增多以及(并行)計(jì)算能力的增強(qiáng),神經(jīng)網(wǎng)絡(luò)在很多模式識(shí)別任務(wù)上已經(jīng)取得了很大的突破,,特別是語音,、圖像等感知信號(hào)的處理上,表現(xiàn)出了卓越的學(xué)習(xí)能力,。

生物學(xué)家在20世紀(jì)初就發(fā)現(xiàn)了生物神經(jīng)元的結(jié)構(gòu),。一個(gè)生物神經(jīng)元通常具有多個(gè)樹突和一條軸突,。樹突用來接受信息,軸突用來發(fā)送信息,。當(dāng)神經(jīng)元所獲得的輸入信號(hào)的積累超過某個(gè)閾值時(shí),,它就處于興奮狀態(tài),產(chǎn)生電脈沖,。軸突尾端有許多末梢可以給其他個(gè)神經(jīng)元的樹突產(chǎn)生連接(突觸),,并將電脈沖信號(hào)傳遞給其它神經(jīng)元。

人工神經(jīng)元(artificialneuron),,簡(jiǎn)稱神經(jīng)元(neuron),,是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元,其主要是模擬生物神經(jīng)元的結(jié)構(gòu)和特性,,接受一組輸入信號(hào)并產(chǎn)出輸出,。

1943年,心理學(xué)家McCulloch和數(shù)學(xué)家Pitts根據(jù)生物神經(jīng)元的結(jié)構(gòu),,提出了一種非常簡(jiǎn)單的神經(jīng)元模型,。根據(jù)兩位學(xué)者命名為M-P神經(jīng)元,M-P神經(jīng)元模型中,,激活函數(shù) f 為 0或 1的階躍函數(shù),。

人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及他們之間的有向鏈接構(gòu)成。主要需要考慮下面三個(gè)方面:

常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括前饋網(wǎng)絡(luò),,反饋網(wǎng)絡(luò),,記憶網(wǎng)絡(luò),。

在前饋神經(jīng)網(wǎng)絡(luò)中,,各神經(jīng)元分別屬于不同的層。每一層的神經(jīng)元可以接收前一層神經(jīng)元的信號(hào),,并產(chǎn)生信號(hào)輸出到下一層,。第一層叫輸入層,最后一層叫輸出層,,其它中間層叫做隱藏層,。整個(gè)網(wǎng)絡(luò)中無反饋,信號(hào)從輸入層向輸出層單向傳播,,可用一個(gè)有向無環(huán)圖表示,。

反饋神經(jīng)網(wǎng)絡(luò)神經(jīng)元不僅可以接收其他神經(jīng)元的信號(hào),也可以接收自己的反饋信號(hào),,可用一個(gè)完備的無向圖表示,。和前饋網(wǎng)絡(luò)相比,反饋網(wǎng)絡(luò)在不同時(shí)刻具有不同的狀態(tài),,具有記憶功能,,因此反饋網(wǎng)絡(luò)可以看作一個(gè)程序,,也具有更強(qiáng)的計(jì)算能力。主要采用Hebb學(xué)習(xí)規(guī)則,,一般情況下計(jì)算的收斂速度很快,。

記憶網(wǎng)絡(luò)在前饋網(wǎng)絡(luò)或反饋網(wǎng)絡(luò)的基礎(chǔ)上,引入一組記憶單元,,用來保存中間狀態(tài),。同時(shí),根據(jù)一定的取址,、讀寫機(jī)制,,來增強(qiáng)網(wǎng)絡(luò)能力。和反饋網(wǎng)絡(luò)相比,,記憶網(wǎng)絡(luò)具有更強(qiáng)的記憶功能,。

神經(jīng)網(wǎng)絡(luò)是重要的機(jī)器學(xué)習(xí)技術(shù),是深度學(xué)習(xí)的基礎(chǔ),。其要解決的問題是貢獻(xiàn)度分配問題,。

重要:深度學(xué)習(xí)天然不是神經(jīng)網(wǎng)絡(luò),但神經(jīng)網(wǎng)絡(luò)天然是深度學(xué)習(xí),!

深層神經(jīng)網(wǎng)絡(luò)面臨一系列的問題,,包括參數(shù)過多、非凸優(yōu)化問題,、梯度消失問題,、下層參數(shù)比較難調(diào)、參數(shù)難以解釋問題,。

其訓(xùn)練也需要更多的數(shù)據(jù),、更多的資源同時(shí)要有收斂性強(qiáng)的優(yōu)化算法。

下面聊聊神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)史,。

第一階段:(模型的提出1943年~1969年)

1943 年,,傳奇人物麥卡洛可(McCulloch)和皮茨(Pitts)就發(fā)表了模擬神經(jīng)網(wǎng)絡(luò)的原創(chuàng)文章。

1947 年圖靈就已經(jīng)闡述了如何對(duì)機(jī)器學(xué)習(xí)的結(jié)果進(jìn)行檢查的方法,,而且這一方法是很有遠(yuǎn)見和可操作性的,。1948年圖靈在論文中描述了一種“B型圖靈機(jī)”。

神經(jīng)網(wǎng)絡(luò)研究的另一個(gè)突破是在1958 年,??的螤柎髮W(xué)的實(shí)驗(yàn)心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺(tái)IBM-704 計(jì)算機(jī)上模擬實(shí)現(xiàn)了一種他發(fā)明的叫作“感知機(jī)”(Perceptron)的神經(jīng)網(wǎng)絡(luò)模型。

第二階段:(冰河期1969年~1983年)

1969年,,Marvin Minsky出版《感知機(jī)》一書,,并和Seymour Papert發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)中的兩個(gè)重大缺陷:第一是基本感知機(jī)無法處理異或問題;第二,,當(dāng)時(shí)的計(jì)算機(jī)計(jì)算能力不足以用來處理大型神經(jīng)網(wǎng)絡(luò),,此后一段時(shí)間神經(jīng)網(wǎng)絡(luò)的研究一度停滯不前,。

1974年哈佛大學(xué)博士Paul Werbos在博士論文中提出了用誤差反向傳導(dǎo)來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)有效地解決了異或回路問題,使訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)成為可能,,但是并未受到重視,。

第三階段:(復(fù)興時(shí)期1983年~1995年)

1984年GeoffreyHinton提出 Boltzman機(jī)模型。

1986 年,,魯姆哈特(DavidRumelhart)和麥克萊蘭(McCelland)等幾名學(xué)者提出的BP 神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)發(fā)展史上的里程碑,。

1986年, GeoffreyHinton等人將引入到多層感知器,。

1989年,, Yann LeCun在將反向傳播算法引入了卷積神經(jīng)網(wǎng)絡(luò),并在手寫體數(shù)字識(shí)別上取得了很大的成功,。

第四階段:(流行度降低1995年~2006年)

支持向量機(jī)和其它更簡(jiǎn)單的算法(如線性分類器)的流行程度逐步超過了神經(jīng)網(wǎng)絡(luò),。

第五階段:(崛起時(shí)期2006后)

2006年,Geoffrey Hinton 發(fā)表一篇文章,,經(jīng)過他改進(jìn)的算法能夠?qū)ζ邔踊蚋鄬拥纳疃壬窠?jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,,這讓計(jì)算機(jī)可以漸進(jìn)地進(jìn)行學(xué)習(xí)。隨著層次的增加,,學(xué)習(xí)的精確性得到提升,,同時(shí)該技術(shù)還極大地推動(dòng)了非監(jiān)督學(xué)習(xí)的發(fā)展,讓機(jī)器具備“自學(xué)”的能力,。

在AI 領(lǐng)域,,

語音識(shí)別:

在語音識(shí)別領(lǐng)域,深度學(xué)習(xí)用深層模型替換聲學(xué)模型中的混合高斯模型(GaussianMixture Model, GMM),,獲得了相對(duì)30%左右的錯(cuò)誤率降低,;

圖像識(shí)別:

在圖像識(shí)別領(lǐng)域,通過構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),,將Top5錯(cuò)誤率由26%大幅降低至15%,,又通過加大加深網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步降低到11%,;

自然語言處理:

在自然語言處理領(lǐng)域,深度學(xué)習(xí)基本獲得了與其他方法水平相當(dāng)?shù)慕Y(jié)果,,但可以免去繁瑣的特征提取步驟,。可以說到目前為止,,深度學(xué)習(xí)是最接近人類大腦的智能學(xué)習(xí)方法,。

在三個(gè)DEEP 中,Deep Blue, Deep QA , Deep Learning.

IBM 的深藍(lán)Deep Blue 國(guó)際象棋系統(tǒng)在 1997 年擊敗了世界冠軍 Garry Kasparov(Hsu, 2002),。

Deep QA系統(tǒng)是自動(dòng)問答系統(tǒng),,要預(yù)先搜集各個(gè)領(lǐng)域的材料,,其嘗試去理解問題,搞清楚問題到底在問什么,;同時(shí)做一些初步的分析來決定選擇哪種方法來應(yīng)對(duì)這個(gè)問題,。

Deep Learning是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。觀測(cè)值(例如一幅圖像)可以使用多種方式來表示,,如每個(gè)像素強(qiáng)度值的向量,,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等,。而使用某些特定的表示方法更容易從實(shí)例中學(xué)習(xí)任務(wù)(例如,,人臉識(shí)別或)。

在深度學(xué)習(xí)領(lǐng)域,,上面幾個(gè)都是國(guó)際上比較知名的研究機(jī)構(gòu)和學(xué)者,。

下面開始介紹前饋神經(jīng)網(wǎng)絡(luò)

首先介紹一下激活函數(shù),

為了增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力以及學(xué)習(xí)能力,,一般使用連續(xù)非線性激活函數(shù)(activationfunction),。因?yàn)檫B續(xù)非線性激活函數(shù)可導(dǎo),所以可以用最優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),。

左圖是Logistic 函數(shù),, Logistic函數(shù)可以看成是一個(gè)“擠壓”函數(shù),把一個(gè)實(shí)數(shù)域的輸入“擠壓”到 (0, 1),。當(dāng)輸入值在 0附近時(shí),, sigmoid型函數(shù)近似為線性函數(shù);當(dāng)輸入值靠近兩端時(shí),,對(duì)輸入進(jìn)行抑制,。輸入越小,越接近于 0,;輸入越大,,越接近于 1。

右圖是tanh函數(shù)

左邊是 ReLU 和 Softplus 函數(shù),, 右邊是PReLU函數(shù),。

采用 ReLU的神經(jīng)網(wǎng)絡(luò)只需要進(jìn)行加、乘和比較的操作,,計(jì)算上也更加高效,。此外, rectifier 函數(shù)被認(rèn)為有生物上的解釋性,。

這是常見激活函數(shù)和其相關(guān)導(dǎo)數(shù),。

上圖是·一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)圖,在前饋神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元分別屬于不同的層,。每一層的神經(jīng)元可以接收前一層神經(jīng)元的信號(hào),,并產(chǎn)生信號(hào)輸出到下一層。第一層叫輸入層,,最后一層叫輸出層,,其它中間層叫做隱藏層。整個(gè)網(wǎng)絡(luò)中無反饋,,信號(hào)從輸入層向輸出層單向傳播,,可用一個(gè)有向無環(huán)圖表示。

這是一些符號(hào)標(biāo)記,。

前饋神經(jīng)網(wǎng)絡(luò)通過下面的公式進(jìn)行傳播,,逐層進(jìn)行傳播。

前饋網(wǎng)絡(luò)可以用一個(gè)有向無環(huán)路圖表示,。前饋網(wǎng)絡(luò)可以看作一個(gè)函數(shù),,通過簡(jiǎn)單非線性函數(shù)的多次復(fù)合,實(shí)現(xiàn)輸入空間到輸出空間的復(fù)雜映射,。這種網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,,易于實(shí)現(xiàn)。

神經(jīng)網(wǎng)絡(luò)在某種程度上可以作為一個(gè)“萬能”(universal)函數(shù)來使用,,因此神經(jīng)網(wǎng)絡(luò)的使用可以十分靈活,,可以用來進(jìn)行復(fù)雜的特征轉(zhuǎn)換,或逼近一個(gè)復(fù)雜的條件分布,。

【深度學(xué)習(xí)最精煉中文講義】前饋與卷積神經(jīng)網(wǎng)絡(luò)詳解,復(fù)旦邱錫鵬老師《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》報(bào)告分享02(附報(bào)告pdf下載)

在機(jī)器學(xué)習(xí)中,,輸入樣本的特征對(duì)分類器的影響很大,。以監(jiān)督學(xué)習(xí)為例,好的特征可以極大提高分類器的性能,。

對(duì)于二分類問題,,logistic回歸分類器可以看成神經(jīng)網(wǎng)絡(luò)的最后一層。也就是說,,網(wǎng)絡(luò)的最后一層只用一個(gè)神經(jīng)元,,并且其激活函數(shù)為logistic函數(shù)。網(wǎng)絡(luò)的輸出可以直接可以作為兩個(gè)類別的后驗(yàn)概率,。

對(duì)于多分類問題,,使用 softmax回歸分類器,相當(dāng)于網(wǎng)絡(luò)最后一層設(shè)置 C 個(gè)神經(jīng)元,,其輸出經(jīng)過 softmax 函數(shù)進(jìn)行歸一化后可以作為每個(gè)類的后驗(yàn)概率。

在多分類時(shí),,使用交叉熵?fù)p失函數(shù),,來進(jìn)行模型的優(yōu)化。

用梯度下降法對(duì)交叉熵?fù)p失函數(shù)進(jìn)行參數(shù)學(xué)習(xí),,計(jì)算損失函數(shù)對(duì)參數(shù)的偏導(dǎo)數(shù),,通過鏈?zhǔn)椒▌t逐一對(duì)每個(gè)參數(shù)進(jìn)行求偏導(dǎo)效率比較低。

在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中經(jīng)常使用反向傳播算法來計(jì)算高效地梯度,。

反向傳播算法的是訓(xùn)練神經(jīng)網(wǎng)絡(luò),,如果神經(jīng)網(wǎng)絡(luò)只有一個(gè)一層,通過梯度下降可以直接調(diào)整這一層的weight,,但如果有多層,,需要調(diào)整各個(gè)層次的weight,所以就需要鏈?zhǔn)角髮?dǎo)法則求出各個(gè)層的梯度,。

可以通過鏈?zhǔn)椒磩t來逐層向前推進(jìn),,

用誤差項(xiàng)來表示第l層的神經(jīng)元對(duì)最終誤差的影響,也反映了最終的輸出對(duì)第l層的神經(jīng)元對(duì)最終誤差的敏感程度,。

第 l 層的誤差項(xiàng)可以通過第 l + 1層的誤差項(xiàng)計(jì)算得到,,這就是誤差的反向傳播。反向傳播算法的含義是:第 l層的一個(gè)神經(jīng)元的誤差項(xiàng)(或敏感性)是所有與該神經(jīng)元相連的第 l+ 1層的神經(jīng)元的誤差項(xiàng)的權(quán)重和,。然后,,再乘上該神經(jīng)元激活函數(shù)的梯度。

在計(jì)算出每一層的誤差項(xiàng)之后,,我們就可以得到每一層參數(shù)的梯度,。因此,基于誤差反向傳播算法(backpropagation,, BP)的前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程可以分為以下三步:

誤差從輸出層反向傳播時(shí),在每一層都要乘以該層的激活函數(shù)的導(dǎo)數(shù),。

我們可以看到,sigmoid 型函數(shù)導(dǎo)數(shù)的值域都小于 1,。并且由于 sigmoid 型函數(shù)的飽和性,飽和區(qū)的導(dǎo)數(shù)更是接近于 0,。這樣,誤差經(jīng)過每一層傳遞都會(huì)不斷衰減,。當(dāng)網(wǎng)絡(luò)層數(shù)很深時(shí),梯度就會(huì)不停的衰減,甚至消失,,使得整個(gè)網(wǎng)絡(luò)很難訓(xùn)練。這就是所謂的梯度消失問題(VanishingGradient Problem),,也叫梯度彌散問題,。

在深層神經(jīng)網(wǎng)絡(luò)中,減輕梯度消失問題的方法有很多種,。一種有效的方式是使用導(dǎo)數(shù)比較大的激活函數(shù),,比如ReLU等。這樣誤差可以很好地傳播,,訓(xùn)練速度得到了很大的提高,。

神經(jīng)網(wǎng)絡(luò)是基于感知機(jī)的擴(kuò)展,而深度神經(jīng)網(wǎng)絡(luò)(DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò),。

這個(gè)很多其實(shí)也沒有什么度量標(biāo)準(zhǔn), 多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實(shí)也是指的一個(gè)東西,,當(dāng)然,DNN有時(shí)也叫做多層感知機(jī)(Multi-Layer perceptron,MLP),。

在深度神經(jīng)網(wǎng)絡(luò)中相鄰兩層之間的任一神經(jīng)元相連,DNN看起來很復(fù)雜,,但是局部來講還是和感知機(jī)一樣的,,包含一個(gè)線性關(guān)系和一個(gè)激活函數(shù)。

下面開始介紹卷積神經(jīng)網(wǎng)絡(luò),。

卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的全連接網(wǎng)絡(luò)最大的區(qū)別是,,它的結(jié)構(gòu)基于一個(gè)假設(shè),即輸入數(shù)據(jù)是圖像,,基于該假設(shè),,我們就向結(jié)構(gòu)中添加了一些特有的性質(zhì)。這些特有屬性使得前向傳播函數(shù)實(shí)現(xiàn)起來更高效,,并且大幅度降低了網(wǎng)絡(luò)中參數(shù)的數(shù)量,。

這三種特性一個(gè)非常重要的共同點(diǎn)就是可以大幅減少權(quán)重參數(shù)。減少參數(shù)的結(jié)果是我們可以設(shè)計(jì)更深表達(dá)能力更強(qiáng)的網(wǎng)絡(luò),。

卷積層的參數(shù)是有一些可學(xué)習(xí)的濾波器集合構(gòu)成的,。每個(gè)濾波器在空間上(寬度和高度)都比較小,但是深度和輸入數(shù)據(jù)一致,。

在每個(gè)卷積層上,,我們會(huì)有一整個(gè)集合的濾波器,每個(gè)都會(huì)生成一個(gè)不同的二維激活圖,。將這些激活映射在深度方向上層疊起來就生成了輸出數(shù)據(jù),。

例子中卷積核為[-1, 0,1],輸出向量的第一個(gè)值-1來自卷積核與與對(duì)應(yīng)輸出層的乘積 -1 = -1*1 + 0*1 + 2*2

零填充(zero padding)是在輸入向量?jī)啥诉M(jìn)行補(bǔ)零,。圖中給出了輸入的兩端各補(bǔ)一個(gè)零后的卷積示例。假設(shè)卷積層的輸入神經(jīng)元個(gè)數(shù)為n,,卷積大小為m,,步長(zhǎng)(stride)為s,,輸入神經(jīng)元兩端各填補(bǔ) p個(gè)零(zero padding),,那么該卷積層的神經(jīng)元數(shù)量為 (n ? m + 2p)/s + 1。

零填充有一個(gè)良好性質(zhì),,即可以控制輸出數(shù)據(jù)體的空間尺寸(最常用的是用來保持輸入數(shù)據(jù)體在空間上的尺寸,,這樣輸入和輸出的寬高都相等)。

卷積層的作用是提取一個(gè)局部區(qū)域的特征,,不同的卷積核相當(dāng)于不同的特征提取器,。上一節(jié)中描述的卷積層的神經(jīng)元和全連接網(wǎng)絡(luò)一樣都是一維結(jié)構(gòu)。既然卷積網(wǎng)絡(luò)主要應(yīng)用在圖像處理上,,而圖像為兩維結(jié)構(gòu),,因此為了更充分地利用圖像的局部信息,通常將神經(jīng)元組織為三維結(jié)構(gòu)的神經(jīng)層,,其大小為寬度 M×高度N×深度D,,有D 個(gè)M × N 大小的特征映射構(gòu)成。圖中現(xiàn)實(shí)的尺寸為5x5x1 也就是深度為1,,長(zhǎng)寬為5

可以看出來卷積操作可以看成對(duì)原始圖片的某種映射操作,,比如提取花的輪廓特征等。

從圖中可以非常直觀的看出來卷積操作可以極大地減少參數(shù),。

特征映射(feature map)為一幅圖像(或其它特征映射)在經(jīng)過卷積提取到的特征,,每個(gè)特征映射可以作為一類抽取的圖像特征。為了卷積網(wǎng)絡(luò)的表示能力,,可以在每一層使用多個(gè)不同的特征映射,,以更好地表示圖像的特征。

在輸入層,,特征映射就是圖像本身,。如果是灰度圖像,就是有一個(gè)特征映射,,深度D = 1,;如果是彩色圖像,分別有RGB三個(gè)顏色通道的特征映射,,輸入層深度D= 3,。

卷積層中從輸入特征映射組X到輸出特征映射Yp 的計(jì)算示例。

這是卷積層的運(yùn)行演示,。因?yàn)?D數(shù)據(jù)難以可視化,,所以所有的數(shù)據(jù)(輸入數(shù)據(jù)體是藍(lán)色,,權(quán)重?cái)?shù)據(jù)體是紅色,輸出數(shù)據(jù)體是綠色)都采取將深度切片按照列的方式排列展現(xiàn),。輸入數(shù)據(jù)體的尺寸是5x5x3,,卷積層參數(shù)K=2,F=3,S=2,P=1。就是說,,有2個(gè)濾波器,,濾波器的尺寸是3*3,它們的步長(zhǎng)是2.因此,,輸出數(shù)據(jù)體的空間尺寸是(5-3+2)/2+1=3,。注意輸入數(shù)據(jù)體使用了零填充P=1,所以輸入數(shù)據(jù)體外邊緣一圈都是0,。下面的例子在綠色的輸出激活數(shù)據(jù)上循環(huán)演示,,展示了其中每個(gè)元素都是先通過藍(lán)色的輸入數(shù)據(jù)和紅色的濾波器逐元素相乘,然后求其總和,,最后加上偏差得來,。

特征映射(feature map)為一幅圖像(或其它特征映射)在經(jīng)過卷積提取到的特征,每個(gè)特征映射可以作為一類抽取的圖像特征,。為了卷積網(wǎng)絡(luò)的表示能力,,可以在每一層使用多個(gè)不同的特征映射,以更好地表示圖像的特征,。

常用的匯聚函數(shù)有兩種:1. 最大匯聚(maximum pooling):一般是取一個(gè)區(qū)域內(nèi)所有神經(jīng)元的最大值,。平均匯聚(mean pooling):一般是取區(qū)域內(nèi)所有神經(jīng)元的平均值。

典型的的卷積網(wǎng)絡(luò)結(jié)構(gòu)通常由多個(gè)卷積核匯聚結(jié)構(gòu)組成,。

卷積網(wǎng)絡(luò)的層次結(jié)構(gòu)也是不斷地提取原始圖像特征的過程,,從底層四的邊緣特征逐漸到結(jié)構(gòu)特征。

這是識(shí)別車輛的一個(gè)層級(jí)網(wǎng)絡(luò)結(jié)構(gòu),。

下面開始介紹典型的網(wǎng)絡(luò)結(jié)構(gòu),。

不計(jì)輸入層,LeNet-5共有7層,,每一層的結(jié)構(gòu)為:

1. 輸入層:輸入圖像大小為32 × 32 = 1024,。

2. C1層是卷積層,使用6個(gè)5 × 5的濾波器,,得到6組大小為28 × 28 = 784 的特征映射,。因此,C1層的神經(jīng)元數(shù)量為6× 784 = 4, 704,,可訓(xùn)練參數(shù)數(shù)量為6× 25 + 6 = 156,,連接數(shù)為156× 784 = 122, 304(包括偏置在內(nèi),下同),。

3. S2層為匯聚層,,采樣窗口為2×2,,使用平均匯聚,并使用一個(gè)非線性函數(shù),。神經(jīng)元個(gè)數(shù)為 6 × 14 × 14 = 1, 176,,可訓(xùn)練參數(shù)數(shù)量為 6× (1 + 1) = 12,連接數(shù)為6× 196 × (4 + 1) = 5, 880,。

4. C3層為卷積層,。LeNet-5中用一個(gè)連接表來定義輸入和輸出特征映射之間的依賴關(guān)系,如圖5.11所示,,共使用60個(gè)5 × 5的濾波器,,得到16組大小第105頁。為10× 10的特征映射,。神經(jīng)元數(shù)量為16 × 100 = 1, 600,可訓(xùn)練參數(shù)數(shù)量為(60× 25 + 16 = 1, 516,,連接數(shù)為100× 1, 516× = 151, 600,。

5. S4層是一個(gè)匯聚層,采樣窗口為2× 2,,得到16個(gè)5 × 5大小的特征映射,,可訓(xùn)練參數(shù)數(shù)量為16 × 2 = 32,連接數(shù)為16 × (4 + 1) = 2000,。

6. C5層是一個(gè)卷積層,,使用120 × 16 = 1, 920個(gè)5 × 5的濾波器,得到120組大小為1 × 1的特征映射,。C5層的神經(jīng)元數(shù)量為120,,可訓(xùn)練參數(shù)數(shù)量為1,920 × 25 + 120 = 48, 120,連接數(shù)為120× (16 × 25 + 1) = 48, 120,。

7. F6層是一個(gè)全連接層,,有84個(gè)神經(jīng)元,可訓(xùn)練參數(shù)數(shù)量為84×(120+1) = 10, 164,。連接數(shù)和可訓(xùn)練參數(shù)個(gè)數(shù)相同,,為10,164。

8. 輸出層:輸出層由10個(gè)歐氏徑向基函數(shù)(Radial Basis Function,,RBF)函數(shù)組成,。這里不再詳述。

在ImageNet數(shù)據(jù)集上的圖像分類比賽結(jié)果,??梢钥吹?2之后每一年的最差結(jié)果都能達(dá)到上年的最好結(jié)果。

AlexNet[Krizhevsky et al., 2012]是第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)模型,,其首次使用了很多現(xiàn)代深度卷積網(wǎng)絡(luò)的一些技術(shù)方法,,比如使用GPU 進(jìn)行并行訓(xùn)練,,采用了ReLU作為非線性激活函數(shù),使用Dropout防止過擬合,,使用數(shù)據(jù)增強(qiáng)來提高模型準(zhǔn)確率等,。AlexNet贏得了2012年ImageNet圖像分類競(jìng)賽的冠軍。 AlexNet的結(jié)構(gòu)包括5個(gè)卷積層,、3個(gè)全連接層和1個(gè)softmax 層,。因?yàn)榫W(wǎng)絡(luò)規(guī)模超出了當(dāng)時(shí)的單個(gè)GPU的內(nèi)存限制,AlexNet將網(wǎng)絡(luò)拆為兩半,,分別放在兩個(gè)GPU上,,GPU間只在某些層(比如第3層)進(jìn)行通訊。

在卷積層中如何選擇合適的卷積核大小是一個(gè)十分關(guān)鍵的問題,。Inception 模塊采取的方法是同時(shí)使用1× 1,、3 × 3、5 × 5的卷積核,,并將得到的特征映射拼接起來作為輸入特征映射,。圖中給出了v1版本的inception模塊,采用了4 組平行的特征抽取方式,,分別為1 × 1,、3 × 3、5 × 5的卷積核3× 3的最大匯聚,。同時(shí),,為了提高計(jì)算效率,減少參數(shù)數(shù)量,,inception模塊在進(jìn)行3 × 3,、5 × 5的卷積前,先進(jìn)行一次1 × 1的卷積來減少輸入特征映射的深度,。如果輸入特征映射之間存在冗余信息,,1× 1的卷積相當(dāng)于先進(jìn)行一次特征抽取。

Inception網(wǎng)絡(luò)最早的v1版本是非常著名的GoogLeNet[Szegedy et al., 2015] (如圖5.14),,并贏得了2014年ImageNet圖像分類競(jìng)賽的冠軍,。

Inception網(wǎng)絡(luò)有多個(gè)改進(jìn)版本。其中比較有代表性的有Inceptionv3版本 [Szegedy et al., 2016],,用多層的小卷積核來替換大的卷積核,,以減少計(jì)算量和參數(shù)量。具體包括(1)使用兩層3× 3的卷積來替換v1中的5 × 5的卷,;(2)使用連續(xù)的n × 1和1 × n來替換n × n的卷積,。Inception v3版本同時(shí)也引入了標(biāo)簽平滑以及批量歸一化等優(yōu)化方法進(jìn)行訓(xùn)練。

殘差網(wǎng)絡(luò)(residual network,,ResNet)是通過給非線性的卷積層增加直連邊的方式來提高信息的傳播效率,。殘差網(wǎng)絡(luò)的思想并不局限與卷積神經(jīng)網(wǎng)絡(luò),。

殘差單元由多個(gè)級(jí)聯(lián)的(等長(zhǎng))卷積層和一個(gè)跨層的直連邊組成,再經(jīng)過ReLU激活后得到輸出,。殘差網(wǎng)絡(luò)就是將很多個(gè)殘差單元串聯(lián)起來構(gòu)成的一個(gè)非常深的網(wǎng)絡(luò),。

AlphaGo的前兩個(gè)網(wǎng)絡(luò)都是通過從KGS圍棋服務(wù)器上獲得的3000萬個(gè)人類高手的對(duì)決棋盤狀態(tài)(Position)進(jìn)行有監(jiān)督學(xué)習(xí)得到的。輸入是棋盤狀態(tài),,輸出是人類高手的下一步走子位置,。監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)使用了13層的深度卷積神經(jīng)網(wǎng)絡(luò)。

Krizhevsky等學(xué)習(xí)到的濾波器例子,。這96個(gè)濾波器的尺寸都是[11x11x3],,在一個(gè)深度切片中,每個(gè)濾波器都被55x55個(gè)神經(jīng)元共享,。注意參數(shù)共享的假設(shè)是有道理的:如果在圖像某些地方探測(cè)到一個(gè)水平的邊界是很重要的,,那么在其他一些地方也會(huì)同樣是有用的,這是因?yàn)閳D像結(jié)構(gòu)具有平移不變性,。所以在卷積層的輸出數(shù)據(jù)體的55x55個(gè)不同位置中,,就沒有必要重新學(xué)習(xí)去探測(cè)一個(gè)水平邊界了。

N-Gram是一種基于統(tǒng)計(jì)語言模型的算法,。它的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長(zhǎng)度是N的字節(jié)片段序列,。

我們把文本序列中的每個(gè)詞用一個(gè)向量表示,,則文本序列也可以表示成圖像那樣的二維形式。卷積核的跨度一般都是詞向量的維度,。

在把文本表示成為二維結(jié)構(gòu)后可以用同樣的卷積核匯聚層交替結(jié)構(gòu)來形成卷積網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)對(duì)文本的建模,。

輸入層是一個(gè)表示句子的矩陣,每一行是word2vec詞向量,。接著是由若干個(gè)濾波器組成的卷積層,,然后是最大池化層,最后是softmax分類器,。該論文也嘗試了兩種不同形式的通道,,分別是靜態(tài)和動(dòng)態(tài)詞向量,其中一個(gè)通道在訓(xùn)練時(shí)動(dòng)態(tài)調(diào)整而另一個(gè)不變,。

跟的上圖類似的結(jié)構(gòu),,但更復(fù)雜一些,用于學(xué)習(xí)整個(gè)文本序列的向量表示,。

第二部分的深度學(xué)習(xí)基礎(chǔ)模型部分——前饋神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)束了,,敬請(qǐng)期待下一期的深度學(xué)習(xí)部分-基礎(chǔ)模型剩余部分。

特別提示-邱老師深度學(xué)習(xí)slide-part2下載:

請(qǐng)關(guān)注專知公眾號(hào)

轉(zhuǎn)載請(qǐng)注明來自浙江中液機(jī)械設(shè)備有限公司 ,,本文標(biāo)題:《【深度學(xué)習(xí)最精煉中文講義】前饋與卷積神經(jīng)網(wǎng)絡(luò)詳解,,復(fù)旦邱錫鵬老師《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》報(bào)告分享02(附報(bào)告pdf下載)》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,,每一秒,,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

驗(yàn)證碼

評(píng)論列表 (暫無評(píng)論,71人圍觀)參與討論

還沒有評(píng)論,,來說兩句吧...

Top
 ??诰G地城最新信息消息  興寧發(fā)布信息網(wǎng)最新  大化縣代課最新信息群  東莞冷凍業(yè)招聘最新信息  興光水電招聘信息最新  同瑞醫(yī)療招聘信息最新  燕子嶺倉(cāng)庫出租最新信息  東誠(chéng)藥業(yè)訴訟最新信息  民營(yíng)銀行最新拍賣信息價(jià)  廠房出租最新信息太倉(cāng)  盧卡帕尼最新信息  黃石造型師招聘信息最新  網(wǎng)597最新招聘信息  新源縣房?jī)r(jià)信息最新  航班熔斷最新信息孟加拉  阜新入殮師招聘最新信息  山東吳磊最新信息視頻  中新國(guó)際城價(jià)格最新信息  漢川最新招聘保安信息  奉化招聘包裝工最新信息  富拉爾基招聘信息最新  鄞州區(qū)人才最新招聘信息  安慶最新商鋪出售信息  沙田碧桂園招租最新信息  大同古城房出租最新信息  招遠(yuǎn)小時(shí)工最新信息  涉縣新邯鋼招工信息最新  重汽近期招聘信息最新  哈密廠房出租信息最新  時(shí)尚雜志招聘信息最新