當前位置:首頁 > 教育 > 正文

85%——人類與機器共同的最優學習率

導語

“學習”是一個寬泛的概念,而今年來人工智能和認知科學的一系列工作,正在嘗試将學習過程量化。在一篇論文中,研究者發現對于計算機系統和生物大腦,可能存在普遍共性——學習内容的訓練精度接近85%時,學習速度達到最優。

目錄

1.“恰到好處”——學習的迷思

2.計算最優學習率

3.模拟驗證:感知機模型

4.模拟驗證:類生物神經網絡

5.心流的數學理論

6.學習的定量時代?讨論、延伸與啟示

如何對學習者施行最好的教育?這似乎是一個無解的問題。

然而在2018 年底,來自包括亞利桑那大學、布朗大學、加州大學洛杉矶分校、普林斯頓神經科學研究所等多院校合作研究者發布表的一篇預印本論文,《The Eighty Five Percent Rule for Optimal Learning》中,研究者們通過關注訓練難度這一單一變量,定量考察了其對學習速度的影響。

論文題目:

The Eighty Five Percent Rule for Optimal Learning

論文地址:

https://www.biorxiv.org/content/10.1101/255182v1

該論文證明,無論學習者是人類、動物還是機器,在大多數情況下,都存在一個學習的最有效點——在這個“甜蜜點”(sweet spot)附近進行學習既不會太容易,也不會太難,然而學習速度卻是最快的。

論文的研究從二分類任務(Binary classification)開始,得出了一大類學習算法“甜蜜點”的條件。對于所有這些基于梯度下降的學習算法,論文計算出:最佳學習錯誤率為15.87%,或者相反,最佳訓練精度為85%。,在此最佳難度下訓練可以導緻學習速度的指數級增長,同時論文證明該“85%規則”對于人工智能中使用的人工神經網絡,或者和用來描述人類和動物學習的類生物神經網絡都是有效的。

1. “恰到好處”——學習的迷思

人們在學習新技能時,例如語言或樂器,通常會覺得在能力邊界附近進行挑戰時感覺最好——不會太難以至于氣餒,也不會太容易以至于感到厭煩。

曆史傳統中有所謂的中庸原則,我們也會有一種簡單直覺經驗,即做事要“恰到好處”。反映在學習中,即存在一個困難程度的“甜蜜點”,一個“金發姑娘區”。在現代教育研究中,在這個區域的不僅教學最有效果[1],甚至能解釋嬰兒在更多更少可學習刺激之間的注意力差異[2]。

在動物學習研究文獻中,這個區域是“興奮”[3]和“失落”[4]背後的原因,通過逐步增加訓練任務的難度,動物才得以學習越來越複雜的任務。

在電子遊戲中幾乎普遍存在的難度等級設置中,也可以觀察到這一點,即玩家一旦達到某種遊戲水平,就會被鼓勵、甚至被迫進行更高難度水平的遊戲。

類似地,在機器學習中,對于各種任務進行大規模神經網絡訓練,不斷增加訓練的難度已被證明是有用的 [5,6],這被稱為“課程學習”(Curriculum Learning)[7] 和“自步學習”(Self-Paced Learning)[8]。

盡管這些曆史經驗有很長的曆史,但是人們一直不清楚為什麼一個特定的難度水平就對學習有益,也不清楚最佳難度水平究竟是多少。

在這篇論文中,作者就讨論了在二分類任務的背景下,一大類學習算法的最佳訓練難度問題。更具體而言,論文聚焦于基于梯度下降的學習算法。在這些算法中,模型的參數(例如神經網絡的權重)基于反饋進行調整,以便随時間推移降低平均錯誤率[9],即降低了作為模型參數函數誤差率的梯度。

這種基于梯度下降的學習構成了人工智能中許多算法的基礎,從單層感知器到深層神經網絡[10],并且提供了從感知[11],到運動控制[12]到強化學習[13]等各種情況下人類和動物學習的定量描述。對于這些算法,論文就訓練的目标錯誤率提供了最佳難度的一般結果:在相當溫和的假設下,這一最佳錯誤率約為15.87%,這個數字會根據學習過程中的噪音略有不同。

論文從理論上表明,在這個最佳難度下訓練可以導緻學習速度的指數級增長,并證明了“85%規則”在兩種情況下的适用性:一個簡單的人工神經網絡:單層感知機,以及一個更複雜、用來描述人類和動物的感知學習[11]的類生物神經網絡(biologically plausible network)。

2. 計算最優學習率

在标準的二分類任務中,人、動物或機器學習者需要輸入的簡單刺激做出二元标簽分類判斷。

例如,在心理學和神經科學[15,16]的随機點動實驗(Random Dot Motion)範例中,刺激由一片移動的點組成 - 其中大多數點随機移動,但有一小部分連貫一緻地向左或向右移動。受試者必須判斷相應一緻點的移動方向。

決定任務感知判斷難度的一個主要因素是一緻移動點所占的比例。如下圖所示,一緻點占0%時顯然最難,100 %時最容易,在 50%時難度居中。

實驗人員可以在訓練過程中使用被稱為“階梯化”(staircasing)的程序[17]控制這些一緻移動點的比例以獲得固定的錯誤率。

論文假設學習者做出的主觀決策為變量 h,由刺激向量 x(如所有點的運動方向) 的經函數 Φ 計算而來,即:h = Φ(x, φ) ——(1),其中φ是可變參數。并假設變換過程中,會産生一個帶噪聲表示的真實決策變量Δ(例如,向左移動點的百分比),即又有 h = ∆ + n ——(2)。

噪聲 n 由決策變量的不完全描述而産生的,假設 n 是随機的,并從标準偏差σ的零均值正态分布中采樣。設 Δ = 16,則主觀決策變量 p(h) 的概率分布如圖1A所示。

紅色曲線是學習之後新的曲線,可以看到其分布标準差σ比原來有所降低,使更多變量分布在了Δ=16 附近。這就說明學習者在學習之後決策準确度有所提高。曲線下方的陰影區域面積(積分)對應于錯誤率,即在每個難度下做出錯誤響應的概率。

如果把決策界面(decision boundary)設置為 0,當 h > 0 時模型選擇選項 A,當 h < 0 時選擇 B, h = 0 時随機選擇。那麼由帶噪聲表示的決策變量導緻的錯誤概率分布為:

其中 F(x) 是噪聲标準正态分布的累積分布函數,概率密度函數 p(x)= p(x|0,1)。由等式(3)可以得到 β = 1/σ。即若 σ 為正态分布的标準差,則 β 精确表示了在任務難度Δ下學習者的技能水平。σ越小,β越大,技能水平越高。

如圖1B所示,無論學習前還是學習後,随着決策變得更容易(Δ增加),兩條曲線皆趨于下降,從而使錯誤率變得更低。

但兩條曲線的下降速度是不一樣的:當β增加(σ變小)後,曲線更集中和陡峭,因此學習之後的紅色曲線下降速度也更快,這表示學習者對任務挑戰的技能水平越趨于完善。

由最初的公式(1) 可知,學習的目标是調整參數φ,使得主觀決策變量 h 更好地反映真實決策變量Δ。即構建模型的目标應該是盡量去調整參數φ以便減小噪聲 σ 的幅度,或者等效地去增加技能水平精度 β。

實現這種調節的一種方法是使用誤差率函數的梯度下降來調整參數。例如,根據時間 t 來改變參數。論文在将梯度轉換為精度β的表示後,發現影響因子隻在于最大化學習率 ∂ER/∂β 的值,如圖1C所示。顯然,最佳難度Δ随着技能水平精度β的函數 dER/dβ 而變化,這意味着必須根據學習者的技能水平實時調整學習難度。不過,通過Δ和ER之間的單調關系(圖1B),能夠對此以誤差率ER來表達最佳難度,于是可以得到圖1D。

在變換後,以誤差率表達的最佳難度是一個精度函數的常量。這意味着可以通過在學習期間将誤差率鉗制在固定值上實現最佳學習。論文通過計算得出,對于高斯分布的噪聲這個固定值是:

——即最佳學習率下誤差率約為 15.87 %。

3. 模拟驗證:感知機模型

為了驗證“85%規則”的适用性,論文模拟了兩種情況下訓練準确性對學習的影響:在人工智能領域驗證了經典的感知機模型,一種最簡單的人工神經網絡,已經被應用于從手寫識别到自然語言處理等的各種領域。

感知機是一種經典的單層神經網絡模型,它通過線性阈值學習過程将多元刺激 x 映射到二分類标簽 y 上。為了實現這種映射,感知機通過神經網絡權重進行線性變換,并且權重會基于真實标簽 t 的反饋進行更新。也就是說,感知機隻有在出錯時才進行學習。自然的,人們會期望最佳學習與最大錯誤率相關。然而,因為感知機學習規則實際上是基于梯度下降的,所以前面的分析對這裡也适用,即訓練的最佳錯誤率應該是15.87%。

為了驗證這個預測,論文模拟了感知機學習情況。以測量範圍為0.01到0.5之間的訓練誤差率,步長為0.01(每個誤差率1000次模拟)訓練。學習的程度由精确度β确定。正如理論預測的那樣,當以最佳錯誤率學習時,網絡學習效率最高。如圖2A所示,不同顔色梯度表示了以相對精度β/βmax 作為訓練誤差率和持續時間的函數,在 β=βmax 時學習下降最快;在不同錯誤率比例因子下的動态學習過程,圖2B也顯示,理論對模拟進行了良好的描述。

圖2:“85%規則”下的感知機

4. 模拟驗證:類生物神經網絡

為了證明“85%規則”如何适用于生物系統學習,論文模拟了計算神經科學中感知學習的“Law和Gold模型”[11]。在訓練猴子學會執行随機點運動的任務中,該模型已被證明可以解釋包括捕捉行為、神經放電和突觸權重等長期變化情況。在這些情況下,論文得出相同結果,即當訓練以85%的準确率進行時,學習效率達到最大化。

具體來說,該模型假設猴子基于MT腦區的神經活動做出有關左右感知的決策。MT區在視覺系統的背側視覺通路(Dorsal visual stream),是已知在大腦視覺中表征空間和運動信息的區域[15],也被稱為“空間通路”(where),相對的,視覺系統另一條腹側視覺通路(Ventral visual stream)則表征知覺形狀,也被稱為“辨識通路”(what)。

在随機點動任務中,已經發現MT神經元對點運動刺激方向和一緻相關性 COH 都有響應,使得每個神經元對特定的偏好方向響應最強,且響應的幅度随着相關性而增加。這種激發模式可通過一組簡單的方程進行描述,從而對任意方向與相關刺激響應的噪聲規模進行模拟。

根據大腦神經集群響應情況,Law 和 Gold 提出,動物有一個單獨腦區(側面頂側區域,LIP)用來構建決策變量,作為MT中活動的加權和。不過它與感知機的關鍵差異在于,存在一個無法通過學習來消除的随機神經元噪聲。這意味着無論多麼大量的學習都不可能帶來完美的性能。不過,由論文計算結果所示,不可約噪聲的存在不會改變學習的最佳精度,該精度仍為85%。

Law and Gold 模型和感知機的另一個區别是學習規則的形式。具體來說就是有基于預測誤差正确的獎勵,會根據強化學習規則進行更新權重。盡管與感知器學習規則有很大的不同,但Law和Gold模型仍然在誤差率[13]上實現梯度下降,在 85%左右實現學習最優。

為了測試這一預測,論文以各種不同的目标訓練誤差率進行了模拟,每個目标用MT神經元的不同參數模拟100次。其中訓練網絡的精度β,則通過在1%到100%之間以對數變化的一組一緻性測試上,拟合網絡的模拟行為來進行估計。

如圖3A所示,在訓練網絡精确度β作為訓練錯誤率的函數下,藍色的理論曲線很好描述了訓練後的精度。其中灰點表示單次模拟的結果。紅點對應于每個目标誤差率的平均精度和實際誤差率。

此外,在圖3B中,以三條不同顔色測量曲線顯示了三種不同訓練錯誤率下行為的預期差異 。可以看到,在誤差率為 0.16 (接近 15.87%)的黃色曲線上,結果精确度高于過低或過高誤差率的兩條曲線,即取得了最優的訓練效果。

5. 心流的數學理論

沿着相同的思路,論文的工作指向了“心流”狀态的數學理論[17]。這種心理狀态,即“個體完全沉浸在沒有自我意識但具有深度知覺的控制”的活動,最常發生在任務的難度與參與者的技能完全匹配時。

這種技能與挑戰之間平衡的思想,如圖4A所示,最初通過包括另外兩種狀态的簡單概念圖進行描述:挑戰高于技能時的“焦慮”和技能超過挑戰時的“無聊”,在二者中間即為“心流”。

而以上這三種不同性質的區域:心流,焦慮和無聊,可以本篇論文的模型中自然推演出來。

設技能水平為精度 β,以真實決策變量的反函數 1 /Δ 為技能挑戰水平。論文發現當挑戰等于技能時,心流與高學習率和高準确性相關,焦慮與低學習率和低準确性相關,厭倦與高準确性和低學習率相關(圖4B和圖C)。

也就是說,在技能與挑戰水平相等時以“心流”狀态進行的學習,具有最高的學習率和最高的準确性。

此外論文引述了 Vuorre 和 Metcalfe 最近的研究[18]發現,心流的主觀感受達到巅峰時的任務是往往主觀評定為中等難度的任務。而在另一項關腦機接口控制學習方面的研究工作發現,主觀自我報告的最佳難度測量值,在最大學習任務相關難度處達到峰值,而不是在與神經活動的最佳解碼相關難度處達到峰值[19]。

那麼一個重要的問題來了,在使用最佳學習錯誤率,達到主觀最佳任務難度即心流狀态進行學習時,其學習速度究竟有多快?

論文通過比較最佳錯誤率與固定但可能次優的錯誤率、固定難度進行學習來解決了這個問題。通過對訓練誤差率函數計算,最終得到,在固定錯誤率下:學習技能β精度随着時間 t 的平方根而增長。

而相對的,在沒有使用最佳固定錯誤率學習,即決策變量固定下一般學習,其結果會強烈地依賴于噪聲的分布。不過論文計算出了噪聲為正态分布的情況下的近似解,對β的提升,學習技能以更慢的對數速度增長。即若最佳訓練率下,可以相當于對後者實現指數級增長的改進。二者學習增速趨勢對比圖如下:

從論文對感知機和Law and Gold 模型測試,心流理論的數學化可以看出,未來研究者們去測試各種學習類型活動參與度的主觀測量值,驗證是否在最大學習梯度點達到峰值,“85%規則”是否有效将會是有非常有趣的。

然而這篇論文的作用還遠不僅于此,下面就本文意義做進一步深入探讨。

6. 學習的定量時代?讨論、延伸與啟示

學習對個體生物個體的重要性不言而喻,甚至比大多數人想得更重要。在2013年1月,《心理學通報與評論》上發表了一篇 論文①的就認為,學習不僅一個是認知過程,在更本質的功能層面是一種個體自适應過程,包括生物體在有機環境規律作用下的行為改變,并認為就如演化論是生物學核心一樣,學習研究應該是心理學的核心。

然而,自心理學誕生後的諸多理論,對學習的研究往往止于簡單行為操作或概念描述層面。比如行為主義研究者巴普洛夫和和斯金納經典條件反射、操控條件反射,蘇聯心理學家維果斯基(Lev Vygotsky)有關兒童教育的“最近發展區”理論,有關動機和表現之間的關系的耶基斯–多德森定律(Yerkes–Dodson law)、基于舒适-學習-恐慌區的“舒适圈理論”,還包括米哈裡·契克森米哈賴的“心流理論”,安德斯·艾利克森的“刻意練習”等等。

這些學習理論,要麼強調學習需要外部刺激相關性、或正向獎勵負向懲罰的某些強化,要麼強調學習在大周期的效果,或較小周期的最小行動,要麼尋求某種任務難度與技能水平、或動機水平與表現水平之間的一個折中區域。但是卻從來沒有給出如何到能達這種狀态的條件,往往隻能憑借有教育經驗的工作者在實際教學中自行慢慢摸索。

而在這篇論文中,研究者考慮了在二分類任務和基于梯度下降的學習規則情況下訓練準确性對學習的影響。準确計算出,當調整訓練難度以使訓練準确率保持在85%左右時,學習效率達到最大化,要比其他難度訓練的速度快得多,會使學習效果指數級快于後者。

這個結果理論在人工神經和類生物學神經網絡具有同樣的效果。即“85%規則”既适用于包括多層前饋神經網絡、遞歸神經網絡、基于反向傳播的各種深度學習算法、玻爾茲曼機、甚至水庫計算網絡(reservoir computing networks)[21, 22])等廣泛的機器學習算法。通過對∂ER/∂β梯度最大化的分析,也證明其适用于類生物神經網絡的學習,甚至任何影響神經表征精确度的過程,比如注意、投入或更一般的認知控制[23,24]。例如在後者中,當∂ER/∂β最大化時,參與認知控制的好處會最大化。通過關聯預期價值控制理論(Expected Value of Control theory)[23,24,25]的研究,可以知道學習梯度 ∂ER/∂β 由大腦中與控制相關的區域 ( 如前扣帶回皮層 ) 來進行監控。

因此可以說,本篇論文無論對計算機科學和機器學習領域研究,還是對心理學和神經科學研究,都具有重要的意義。

在前者,通過“課程學習”和“自步學習”訴諸廣泛的機器學習算法,本文基于梯度下降學習規則思路下包括神經網絡的各種廣泛學習算法,都急需後續研究者進行探索和驗證。在最佳學習率上,論文的工作僅僅是對機器學習學習效率數學精确化實例的第一步。并且同時也促使研究者思考:如何将這種最優化思路推廣到在更廣泛的環境和任務的不同算法中?例如貝葉斯學習,很明顯和基于梯度下降的學習不同,貝葉斯學習很難受益于精心構建的訓練集,無論先出簡單或困難的例子,貝葉斯學習者會學得同樣好,無法使用 ∂ER/∂β 獲得“甜蜜點”。但跳開論文研究我們依然可以思考:有沒有其它方法,例如對概念學習,通過更典型或具有代表性的樣本、以某種設計的學習策略來加快學習速度和加深學習效果?

另一方面,這篇論文的工作同樣對心理學、神經科學和認知科學領域有重大啟示。

前面已經提到,有關學習理論大多止步于概念模型和定性描述。除了少數諸如心理物理學中的韋伯-費希納定律(Weber-Fechner Law)這樣,有關心理感受強度與物理刺激強度之間的精确關系,以及數學心理學(Mathematical psychology)的研究取向和一些結論,缺乏數學定量化也一直是心理學研究的不足之處。

而這篇論文不僅結論精确,其結論适用于包括注意、投入或更一般的認知控制下任何影響神經表征精确度的過程。如前所述,如果我們采取“學習不僅一個是認知過程,在更本質的功能層面是一種個體自适應改變過程”有關學習本質的觀點,會發現它帶來的啟示甚至具有更大的适用性,遠遠超出了一般的認知和學習之外。

例如,在知覺和審美方面的研究中,俄勒岡大學(University of Oregon)的物理學 Richard Taylor 通過對視覺分形圖案的研究發現,如設白紙的維度D為1,一張完全塗黑的紙的維度D為2,即畫出來的圖形維度在 1~2 之間,那麼人類的眼睛更偏好于看維度 D=1.3 的圖形[26]。事實上許多大自然物體具有的分形維度就是 1.3,在這個複雜度上人們會感到最舒适。一些著名的藝術家,比如抽象表現主義代表人物 ( Jackson Pollock ),他所畫的具有分形的抽象畫(下圖中間一列,左邊是自然圖,右邊為計算機模拟圖)分布在 D=1.1 和 1.9 之間,具有更高分形維度的畫面會給人帶來更大的壓迫感[27]。

心理學家 Rolf Reber 在審美愉悅加工的流暢度理論(Processing fluency theory of aesthetic pleasure)中[28]提出,我們有上述這種偏好是因為大腦可以快速加工這些内容。當我們能迅速加工某些内容的時候,就會獲得一個正性反應。例如加工 D = 1.3的分形圖案時速度很快,所以就會獲得愉悅的情緒反應。此外,在設計和藝術領域心理學家域唐納德·諾曼(Donald Arthur Norman)和藝術史學家貢布裡希(Ernst Gombrich)也分别提出過類似思想。

對比下 D = 1.3 和 15.87% 的出錯率,如果進行下統一比例,會發現前者多出原有分形維複雜性和整體的配比,未知:已知(或熟悉:意外,秩序與複雜)約為 0.3/1.3 ≈ 23.07%,這個結果比15.87%要大。這種計算方法最早由數學家 George David Birkhoff 在1928 年于《Aesthetic Measure》一書中提出,他認為若 O 為秩序,C 為複雜度,則一個事物的審美度量 M = O/C。

因此,在最簡化估計下,可以類似得出 23.07% 額外信息的“最佳審美比”,會讓欣賞者感到最舒适。

當然,因為信息複雜度的計算方法不一,上面隻是一個非常粗略的估計。審美過程涉及感覺、知覺、認知、注意等多個方面,并且先于狹義的認知和學習過程,因此最佳審美比應該會15.87%要大。但至于具體數值,很可能因為不同環境和文化對不同的主體,以及不同的計算方法有較大差别,例如有學者從香農熵和柯爾莫哥洛夫複雜性方面進行度量的研究[29]。

但不管怎樣,從這篇文章的方法和結論中,我們已可以得到巨大啟示和信心,無論是在人工智能還是心理學或神經科學,無論學習還是審美、知覺或注意,在涉及各種智能主體對各種信息的處理行為中,我們都可能尋求到一個精确的比例,使得通過恰當選取已知和未知,讓智能主體在體驗、控制或認知上達到某種最優。而這種選取的結果,會使積累的效果遠超自然過程得到改進。從這個意義上講,這篇論文影響得很可能不隻是某些科學研究方向,而是未來人類探索和改進自身的根本認知和實踐方法。

作者:十三維

編輯:張爽

你可能想看:

有話要說...

取消
掃碼支持 支付碼