當前位置：首頁 > 科技 > 正文

邱錫鵬，這是Transformer最全綜述

啟示号
科技
3年前
368

機器之心報道
自 2017 年 6 月谷歌發布論文《Attention is All You Need》後，Transformer 架構為整個 NLP 領域帶來了極大的驚喜。在誕生至今僅僅四年的時間裡，Transformer 已經成為自然語言處理領域的主流模型，基于 Transformer 的預訓練語言模型更是成為主流。
随着時間的推移，Transformer 還開始了向其他領域的跨界。得益于深度學習的發展，Transformer 在計算機視覺（CV）和音頻處理等許多人工智能領域已然殺瘋了，成功地引來了學界和業界研究人員的關注目光。到目前為止，研究者已經提出了大量且種類駁雜的 Transformer 變體（又名 X-former），但是仍然缺失系統而全面的 Transformer 變體文獻綜述。
去年，谷歌發布的論文《Efficient Transformers: A Survey》對高效 Transformer 架構展開了綜述，但主要關注 attention 模塊的效率問題，對 Transformer 變體的分類比較模糊。
近日，複旦大學計算機科學技術學院邱錫鵬教授團隊對種類繁多的 X-former 進行了綜述。首先簡要介紹了 Vanilla Transformer，提出 X-former 的新分類法。接着從架構修改、預訓練和應用三個角度介紹了各種 X-former。最後概述了未來研究的一些潛在方向。

論文鍊接：https://arxiv.org/pdf/2106.04554.pdf
回顧 Transformer 的發展
Transformer 最初是作為機器翻譯的序列到序列模型提出的，而後來的研究表明，基于 Transformer 的預訓練模型（PTM）在各項任務中都有最優的表現。因此，Transformer 已成為 NLP 領域的首選架構，尤其是 PTM。除了語言相關的應用，Transformer 還被用于 CV、音頻處理，甚至是化學和生命科學。由于取得了成功，過去幾年研究者又提出了各種 Transformer 變體（又名 X-former）。這些 X-former 主要從以下三個不同的角度改進了最初的 Vanilla Transformer

模型效率。應用 Transformer 的一個關鍵挑戰是其處理長序列時的效率低下，這主要是由于自注意力（self-attention）模塊的計算和内存複雜度。改進的方法包括輕量級 attention（例如稀疏 attention 變體）和分而治之的方法（例如循環和分層機制）；
模型泛化。由于 Transformer 是一種靈活的架構，并且對輸入數據的結構偏差幾乎沒有假設，因此很難在小規模數據上進行訓練。改進方法包括引入結構偏差或正則化，對大規模未标記數據進行預訓練等；
模型适配。這一系列工作旨在使 Transformer 适應特定的下遊任務和應用程序。

雖然可以根據上述角度來組織 X-former，但許多現有的 X-former 可能會解決一個或幾個問題。例如，稀疏 attention 變體不但降低了計算複雜度，而且在輸入數據上引入了結構先驗以緩解小數據集上的過度拟合問題。因此，主要根據 X-former 改進 Vanilla Transformer 的方式進行分類更加有條理：架構修改、預訓練和應用。考慮到本次綜述的受衆可能來自不同的領域，研究者主要關注的是通用架構變體，僅簡要讨論了預訓練和應用方面的具體變體。
Vanilla Transformer
架構
Vanilla Transformer 是一個序列到序列的模型，由一個編碼器和一個解碼器組成，二者都是相同的塊 ? 組成的堆棧。每個編碼器塊主要由一個多頭 self-attention 模塊和一個位置前饋網絡（FFN）組成。為了構建更深的模型，每個模塊周圍都采用了殘差連接，然後是層歸一化模塊。與編碼器塊相比，解碼器塊在多頭 self-attention 模塊和位置方面 FFN 之間額外插入了 cross-attention 模塊。此外，解碼器中的 self-attention 模塊用于防止每個位置影響後續位置。Vanilla Transformer 的整體架構如下圖所示：

用法
通常有三種不同的方式使用 Transformer 架構：

使用編碼器 - 解碼器，通常用于序列到序列建模，例如神經機器翻譯；
僅使用編碼器，編碼器的輸出用作輸入序列的表示，通常用于分類或序列标記問題；
僅使用解碼器，其中也移除了編碼器 - 解碼器 cross-attention 模塊，通常用于序列生成，例如語言建模。

Transformer 變體的的分類

截止目前，領域研究人員從架構修改類型、預訓練方法和應用這三個方面提出了各種基于 vanilla Transformer 的變體模型。下圖顯示了這些變體模型的類别：

而下圖顯示了本文研究者的分類和一些代表性模型：

Attention 模塊
Self-attention 在 Transformer 中非常重要，但在實際應用中存在兩個挑戰：

複雜度。self-attention 的複雜度為 O(T^2·D)。因此，attention 模塊在處理長序列時會遇到瓶頸；
結構先驗。Self-attention 對輸入沒有假設任何結構性偏差，甚至指令信息也需要從訓練數據中學習。因此，無預訓練的 Transformer 通常容易在中小型數據集上過拟合。

Attention 機制的改進可以分為以下幾個方向：

稀疏 attention。将稀疏偏差引入 attention 機制可以降低了複雜性；
線性化 attention。解開 attention 矩陣與内核特征圖，然後以相反的順序計算 attention 以實現線性複雜度；
原型和内存壓縮。這類方法減少了查詢或鍵值記憶對的數量，以減少注意力矩陣的大小；
低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性；
Attention 與先驗。該研究探索了用先驗 attention 分布來補充或替代标準 attention；
改進多頭機制。該系列研究探索了不同的替代多頭機制。

稀疏 attention
在标準的 self-attention 機制中，每個 token 都需要 attend 所有其他的 token。然而，據觀察，對于經過訓練的 Transformer，學習到的 attention 矩陣 A 在大多數數據點上通常非常稀疏。因此，可以通過結合結構偏差來限制每個查詢 attend 的查詢鍵對的數量來降低計算複雜度。
從另一個角度來看，标準 attention 可以被視為一個完整的二部圖，其中每個查詢從所有内存節點接收信息并更新其表示。而稀疏 attention 可以看成是一個稀疏圖，其中删除了節點之間的一些連接。基于确定稀疏連接的指标，研究者将這些方法分為兩類：基于位置和基于内容的稀疏 attention。
原子稀疏 attention
基于位置的稀疏 attention 之一是原子稀疏 attention，如下圖所示主要有五種模式。彩色方塊表示計算的 attention 分數，空白方塊表示放棄的 attention 分數。

複合稀疏 attention
而另一種基于位置的稀疏 attention 是複合稀疏 attention，下圖顯示了其五種主要模式，其中紅色框表示序列邊界。

擴展稀疏 attention
除了上述模式，一些現有的研究已經針對特定數據類型探索了擴展稀疏模式。下圖（a）展示了全局 attention 擴展的抽象視圖，其中全局節點是分層組織的，任何一對 token 都與二叉樹中的路徑相連。紅色框表示查詢位置，橙色節點 / 方塊表示查詢關注相應的 token。

還有一些視覺數據的擴展。Image Transformer 探索了兩種類型的 attention：

按光栅掃描順序展平圖像像素，然後應用塊局部稀疏 attention；
2D 塊局部 attention，其中查詢塊和内存塊直接排列在 2D 闆中，如上圖 (b) 所示。

視覺數據稀疏模式的另一個例子，Axial Transformer 在圖像的每個軸上應用獨立的 attention 模塊。每個 attention 模塊沿一個軸混合信息，同時保持另一個軸的信息獨立，如上圖 (c) 所示。這可以理解為按光栅掃描順序水平和垂直展平圖像像素，然後分别應用具有圖像寬度和高度間隙的跨步 attention。
線性化 attention
下圖顯示了标準 self-attention 和線性化 linear-attention 的複雜度區别。

查詢原型和内存壓縮
除了使用稀疏 attention 或基于内核的線性化 attention 之外，還可以通過減少查詢或鍵值對的數量來降低 attention 的複雜度，這分别引向了查詢原型和内存壓縮的方法。
在查詢原型設計中，幾個查詢原型作為計算 attention 分布的主要來源。該模型要麼将分布複制到表示的查詢的位置，要麼用離散均勻分布填充這些位置。
下圖 (a) 說明了查詢原型的計算流程。除了通過查詢原型減少查詢數量外，還可以通過在應用 attention 機制之前減少鍵值對的數量（壓縮鍵值内存）來降低複雜度，如下圖（b）所示。

先驗 attention
Attention 機制通常将預期值輸出為向量的加權和，其中權重是值上的 attention 分布。傳統上，分布是從輸入生成的，例如 Vanilla Transformer 中的 softmax(QK⊤)。一般情況下，attention 分布也可以來自其他來源，也就是先驗。先驗注意力分布可以補充或替代輸入産生的分布。Attention 的這種表述可以抽象為具有先驗 attention，如下圖所示。在大多數情況下，兩個 attention 分布的融合可以通過在應用 softmax 之前計算對應于先驗 attention 和生成 attention 的分數的加權和來完成。

改進的多頭機制
多頭 attention 的吸引力在于能夠共同 attend 來自不同位置的不同表示子空間的信息。然而，沒有機制可以保證不同的 attention 頭确實地捕捉到不同的特征。
如下圖所示，多頭機制下三種跨度屏蔽函數?(?)。橫軸代表距離?，縱軸代表掩碼值。

其他模塊級修改
位置的重要性
驗證卷積和循環網絡不是置換等變是很簡單的。然而，Transformer 中的 self-attention 模塊和位置前饋層都是置換等變的，這在建模問題時可能是一個問題。例如，在對文本序列建模時，單詞的順序很重要，因此在 Transformer 架構中正确編碼單詞的位置至關重要。因此，需要額外的機制将位置信息注入到 Transformer 中。一種常見的設計是首先使用向量表示位置信息，然後将向量作為附加輸入注入模型。
層的歸一化
層歸一化 ( Layer Normalization, LN) 以及殘差連接被認為是一種穩定深度網絡訓練的機制（如減輕不适定梯度和模型退化）。在 Vanilla Transformer 中，LN 層位于殘差塊之間，被稱為 post-LN 。後來的 Transformer 實現将 LN 層放在 attention 或 FFN 之前的殘差連接内，在最後一層之後有一個額外的 LN 來控制最終輸出的大小，即 pre-LN。Pre-LN 已被許多後續研究和實現所采用。pre-LN 和 post-LN 的區别如下圖所示。

位置方面的 FFN
盡管很簡單，但位置前饋網絡 (feed-forward network, FFN) 層對于 Transformer 實現良好性能至關重要。研究者觀察到簡單地堆疊 self-attention 模塊會導緻等級崩潰問題以及 token 均勻性歸納偏差，而前饋層是緩解此問題的重要構建塊之一。本節探索了研究者對 FFN 模塊的修改。
架構級修改
在本章中，研究者介紹了架構層面的 X-former 變體模型。
輕量級 Transformer
除了在模塊層面為減輕計算開銷所做的努力外，領域内還出現了一些在更高層面進行修改的輕量級 Transformer 模型，如 Lite Transformer、Funnel Transformer 和 DeLighT。
Strengthening Cross-Block Connectivity
在 deep Transformer 編碼器 - 解碼器模型中，解碼器中的 cross-attention 模塊僅利用編碼器的最終輸出，因此誤差信号必須沿着編碼器的深度進行遍曆。這使得 Transformer 更易于受到梯度消失等優化問題的影響。
Transparent Attention [8] 使用每個 cross-attention 模塊中所有編碼器層（包括嵌入層）上的編碼器表示的加權和。對于第 j 個編碼器塊，cross-attention 應表示如下：

Feedback Transformer[34] 提出在 Transformer 解碼器添加反饋機制，其中每個位置均關注來自所有層的曆史表示的加權和：

自适應計算時間
與大多數神經模型一樣，Vanilla Transformer 使用固定（學習的）計算程序來處理每個輸入。一個有趣且有發展潛力的修改是使計算時間以輸入為條件，即在 Transformer 模型中引入自适應計算時間（Adaptive Computation Time, ACT）。
如下圖 12（a）所示，Universal Transformer (UT) 結合了深度循環（recurrence-over-depth）機制，該機制使用一個在深度上共享的模塊來叠代地改進所有符号的表示；圖 12（b）中，Conditional Computation Transformer (CCT) 在每個自注意力和前饋層添加一個門控模塊來決定是否跳過當前層；圖 12（c）中，與 UT 中使用的動态停機機制類似，有一條工作線專門用于調整每個輸入的層數以實現良好的速度 - 準确率權衡，這稱為「提前退出機制」（early exit mechanism）。

利用「分而治之」策略的 Transformer
自注意力對序列長度的二次複雜度會顯著限制一些下遊任務的性能。研究者确定了兩類有具有代表性的方法，分别是循環和層級 Transformer，具體如下圖 13 所示

在循環 Transformer 中，維護一個高速緩存（cache memory）用來合并曆史信息。在處理一段文本時，該網絡從緩存中的讀取作為額外輸入。處理完成後，網絡通過簡單地複制隐藏狀态或使用更複雜的機制來寫入内存。
層級 Transformer 将輸入分層分解為更細粒度的元素。低級特征首先被饋入到 Transformer 編碼器，産生輸出表示，然後使用池化或其他操作來聚合以形成高級特征，然後通過高級 Transformer 進行處理。

你可能想看：

無需注冊，免費使用，用它來傳1G文件隻要1分鐘｜MuseTransfer

MuseTransfer是一款無需注冊、打開網頁即可免費使用的大文件傳輸工具。上傳好的文件默認保留一周，微信登錄之後可以查看傳輸曆史，MuseTransfer可以作為無需長期儲存的臨時大文件雲端工具來...

尋找刺激試駕新奧迪R8 V10 Coupé performance

新奧迪R8 V10 Coupé 不僅擁有極具沖擊力的外觀，其動力的強勁也讓追求激情與速度的跑車愛好者神往。硬朗的線條代表車輛的肌肉感，尾燈使用 l型 LED燈為汽車增添時尚感。内飾設計配置齊全坐在車...

Parallels Desktop（16） for M1 送激活碼了「隻對m1芯片arm蘋果電腦」

m1芯片的蘋果筆記本是否可以裝虛拟機，那就是硬件問題不是靠軟件可以解決的，你怎麼更新他也弄不出能刷地鐵公交卡的功能，蘋果電腦選擇了m1芯片，安卓手機也可以刷上蘋果系統？前面咱們有一片公衆号文章已經做過...

用 DeDRM 破解去除 AZW 格式電子書 DRM 保護 – Kindle伴侶

所以請确保要破解的電子書是通過綁定了你亞馬遜賬号的 Kindle 所購買的，本方法不适用于别人購買的或從網上下載到的受 DRM 保護的電子書。其實在這裡我們隻需要知道DRM是為了保護電子書版權而使用的...

什麼是DNS？為什麼DNS根服務器隻有13台？給中國一台真的很難嗎？

根區域文件又包含所有 TLD 授權服務器的資源記錄。直接響應對根區域中的此資源記錄的請求，根服務器的工作方式取決于名稱解析過程。根服務器沒有關于 www.wljslmz.com 的特定 IP 地址的信...

最全的Camera Raw工具使用詳解教程

不同的區别是這個縮放工具發直接在照片上點擊完成”白平衡工具是一個傾斜的吸管圖标，在左側圖上紅圈的位置用白平衡工具點擊一下？ACR自行調整白平衡形成右側圖效果，用白平衡工具點擊一下紅圈位置，顔色取樣器就...

短暫性全面遺忘（Transient Global Amnesia，TGA）

特征性表現為突然發作的順行性遺忘，血管性（靜脈血流異常或局竈動脈缺血）、癫痫性、偏頭痛相關性。靜脈假說認為TGA是由于颞葉引流靜脈血流異常引起。引起颞葉供血動脈反應性收縮，從而可以解釋部分TGA患者D...

Cell Reseach：caspase11切割gasderminD引發“細胞焦亡” - 基因編輯專區 - 生物谷

這些炎性caspase的激活能夠促進細胞焦亡事件的發生，炎性caspase究竟是如何調節這些細胞事件至今仍然有待解決。該蛋白的切割能夠引發細胞焦亡事件的發生。他們發現這一突變體小鼠不能夠正常發生細胞焦...

舉例說明JMETER的用法-某網站壓力測試

注意jmeter在測試時會把生成的文件比如htm等直接放在bin目錄裡，即模拟多線程同時登錄和查詢。紅色部分為軟件設置說明沒有包括在報告中。每個連接均執行1次登錄及10次查詢操作。右鍵單擊循環控制器裡...

LPA（Limited Partnership Agreement),私募基金設立的核心文件

是用來約束全體合夥人的核心法律文件，這個文件裡約束了LP和GP的權利與義務，對于有限合夥來說LPA是最核心和最基礎的文件,GP充當的是私募基金管理人的角色。一般來說GP會去尋找投資機會然後去進行服務管...

數據中心國标B級與Uptime Tier III等級的級别對比-孫長青

對數據中心能評指标、IT負載率、數據中心蓄冷系統等有些了解，《數據中心設計規範》（GB50174-2017）A級機房的基本要求是容錯，國标B級的核心詞彙是冗餘基礎上的設備容錯，而定義中又有冗餘設備故障...

攝影後期第25講：camera raw基本功能解讀，攝影調色基礎知識二

這是camera raw中HSL灰度面闆，所謂色相是指能夠比較具象地表示某種顔色色别的名稱，我們可以通過調節色相來改變局部的顔色，來改變圖片中藍色的顔色，飽和度增加可以使畫面顔色看起來更鮮豔更飽滿：色...

Camera Raw使用詳解教程完結篇

在配置文件中有四個設置調整部分，【删除色差】是指對照片内容邊緣區域在拍攝中形成的色差進行删除。色差是在拍攝時因場景明暗對比過強、或光圈全開會在照片内容的邊緣、明暗對比的交界邊出現綠色、紫色的亮邊，AC...

脖子痛的元兇：斜方肌激痛點（Trigger point）

疼痛放射至頸部後側接近顱骨處并向下放射至頸底部及肩胛骨區域，該激痛點可以出現在中斜方肌任何部位，來自于下斜方肌激痛點的疼痛可以激活上斜方肌激痛點并導緻疼痛往頸後區域放射，在患者的描述中頭痛常位于眼睛後...

Backtrader量化平台教程

portfolio_csv_name='port_two_year.csv',result_dict=bt_backtest.backtrader_backtest(start_date=start_...

車型識别綜述

IntelligentTransportationSystem)是集計算機、信息、電子及通信等多種高新科技手段于一體的交通控制和管理系統。智能交通系統中的核心功能是對過往車輛的準确檢測和正确的車型識别...

VFP與SQL Server的連接

本文主要講解VFP到SQL Server的連接以及連接中應該注意的問題和錯誤的解決方法　　這裡所指的連接關系（connection）指的是當VFP通過界面卡、SQL Server 的網絡架構、傳輸媒...

SEER數據庫系列|SEER數據庫基本介紹

美國國家癌症研究所（National Cancer Institute）的SEER數據庫收集了大約30％的美國人口的癌症診斷。從簡單地按人群中器官部位枚舉癌症的發展到包括通過組織病理學和分子亞型（由驅...

總結了484個以er為後綴的單詞得出四種加後綴er規則

er▬▶英 [ɜː(r)]美[ɜːr]▬▶int.(思索該說什麼話時發出的聲音)哦，1）abetter▬▶英[ə'betə]美[ə'betə]▬▶abet（v.教唆;rə]美[əb'hɒrə]▬▶ab...

Imperial Blue威士忌是一種什麼樣的酒？品鑒Imperial Blue威士忌

是印度最受歡迎和标志性的威士忌品牌之一，它融合了進口蘇格蘭威士忌和精緻的印度谷物烈酒。并在市場上取得了令人矚目的進展。迅速成為該領域的領先威士忌品牌之一，該品牌不僅是最着名的印度威士忌品牌之一，使其成...

SpringBoot報錯 Error parsing HTTP request header

Note:Note:at org.apache.coyote.http11.AbstractNioInputBuffer.parseRequestLine(AbstractNioInputBuffer...

分享：給員工加薪卻不增加企業成本的方法，KSF薪酬全績效模式

他會覺得在你的公司做到最後的結果隻能是這樣，我認為企業要做OP合夥人的模式，企業根本不知道怎麼數據沉澱，KSF薪酬全績效模式很多人真的去落地的時候，我們并沒有真正地去理解到KSF應該給企業帶來什麼，如...

基于碳化矽MOSFET的20KW高效LLC諧振隔離DC/DC變換器方案研究

本方案利用新一代1000V、65毫歐4腳TO247封裝碳化矽(SiC)MOSFET(C3M0065100K)實現了高頻LLC諧振全橋隔離變換器，所以實際等效導通損耗會比采用全橋拓撲的1000V碳化矽M...

能穿越茫茫宇宙飛到地球上來的UFO，究竟使用的是什麼動力系統？

這些UFO可能是地外智慧生物的飛行器，這些UFO在宇宙中的航行速度應該比人類的飛行器快得多，這些UFO除了能夠以極高的速度穿越茫茫宇宙之外，還可以無視地球的引力以及物體的慣性，因為理論中的曲速引擎就可...

A book review of Robinson Crusoe

I am sure you will fall in love with it.

共享單車行業兩家公司合并！竟不是ofo和摩拜

未來低碳科技與鈞正科技雙方業務将進行合并。将進一步增強低碳科技在共享單車業務的市場競争力。這裡的鈞正科技是一家主營共享單車業務的公司，新公司的實際業務也将由哈羅單車團隊負責。哈羅單車已和40多個城市達...

Transformer attention 機制模型模塊

上一篇
宣賓大法-迎戰咳嗽

下一篇
零基礎學篆刻之二：篆刻實際操作

邱錫鵬，這是Transformer最全綜述

有話要說...取消回複

最新文章

生前隻是小人物，死後震驚史學界

一組記錄川楊河開鑿曆史的老照片

北海茶客: 最近身邊的房價現象以下是我最近接觸到的一些人，一些

英語高考作文萬能模闆和8個衡水體寫作注意事項

莫言被阿城所征服：阿城在我的心目中毫無疑問是個巨大的偶像

恒順：中國“亨氏”的百年曆程

六壬神課占陰陽宅吉兇實例分析

為了帶兩隻流浪狗回國，男子拒絕大使館專機，騎自行車輾轉40天……

熱門文章

僅一味中藥就可以降血糖，一味中藥的單藥方！

中醫教你：看指甲上的月牙診病

揭秘：傷寒汗出病解的方式有哪些

中藥方論（24）

洗髓修煉中的：找病、攻病、翻病、愈病！

（原創）顫證的經方治療案。。。

每日一誦傷寒論第241條

山楂，“大劑量”使用有不一樣的效果