當前位置:首頁 > 科技 > 正文

對未來十年(及更長時間)人工智能領域研究與發展的展望

對未來十年(及更長時間)人工智能領域研究與發展的展望

熊墨淼( Xiong)

of

of and Data

of Texas, of

摘要

本文展望了人工智能研究的未來,重點關注整合神經科學的原理、提升人工智能與物理世界互動的能力,以及利用複雜流形結構的分析和生成數據的高級模型。我們将好奇心視為人工智能的首要原則,強調好奇心驅動智能過程,進而促成知識獲取和問題解決。我們引入了包括預測編碼、最小化自由能、信念更新和自組織在内的主動推理。此外,我們還讨論了神經人工智能()和具身圖靈測試( Test)。圖像、視覺、空間轉錄組學和單細胞組學都是高維數據,它們位于低維流形中。我們介紹了流形值變分自編碼器(VAEs)、生成對抗網絡(GANs)和擴散模型,這些工具被認為是流形拟合和分析的強大工具。最後,我們探讨了一種結合對抗訓練和擴散模型的高級流形分析技術,以确保生成的數據準确反映底層流形結構。通過以結構保持約束來引導學習過程,模型在保持數據内在結構的同時,增強了數據生成的準确性。

智能的第一原則

對未來十年(及更長時間)人工智能領域研究與發展的展望

智能是一個創造、擴展和應用知識的過程。智能問題的根本在于好奇心。好奇心驅動了學習、探索、為感知世界的生成模型, 積累證據以及理解世界的欲望,從而促成了知識的獲取和解決問題能力的發展。如果沒有好奇心,智能将是靜止的,因為不會有動力去尋找新信息或創新。因此,智能的首要原則通常被認為是好奇心。操作上,智能的第一原則可以通過主動推理和最小化感知與行動的自由能原則來實現(, 1994; Engel 2011; et al. 2024; et al. 2022)。

主動推理

主動推理是一個理論框架,用于描述包括人類在内的有機體如何感知、行動和學習其環境。它的基礎是大腦是一個貝葉斯推理機器,持續更新對世界的信念以最小化驚奇或預測誤差。

以下是主動推理的關鍵概念摘要:

1.預測編碼大腦基于對世界的内部模型,持續生成關于感覺輸入的預測。這些預測與實際的感覺數據進行比較,任何差異(預測誤差)都會用于更新内部模型。這個過程有助于理解環境(van Zwol et al. 2024)。

2.最小化自由能主動推理基于最小化“自由能”的原則(Wei 2024),在此背景下,自由能指的是預測的感覺輸入與實際感覺輸入之間的差異。自由能在數學上與預測誤差相關,最小化它确保了有機體的内部模型準确且高效。

3.行動與感知在主動推理中,行動與感知被視為一體的兩面。為了最小化預測誤差,有機體可以更新其内部模型(感知)或采取使世界更可預測的行動(行動)(Hohwy 2024)。例如,如果你期望看到某物但沒有看到,你可能會移動眼睛或改變位置以更好地符合你的預期。

4.信念更新大腦根據感覺信息不斷更新其信念或内部模型(Wilie et al. 2024)。這個過程是概率性的,意味着大腦在權衡不同的可能性後,基于最可能的情景更新其信念。

5.自組織與穩态主動推理還解釋了有機體如何維持穩态( et al. 2023)。通過采取最小化驚訝(或預測誤差)的行動,有機體可以使其内部狀态保持在可行範圍内,确保生存。

6.應用主動推理已在神經科學、心理學、人工智能和機器人學等多個領域得到應用( et al. 2024)。它為廣泛的認知過程提供了統一的解釋,從感知和學習到決策和運動控制。

綜上所述,主動推理提供了一個全面的框架,幫助理解有機體如何與環境互動,不斷調整其内部模型和行為,以最小化驚奇并保持穩定且功能正常的内部狀态。

神經人工智能(Neuro AI)

主動推理基于一種仿生理論,包括神經科學啟發的神經人工智能(Neuro AI)(Zador et al. 2023)。盡管人工智能取得了巨大進步,AI系統仍然缺乏與不可預測世界互動的基本能力。越來越多的人質疑,僅僅增加樣本量是否能克服這些限制。越來越多的AI研究人員意識到,迫切需要從人腦和自然智能系統中汲取靈感的研究(Zador et al. 2023; et al. 2024)。

“”是指神經科學與人工智能(AI)交叉的研究領域。其目标是理解大腦的工作原理,并利用這些理解來改進AI系統。研究人員的目标包括:

理解大腦功能:通過研究人類大腦如何處理信息、學習和決策,研究人員希望發現可以應用于AI的原則。數學神經元模型最終可能會帶來更強大的人工神經網絡和更好的AI(Moore et al. 2024; Linka et al. 2023)。

開發仿生算法:利用神經科學的見解來創建模仿大腦功能的算法,如類似于神經元在大腦中連接和通信的神經網絡(Han et al. 2023)。

通過生物學見解增強AI:通過融入大腦工作方式的元素,AI系統可以變得更加高效、适應性更強,并具備類似于人類的學習能力( 2024)。

神經科學驅動的AI模型:一些研究集中于構建模拟特定大腦區域或認知過程的模型,這些模型可以用于開發更先進的AI系統( et al. 2023)。

雙向影響:雖然神經科學為AI提供了啟發,AI也通過提供工具和模型來更好地理解大腦活動和認知過程,從而推動神經科學的發展( and Zis 2019)。

具身圖靈測試

最近,一些AI研究人員提出了具身AI的研究方向。他們認為具身AI是通用人工智能(AGI)的橋梁(Liu et al., 2024)。一組科學家提出用具身圖靈測試取代經典的圖靈測試(Zador et al., 2023),并将其視為的一大挑戰。

人們通常使用艾倫·圖靈提出的“模仿遊戲”來測試機器是否具有類似人類的智能。具體而言,艾倫·圖靈提出的原始圖靈測試聲稱,如果測試者無法判斷他們的對話夥伴是AI系統還是另一個真人,那麼被測試的AI系統就通過了測試。圖靈測試的最重要特點之一是其測試方法基于語言,側重于對話信息。現代大型語言模型取得了重大進展,因此通過了圖靈測試。然而,原始圖靈測試有一個緻命的缺陷:它将判斷基于參與測試的人類與機器之間的語言對話。完全專注于對話能力忽視了機器是否具有思考能力的考察,而思考能力是智能最重要的特征。原始圖靈測試暗示語言代表了人類智能的頂峰,因此假設能夠進行對話的機器也必然具有智能。

然而,超出我們之前的想象,“大型語言模型”現在能夠進行令人驚訝的連貫對話。在某種程度上,大型語言模型的成功揭示了我們多麼容易被欺騙,自動地将智能、行為能力,甚至是意識歸因于我們的對話夥伴。原始的圖靈測試并沒有考慮在真實物理世界中的思維和行動。它沒有提供方法來揭示我們在真實世界環境中的智能能力,如感知、推理、規劃和決策。人們越來越要求将原始圖靈測試改為“具身圖靈測試”。

“具身圖靈測試”是英國數學家兼計算機科學家艾倫·圖靈提出的原始圖靈測試的擴展。原始圖靈測試衡量的是機器展示出與人類相當或難以區分的智能行為的能力。在傳統的圖靈測試中,如果人類評估者無法可靠地區分人類和機器的回答,那麼該機器就被認為通過了測試。

具身圖靈測試:

具身圖靈測試在這個概念上增加了一個額外的層次,要求AI或機器不僅在對話中表現出類似人類的智能,還要能夠以類似人類的方式在物理世界中進行互動。

關鍵特征:

**物理存在:**與隻涉及基于文本的互動的原始圖靈測試不同,具身圖靈測試要求AI具有一個能夠與環境互動的物理形态(例如機器人)。

**感覺運動技能:**AI必須展示出通過傳感器(如攝像頭或麥克風)感知其周圍環境,并以适當的物理動作(如移動物體、行走或手勢)做出反應的能力。

**類似人類的行為:**AI的物理和對話行為應當與人類如此接近,以至于人類觀察者無法區分他們是在與人類還是機器互動。

**AI與機器人技術的整合:**該測試結合了AI和機器人技術的進步,不僅測試認知能力,還測試在物理空間中執行需要協調、操作和實時決策的任務的能力。

目的:

具身圖靈測試旨在通過挑戰AI在思維和行動中展示出類似人類的智能,推動AI的邊界。它作為評估AI發展的一個基準,檢驗AI是否能夠像人類一樣在現實世界中操作和互動。該測試對機器人技術、人機交互和AI倫理學等領域有重要意義。

總體而言,具身圖靈測試提高了對機器“智能”的要求,不僅需要智力上的模仿,還需要物理化的體現和互動。

流形假設和流形學習

流形假設表明,高維數據(如圖像或其他複雜數據類型)實際上位于高維空間内的一個低維流形上或靠近低維流形。這意味着即使數據可能有許多特征(維度),數據的内在結構實際上更簡單,可以用更少的維度來表示。

想象一下你有一個非常高維的空間,比如一個有一千個維度的空間。這個空間中的每個數據點代表一個對象,如圖像,具有成千上萬個特征。流形假設提出,盡管維度很高,數據并沒有随機地占據整個空間。相反,它存在于一個“流形”上,這個流形是嵌入在高維空間中的一個連續的、低維的曲面(如曲線或片狀結構)。

例如,如果你處理的是面部圖像,流形假設表明,所有可能的面部(這是高維數據)都位于一個低維流形上。這個流形捕捉了面部的基本特征,例如眼睛、鼻子和嘴巴的位置,同時舍棄了不相關的變化。

為了分析高維數據,我們需要開發新技術來揭示高維數據集的低維表示,同時保持點對點的距離(Yao et al. 2024)。深度學習方法如變分自編碼器(VAE)、生成對抗網絡(GAN)和擴散模型為流形嵌入、流形去噪、流形拟合和流形分析提供了強大的工具。

VAE包括兩部分:編碼器和解碼器。編碼器将輸入數據映射到低維潛在空間中的分布中。這個潛在空間是數據流形預計所在的地方。然後解碼器從這個潛在空間中采樣一個點來重建數據。VAE通過學習潛在變量上的概率分布來将數據拟合到潛在空間中的平滑流形上。這有助于捕捉數據的内在結構。通過分析潛在空間,我們可以理解數據的底層結構。例如,在一個訓練面部圖像的VAE中,潛在空間中的不同方向可能對應于面部特征的變化,如嘴巴的寬度或頭部的角度。

生成對抗網絡(GAN)是另一種深度生成模型,通過将簡單的、通常是低維的分布映射到一個與訓練數據分布匹配的高維空間來生成新數據點。GAN由兩個神經網絡組成,它們彼此競争:一個生成器和一個判别器。生成器從一個随機噪聲向量(來自一個簡單的分布,如高斯分布或均勻分布)開始,并将其映射到數據空間(如圖像)。而判别器則嘗試區分真實數據(來自訓練集)和生成的數據(由生成器生成)。

這兩個網絡在博弈論框架下共同訓練,其中生成器試圖欺騙判别器,而判别器試圖正确識别真實數據和虛假數據。随着時間的推移,生成器在生成與真實數據分布一緻的現實數據方面不斷提高。GAN通過将噪聲向量(來自簡單流形)映射到真實數據的複雜流形上,隐式地學習拟合數據分布。這種學習到的映射有助于生成與訓練數據相似的新樣本。将對抗性損失和循環一緻性損失的總和作為模型的綜合目标,GAN可以準确地拟合低維流形(Yao et al. 2024)。

“結構引導的擴散模型對抗訓練”(Yang et al. 2024)是一種複雜的技術,它結合了對抗訓練和擴散模型的原理,以增強生成位于複雜流形上的數據的能力。其主要思想是通過結構保持約束(通常由對抗機制提供信息)來引導擴散模型的學習過程,确保生成的數據準确反映訓練數據的底層流形結構。

具體來說,該模型在訓練過程中考慮了數據的流形結構。這可能涉及整合有關流形的先驗知識,如局部或全局幾何屬性。對抗性組件幫助模型區分位于流形上的數據和不在流形上的數據。在這種設置中,判别器将對偏離學習到的流形的數據生成進行懲罰,引導擴散過程生成更準确的數據樣本。通過整合結構引導的約束,擴散過程在減少噪聲和“去噪”數據的過程中始終保持流形結構。

總之,“結構引導的擴散模型對抗訓練”是一種強大的技術,通過結合對抗訓練和結構保持約束,增強了擴散模型生成準确位于底層流形上的數據的能力。這種方法在需要保持數據内在結構的任務中尤其有用,如現實數據生成、魯棒模型訓練和流形探索。

參考文獻

(1994). 'The of : A and .' , 116(1), 75-98.

Susan Engel (2011). The Mind: The of in . : Press.

Karl J et al. (2024). of from first . . 3(1): 1–19.

, P., , T., Çatal, O., , B. (2022). The Free for and : A Deep . 2022. 24: 301.

van Zwol B, R, van den Broek EL. (2024). and : and . arXiv:2407.04117.

Wei R. (2024). Value of and in and . arXiv:2408..

Hohwy J. (2024). Is error all there is to the mind?.

Wilie B, S, Ishii E, He J, Fung P. (2024). : The of Large .arXiv:2406.19764.

KJ. Et al. (2023). and . arXiv:2312..

, H, ć D, Grześ M. (2024). the Free : Four and a .arXiv:2402.14460.

Zador A. et al. (2024). next- . Nat 14, 1597 (2023).

S. et al. (2024). in : , , and . J . 271(5):2258-2273.

Moore JJ, A, M, Pughe- JL, de van RR, DB. (2024). The as a data- . Proc Natl Acad Sci U S A. 121(27):.

Linka K, SS, Kuhl E. (2023). model for human brain using . Acta 160: 134–151.

Han Y, Deng C, Huang GB. (2023). : Brain- and for next- AI: , and .Front . 17:.

, JJ, PR, E, C. (2023). of and the of -A . (Basel). 23(6):3062.

A, Zis P. (2019). , and acute pain: links and . Med. 131(7):438-444.

F. (2024). a model of the brain. eLife. 12:.

Liu Y, Chen W, Bai Y, Li G, Gao W, Lin L. (2024). Cyber Space with World: A on AI.arXiv:2407.06886.

Yao Z, Su J, and Yau ST. (2024). with . PNAS.121 (5) .

YangL, Qian H, Zhang Z, Liu J, Cui B. (2024). - of .arXiv:2402.17563.

排編:楊麗豔

你可能想看:

有話要說...

取消
掃碼支持 支付碼