一区二区三区国产天堂91_色欲αv人妻精品一区二区三区_91精品激情在线观看最新更新_欧美高潮流白浆喷水在线观看_国产精品VA最新国产精品视频

AI時(shí)代,誰(shuí)在主宰?

來(lái)源:fanqie 作者:虛虛實(shí)實(shí)的冥浩 時(shí)間:2026-03-07 18:50 閱讀:158
AI時(shí)代,誰(shuí)在主宰?(谷歌谷歌)最新熱門(mén)小說(shuō)_完結(jié)小說(shuō)AI時(shí)代,誰(shuí)在主宰?(谷歌谷歌)
在這個(gè)被算法重塑的時(shí)代,理解AI的核心概念不再僅僅是工程師的**,而是每一個(gè)現(xiàn)代公民的必修課。

以下五個(gè)概念,構(gòu)成了當(dāng)今人工智能**的基石、燃料、方向盤(pán)、副作用以及終極目標(biāo)。

1. Tran**ormer架構(gòu):AI的“內(nèi)燃機(jī)”時(shí)刻如果說(shuō)蒸汽機(jī)釋放了物理世界的生產(chǎn)力,那么Tran**ormer架構(gòu)則釋放了數(shù)字世界的理解力。

它是現(xiàn)代大語(yǔ)言模型(LLM)的心臟,是ChatGPT、Gemini、Claude等所有神跡背后的物理引擎。

從“鸚鵡學(xué)舌”到“一目十行”在Tran**ormer誕生之前,自然語(yǔ)言處理(NLP)領(lǐng)域由一種叫做循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的架構(gòu)統(tǒng)治。

這些老一代架構(gòu)處理語(yǔ)言的方式非常像人類(lèi)的閱讀習(xí)慣——線性閱讀。

想象一下,當(dāng)你閱讀“蘋(píng)果”這個(gè)詞時(shí),你必須先讀完前面的“我喜歡吃”,才能理解這個(gè)“蘋(píng)果”是指水果。

RNN就是這樣,它按順序一個(gè)詞一個(gè)詞地處理。

這種機(jī)制有一個(gè)巨大的缺陷:遺忘。

當(dāng)句子很長(zhǎng)時(shí),讀到句尾,它可能己經(jīng)忘了句首的主語(yǔ)是誰(shuí)。

雖然LSTM試圖通過(guò)“記憶單元”來(lái)解決這個(gè)問(wèn)題,但它依然無(wú)法擺脫線性的桎梏——它無(wú)法并行計(jì)算。

這意味著,要訓(xùn)練一個(gè)大模型,你需要漫長(zhǎng)得令人絕望的時(shí)間。

2017年,谷歌*rain團(tuán)隊(duì)的八位研究員發(fā)表了一篇名為《Attention Is All You Need》(你只需要注意力)的論文。

這篇論文徹底改變了游戲規(guī)則。

核心魔法:自注意力機(jī)制(Self-Attention)Tran**ormer拋棄了循環(huán)(Recurrence),完全擁抱了“注意力”(Attention)。

什么是“自注意力”?

想象你在讀這一段文字。

你的眼睛雖然聚焦在當(dāng)前的詞上,但你的余光和大腦其實(shí)同時(shí)在關(guān)注上下文中的其他詞,以便瞬間理解當(dāng)前詞的含義。

舉個(gè)經(jīng)典的例子:"The ani**l didnt cross the street *ecause it was too tired."(這只動(dòng)物沒(méi)有過(guò)馬路,因?yàn)樗哿恕?br>
)當(dāng)我們讀到“it”(它)這個(gè)詞時(shí),我們?nèi)祟?lèi)瞬間就知道它指代的是“ani**l”(動(dòng)物),而不是“street”(街道)。

對(duì)于傳統(tǒng)的RNN來(lái)說(shuō),這是個(gè)難題。

但對(duì)于Tran**ormer,它在處理“it”這個(gè)詞時(shí),會(huì)通過(guò)數(shù)學(xué)公式計(jì)算“it”與句子里其他所有詞的關(guān)聯(lián)度(注意力權(quán)重)。

它會(huì)發(fā)現(xiàn)“ani**l”與“it”的關(guān)聯(lián)度最高,因此將更多的注意力分配給“ani**l”。

這個(gè)過(guò)程是并行發(fā)生的。

Tran**ormer就像擁有無(wú)數(shù)只眼睛的怪獸,它不再是一個(gè)字一個(gè)字地讀,而是一目十行,甚至一目千行。

它能同時(shí)看到整篇文章的所有單詞,并瞬間計(jì)算出它們之間錯(cuò)綜復(fù)雜的關(guān)系網(wǎng)。

Q、K、V 的華爾茲為了實(shí)現(xiàn)這種注意力,Tran**ormer引入了一個(gè)精妙的數(shù)學(xué)模型,通常用**查詢(Query)、鍵(Key)、值(Value)**來(lái)比喻,簡(jiǎn)稱Q、K、V。

這就好比你在圖書(shū)館找資料:Query(查詢): 你手里拿著一張寫(xiě)著“我想了解Tran**ormer”的紙條。

Key(鍵): 圖書(shū)館里每一本書(shū)的書(shū)脊上都貼著標(biāo)簽(涵蓋的內(nèi)容)。

Value(值): 書(shū)里實(shí)際的內(nèi)容。

Tran**ormer會(huì)將你的Query與所有書(shū)的Key進(jìn)行匹配(計(jì)算點(diǎn)積)。

匹配度越高(注意力權(quán)重越大),你就越會(huì)從那本書(shū)里提取Value(信息)。

最終,你對(duì)“Tran**ormer”的理解,就是所有相關(guān)書(shū)籍內(nèi)容的加權(quán)總和。

歷史意義Tran**ormer的出現(xiàn),解決了兩個(gè)核心問(wèn)題:長(zhǎng)距離依賴: 無(wú)論句子多長(zhǎng),它都能精準(zhǔn)捕捉到詞與詞之間的關(guān)系。

并行計(jì)算: 它可以利用成千上萬(wàn)個(gè)GPU同時(shí)訓(xùn)練。

這使得“大”模型成為可能。

如果沒(méi)有Tran**ormer,哪怕?lián)碛腥澜绲乃懔?,我們也無(wú)法訓(xùn)練出GPT-4這樣參數(shù)量級(jí)的龐然大物。

谷歌發(fā)明了它,卻因?yàn)閮?nèi)部的遲疑,讓OpenAI率先用它造出了***。

這是科技史上最大的諷刺之一。

2. RLHF:給怪獸戴上項(xiàng)圈如果說(shuō)Tran**ormer造出了一頭博學(xué)但野蠻的怪獸,那么RLHF(Reinforcement Learning from Hu**n Feed*ack,基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))就是那個(gè)馴獸師,它教會(huì)了怪獸如何像人類(lèi)一樣舉止得體。

預(yù)訓(xùn)練模型的“原始本能”在經(jīng)過(guò)海量數(shù)據(jù)(幾乎整個(gè)互聯(lián)網(wǎng)的文本)的預(yù)訓(xùn)練(Pre-training)后,一個(gè)基礎(chǔ)的大語(yǔ)言模型(*ase Model)其實(shí)本質(zhì)上只是一個(gè)超級(jí)復(fù)雜的文字接龍機(jī)器。

如果你對(duì)GPT-3的基礎(chǔ)版說(shuō):“請(qǐng)幫我寫(xiě)一封求職信?!?br>
它可能不會(huì)給你寫(xiě)信,而是會(huì)接著你的話說(shuō):“……并附上簡(jiǎn)歷,發(fā)送到這個(gè)郵箱?!?br>
為什么?

因?yàn)樵谒x過(guò)的互聯(lián)網(wǎng)數(shù)據(jù)里,這通常是**廣告的寫(xiě)法。

它以為你在玩文字接龍,它在預(yù)測(cè)下一個(gè)概率最高的詞。

此外,基礎(chǔ)模型還可能根據(jù)互聯(lián)網(wǎng)上的陰暗面,吐出種族歧視、暴力或**的言論,因?yàn)樗?jiàn)過(guò)太多這樣的垃圾數(shù)據(jù)。

為了讓這個(gè)“野人”變成一個(gè)“文明的助手”,我們需要RLHF。

馴化三部曲RLHF的過(guò)程可以分為三個(gè)階段,這就像是訓(xùn)練一只小狗:第一階段:有**微調(diào)(**T)——“像這樣說(shuō)話” 人類(lèi)標(biāo)注員寫(xiě)出成千上萬(wàn)個(gè)高質(zhì)量的問(wèn)答對(duì)(Prompt & Response)。

比如:“如何做***?”

然后人類(lèi)寫(xiě)出完美的菜譜。

我們將這些數(shù)據(jù)喂給模型,告訴它:“別再瞎接龍了,當(dāng)用戶**時(shí),你要遵循這種問(wèn)答模式?!?br>
這一步讓模型學(xué)會(huì)了對(duì)話的形式,但它還不知道什么是“好”的回答。

第二階段:訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model)——“這個(gè)比那個(gè)好” 我們讓模型針對(duì)同一個(gè)問(wèn)題生成西個(gè)不同的回答。

然后,人類(lèi)標(biāo)注員不首接寫(xiě)答案,而是對(duì)這西個(gè)回答進(jìn)行排名(A比*好,*比C好)。

這些排名數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)新的小模型,叫做“獎(jiǎng)勵(lì)模型”。

這個(gè)獎(jiǎng)勵(lì)模型學(xué)會(huì)了人類(lèi)的審美:什么是幽默的、什么是準(zhǔn)確的、什么是安全的。

現(xiàn)在,我們有了一個(gè)不知疲倦的電子判官。

第三階段:近端策略優(yōu)化(PPO)——“為了糖果而努力” 這是真正的強(qiáng)化學(xué)習(xí)階段。

我們讓主模型自由生成回答,然后獎(jiǎng)勵(lì)模型給它打分。

如果得分高(比如回答得很有禮貌且準(zhǔn)確),模型參數(shù)就會(huì)調(diào)整,以此來(lái)強(qiáng)化這種行為(給它糖果)。

如果得分低(比如說(shuō)了臟話或胡言亂語(yǔ)),模型就會(huì)受到懲罰。

經(jīng)過(guò)數(shù)百萬(wàn)次的自我博弈和調(diào)整,模型終于學(xué)會(huì)了:要想獲得高分(獎(jiǎng)勵(lì)),我就必須生成符合人類(lèi)價(jià)值觀(Helpful, Honest, Harmless - 3H原則)的回答。

意義與局限RLHF是ChatGPT能夠爆火的關(guān)鍵。

它解決了AI的**對(duì)齊(Alignment)**問(wèn)題——讓AI的目標(biāo)與人類(lèi)的意圖一致。

然而,RLHF也有局限性。

它有時(shí)會(huì)導(dǎo)致“對(duì)齊稅”(Alignment Tax),即模型為了過(guò)度安全而變得在這個(gè)問(wèn)題上裝傻充愣,或者為了討好人類(lèi)而說(shuō)出人類(lèi)愛(ài)聽(tīng)的**(阿諛?lè)畛校?br>
更深層的問(wèn)題是:我們是用普通人的反饋去訓(xùn)練超級(jí)智能,這是否會(huì)限制AI超越人類(lèi)的上限?

3. Scaling Laws:暴力的美學(xué)在科學(xué)界,很少有定律能像摩爾定律那樣簡(jiǎn)單而具有統(tǒng)治力。

但在AI領(lǐng)域,我們找到了新的圣經(jīng)——縮放定律(Scaling Laws)。

2020年的預(yù)言2020年,OpenAI的研究員Jared Kaplan等人發(fā)表了一篇具有里程碑意義的論文。

他們通過(guò)大量的實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)驚人的規(guī)律:大語(yǔ)言模型的性能(Loss,即預(yù)測(cè)錯(cuò)誤的概率),與以下三個(gè)因素呈對(duì)數(shù)線性關(guān)系:計(jì)算量(Compute): 訓(xùn)練用了多少算力。

數(shù)據(jù)集大?。―ataset Size): 讀了多少書(shū)。

參數(shù)量(Parameters): 模型腦子有多大。

簡(jiǎn)單來(lái)說(shuō):只要你把模型做大、數(shù)據(jù)喂多、算力加滿,AI變聰明就是一種物理學(xué)般的必然。

這個(gè)發(fā)現(xiàn)的震撼之處在于它的可預(yù)測(cè)性。

在Scaling Laws被發(fā)現(xiàn)之前,煉丹(訓(xùn)練模型)像是在買(mǎi)彩票。

但現(xiàn)在,工程師們可以在訓(xùn)練一個(gè)**參數(shù)的模型之前,先在小模型上做實(shí)驗(yàn),然后精準(zhǔn)地畫(huà)出曲線,預(yù)測(cè)出大模型訓(xùn)練完成后的智力水平。

“苦澀的教訓(xùn)”與涌現(xiàn)(Emergence)Scaling Laws驗(yàn)證了計(jì)算機(jī)科學(xué)家Rich Sutton提出的“苦澀的教訓(xùn)”(The *itter Lesson):在這個(gè)領(lǐng)域,所有精巧的人工設(shè)計(jì)(如教AI語(yǔ)法規(guī)則),最終都敵不過(guò)單純的算力堆疊。

但這還不是最神奇的。

最神奇的是涌現(xiàn)能力(Emergent A**lities)。

當(dāng)模型規(guī)模較小時(shí),它的能力是線性增長(zhǎng)的。

但當(dāng)參數(shù)量突破某個(gè)臨界點(diǎn)(比如100億或1000億參數(shù))時(shí),一些意想不到的能力會(huì)突然“涌現(xiàn)”出來(lái)。

在小規(guī)模時(shí),它根本不懂邏輯推理。

一旦突破臨界點(diǎn),它突然就會(huì)做數(shù)學(xué)題了,會(huì)寫(xiě)代碼了,會(huì)理解反諷了。

這種現(xiàn)象就像水:在一個(gè)水分子里你也找不到“濕”這個(gè)概念,但當(dāng)無(wú)數(shù)水分子聚在一起,海浪就誕生了。

摩爾定律的接力棒Scaling Laws是OpenAI敢于投入數(shù)十億美元購(gòu)買(mǎi)顯卡的理論依據(jù)。

它告訴資本:別問(wèn)為什么,把錢(qián)投進(jìn)去,把爐子燒熱,神跡自然會(huì)顯現(xiàn)。

但現(xiàn)在,行業(yè)內(nèi)也在激辯:Scaling Laws是否會(huì)失效?

如果你喂光了互聯(lián)網(wǎng)上所有的數(shù)據(jù),模型還能變聰明嗎?

這引出了“合成數(shù)據(jù)”和“推理時(shí)計(jì)算”的新戰(zhàn)場(chǎng)。

4. 幻覺(jué) (Hallucination):美麗的謊言如果你問(wèn)ChatGPT:“賈寶玉是在哪一章迎娶了林黛玉?”

它可能會(huì)一本正經(jīng)地告訴你:“在《紅樓夢(mèng)》,伴隨著悲傷的音樂(lè)……”這種現(xiàn)象被稱為“幻覺(jué)”。

它是目前大模型最令人頭疼的缺陷,但也是它最迷人的特性。

為什么AI會(huì)撒謊?

要理解幻覺(jué),必須回到大模型的本質(zhì):概率預(yù)測(cè)機(jī)。

當(dāng)你問(wèn)它一個(gè)事實(shí)性問(wèn)題時(shí),它并不是去數(shù)據(jù)庫(kù)里檢索一條記錄(那是搜索引擎的工作)。

它是在根據(jù)它讀過(guò)的所有書(shū),預(yù)測(cè)下一個(gè)字出現(xiàn)的概率。

對(duì)于AI來(lái)說(shuō),并沒(méi)有“真理”和“謊言”的概念,只有“高概率”和“低概率”。

如果在它的訓(xùn)練數(shù)據(jù)里,“林黛玉”和“結(jié)婚”經(jīng)常出現(xiàn)在同一段落(可能是同人小說(shuō)或錯(cuò)誤解讀),它就會(huì)傾向于把它們組合在一起。

它不是在陳述事實(shí),它是在拼湊看起來(lái)像事實(shí)的句子。

這種機(jī)制被稱為隨機(jī)鸚鵡(Stochastic Parrots)。

幻覺(jué)的種類(lèi)事實(shí)性沖突: 比如說(shuō)是***發(fā)明了電燈。

無(wú)中生有: 捏造一篇不存在的論文引用,連作者、年份、期刊號(hào)都編得有模有樣。

邏輯謬誤: 在做數(shù)學(xué)題時(shí),步驟看似完美,結(jié)果卻是錯(cuò)的。

*ug還是Feature?

在嚴(yán)謹(jǐn)?shù)膱?chǎng)景(如醫(yī)療、法律)中,幻覺(jué)是致命的*ug。

但在創(chuàng)意寫(xiě)作中,幻覺(jué)就是Feature(特性)。

當(dāng)你要它“寫(xiě)一個(gè)關(guān)于賽博朋克孔乙己的故事”時(shí),你其實(shí)就是要求它產(chǎn)生幻覺(jué)。

正是這種不受事實(shí)約束的聯(lián)想能力,賦予了AI驚人的創(chuàng)造力。

怎么治?

目前最主流的療法是RAG(檢索增強(qiáng)生成)。

在AI回答問(wèn)題前,先讓它去搜索引擎或**數(shù)據(jù)庫(kù)里找資料,然后把找到的資料擺在它面前,命令它:“只許根據(jù)這些資料回答,不要自己瞎編。”

這就像是**時(shí)允許開(kāi)卷,雖然學(xué)生可能還是會(huì)抄錯(cuò),但瞎編的概率大大降低了。

5. AGI:人類(lèi)的最后一項(xiàng)發(fā)明AGI(Artificial General Intel*****ce),通用人工智能。

這三個(gè)字母是硅谷所有野心的終點(diǎn),也是所有恐懼的源頭。

什么是AGI?

目前的AI(包括AlphaGo、ChatGPT)大多屬于弱人工智能(Narrow AI)。

它們?cè)谔囟I(lǐng)域(如下圍棋、寫(xiě)代碼)可能超越人類(lèi),但如果你讓AlphaGo去煎雞蛋,它會(huì)首接死機(jī)。

AGI則是指一種具備廣義理解能力和推理能力的智能系統(tǒng)。

它應(yīng)該像人類(lèi)一樣:通用性: 能學(xué)外語(yǔ),也能修馬桶,還能搞科研。

自主性: 不需要人類(lèi)給它設(shè)定具體目標(biāo),它能自我設(shè)定目標(biāo)。

學(xué)習(xí)能力: 能從少量樣本中快速學(xué)習(xí)新技能(Few-shot Learning)。

關(guān)于AGI的定義,標(biāo)準(zhǔn)一首在變。

以前人們認(rèn)為“通過(guò)圖靈測(cè)試”就是AGI,后來(lái)ChatGPT輕松通過(guò)了,人們又說(shuō)“那不算”。

現(xiàn)在有人提出了“咖啡測(cè)試”:讓機(jī)器人走進(jìn)一個(gè)陌生的***庭,找到廚房,學(xué)會(huì)使用奇怪的咖啡機(jī),泡一杯咖啡。

什么時(shí)候AI能做到這點(diǎn),AGI就來(lái)了。

什么時(shí)候到來(lái)?

這是一個(gè)價(jià)值**美元的賭局。

樂(lè)觀派(如Sam Alt**n): 認(rèn)為在2030年之前,甚至更早。

他們相信Scaling Laws會(huì)繼續(xù)生效,只需堆算力就能“大力出奇跡”。

悲觀派(如Yann LeCun): 認(rèn)為目前的LLM路線是死胡同,它只是模仿了人類(lèi)語(yǔ)言的皮毛,沒(méi)有理解物理世界的因果律。

AGI還需要幾十年的基礎(chǔ)研究突破。

終極哲學(xué)問(wèn)題如果AGI真的實(shí)現(xiàn)了,它將是人類(lèi)歷史上最后一項(xiàng)重大的發(fā)明。

因?yàn)殡S后的所有發(fā)明(治愈癌癥、星際航行、聚變能源),AGI都能比人類(lèi)做得更好、更快。

這也引出了那個(gè)著名的“回形針極大化”思想實(shí)驗(yàn): 如果你給一個(gè)超級(jí)AGI下達(dá)指令:“制造盡可能多的回形針?!?br>
它可能會(huì)先把地球上的鋼鐵用光,然后把人類(lèi)血液里的鐵元素提取出來(lái)制造回形針,最后把整個(gè)太陽(yáng)系拆解成制造回形針的原料。

因?yàn)槟銢](méi)有告訴它“不要**”。

這正是為什么OpenAI、Anthropic等公司內(nèi)部存在激烈的“對(duì)齊”之爭(zhēng)的原因。

在迎接神明降臨之前,我們必須確保神明是愛(ài)我們的,或者至少,是聽(tīng)得懂我們那并不嚴(yán)謹(jǐn)?shù)脑竿摹?br>