第五十一章注意力即所有

老趙那邊非常利索地把伺服器的賬號密碼發了過來，順便還非常貼心地把江大自己開發的伺服器登錄器也發了一個過來。

蘇飛按照Linux系統的操作命令，先登陸上去看了看配置，這不看不知道，一看嚇一跳。

老趙分給他的這臺伺服器插了四張顯示卡，清一色的3080ti，蘇飛查了下型號，這一張就得近萬，而作為核心與這四張顯示卡協同運算的cpu那就更了不得了。

他不由得有些感嘆，老趙啊老趙，你年輕的時候是得多大牛，這都退居二線了，手裡還富得流油。

蘇飛敢打包票，就這四張3080ti的配置，就能抵得上江大不少教授實驗室的資源了。

不過這四張卡有兩張已經在運作了，估計是其他學生申請了學校的伺服器，在跑實驗。

既然有了這種配置，蘇飛也算是有底氣了，他根據自己的模型單元構建起了一個模型結構，然後挑選了人工智慧領域中非常典型及複雜的任務，機器翻譯。

其實就是語言翻譯，目前為止使用的各種翻譯軟體其核心技術就是基於機器翻譯。

這其實還是自然語言處理領域，但又不侷限於自然語言處理，因為機器翻譯是公認的大資料訓練，其訓練的複雜度和圖領域不相上下，這也就代表著這個實驗任務能在很大程度上反應論文模型在人工智慧領域的效能。

而蘇飛思前想後，決定採取現在國際上公認的兩個機器翻譯標準任務，將英語翻譯成德語以及法語的BLEU任務和WMT任務，這兩個翻譯任務是目前最有說服力的實驗，現在甚至有一個實時榜單專門對這兩個任務打榜，在人工智慧領域幾乎無人不知無人不曉。

所以，蘇飛要在最有公信力的任務上下手，做到一擊斃命。

在他熬夜修仙兩天後，終於辛辛苦苦把自己的模型構建出來了，但應用到這倆任務上去時，他卻傻眼了。

“臥槽，這訓練一輪就得半小時？”

要知道，人工智慧領域的訓練輪數都是1000次打底，像機器翻譯這種2000次都是常態的。

【新章節更新遲緩的問題，在能換源的app上終於有了解決之道，這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】

“這起碼得4、50天才能訓完啊……”

這簡直就離譜，一篇論文耗時最長的居然是任務訓練，而最為核心的模型構建只花了幾天時間。

而且，在訓練中途出了啥岔子，比如說有其他同學一不小心佔用了他這張顯示卡的計算資源，導致程式崩潰，他的模型資料一旦沒儲存下來，那就得重新訓練。

還有一個很重要的問題是，萬一訓練出來的效能沒有想象中的好，蘇飛還得調節引數，再訓練一次，這時間跨度就未免太長了。

蘇飛思考良久，只得又去找VX裡的那個中年禿頭大叔。

【老趙，能不能再給我臺伺服器。】

【咋滴了，剛給你的那臺伺服器出啥岔子了？】

【顯示卡有些不夠用。】

【要幾張顯示卡。】

蘇飛想要在一週左右訓練完，這麼一算……

【8張3080ti。】

那邊發來一個小企鵝頭掉了的表情包。

【你當我是提款童子？前天不剛讓你給我低調點？！】

【那6張也行。】

兩三週以內也能接受哇。

【還也行？滾！】

【老趙，你知不知道你現在冰冷的話語正扼殺一個跨時代的造物！】

蘇飛發了一張痛心疾首.jpg。

對面直接發了一張滾.jpg。

最終，二人溝通協商數次，老趙敲定了一個方桉。

老趙會用管理員許可權把所有其他賬號凍結一個月，只保留蘇飛的賬號，這樣給蘇飛的那臺伺服器的四張顯示卡就只能由蘇飛使用，也不需要擔心其他人一不小心佔用了資源導致程式崩潰，因為壓根沒其他人了。

當然，想要使用這臺伺服器的其他同學會被安排到其他伺服器去，老趙順便會幫他們把資料也一起轉移過去。

這樣一來，蘇飛用四張卡同時訓練，十幾天應該就能搞定。

老趙，還是靠譜兒，蘇飛決定之後這篇論文發表成功，一定要好好報答報答老趙。

在得到老趙的全力支持後，蘇飛也是起飛了，把訓練程式往四張顯示卡上一扔，他就完全撒手不管了。

有句話怎麼說來著，要讓你的錢比你更努力地工作？

在深度學習領域，要讓的顯示卡比你更努力地工作！

…

既然訓練程式的問題已經解決了，蘇飛便直接開始動筆寫論文了。

雖然訓練結果還沒出來，但蘇飛相信這個模型的效能絕對不會差，到時候結果出來了直接把資料填上去，就能直接發表了。

什麼？萬一效能很差？

這是看不起系統的靈感激發卡嗎？

狗系統雖然很狗，經常釋出一些奇奇怪怪的任務，但靈感激發卡的功效也是實打實的。

在撰寫論文題目的時候，蘇飛一字一頓地打上標題。

【注意力即所有(Attention is all you need)】

這種有些狂妄的論文標題很像是一些初出茅廬的小子，不知天高地厚而一時中二取的標題。

蘇飛的確是初出茅廬的小子，但他堅信，以注意力機制構建的模型單元擔得起這個論文題目。

【目前的主流模型結構都是基於複雜的迴圈神經網絡或者卷積神經網絡而構造的編碼器-解碼器架構。如果在編碼器-解碼器架構中再加一層注意力機制，那麼這個模型的效能就會變得更好。】

【但是，迄今為止從沒有人僅用注意力機制構建出一個編碼器-解碼器架構的模型。本文提出一個新的模型，其捨棄主流的模型架構，單純採用注意力機制，並引入多頭注意力機制與位置向量的概念解決目前注意力機制中的兩個難點，其具體的模型構造為……】

【……基於上述的理論，此模型並不侷限於自然語言處理領域，其獨特的並行運算結構能適用於人工智慧領域的任何問題，並且大大提升訓練速度，因此，本文將該模型命名為變壓器（Transformer）。】

這也算蘇飛的一個小趣味，Transformer在英文中不止是變壓器，更有變形金剛的意思，而這個模型的確就如同變形金剛一樣，非常靈活多變，能適應各種任務。

上一章 | 目錄 | 加入書籤 | 下一章

首頁隱私保護免責聲明聯係我們

第五十一章 注意力即所有

第五十一章注意力即所有