哈日族電子遊戲場-南方松圍籬
1750 億參數的 AI 模型 GPT3這幾天轟動硅谷的GPT-3是什麼來頭?相信不太了解 AI 的朋友這幾天也或多或少看到了一些關于 GPT-3 的重磅消息,甚至有媒體稱其為 “繼比特幣之後又一個轟動全球的現象級新技術”。請注意,現在站在你面前的是:互聯網原子彈,人工智能界的卡麗熙,算力吞噬者,黃仁勳的新 KPI ,下崗工人制造機,幼年期的天網 ── 最先進的 AI 語言模型 GPT-3。1750 億參數組成的訓練模型言歸正傳,OpenAI 的研究人員在上個月發表了一篇論文,描述了 GPT-3 的開發,正式發布了這個由 1750 億個參數組成的 AI 語言模型。在 NLP 領域中,通常採用 ELMo 算法的思想,即通過在大量的語料上預訓練語言模型,然後再將預訓練好的模型遷移到具體的下遊NLP任務,從而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一種新的 ELMo 算法模型,該模型在預訓練模型的基礎上,只需要做一些微調即可直接遷移到各種 NLP 任務中,因此具有很強的業務遷移能力。GPT 模型主要包含兩個階段。第一個階段,先利用大量未標注的語料預訓練一個語言模型,接著,在第二個階段對預訓練好的語言模型進行微改,將其遷移到各種有監督的 NLP 任務,並對參數進行 fine-tuning。簡而言之,在算法固定的情況下,預訓練模型使用的訓練材料越多,則訓練好的模型任務完成準確率也就越高。那麼 1750 億是什麼概念?曾有人開玩笑說,“要想提高 AI 的準確率,讓它把所有的測試數據都記下來不就行了?” 沒想到如今真有人奔著這個目標去做了……在 GPT-3 之前,最大的 AI 語言模型是微軟在今年 2 月推出的 Turing NLG,當時擁有 170 億參數的 Turing NLG 已經標榜是第二名 Megatron-LM 的兩倍。沒錯,僅短短 5 個月的時間,GPT-3 就將頭號玩家的參數提高了 10 倍!Nivdia 的黃老板看了看年初剛畫的產品算力曲線,發現事情並不簡單。OpenAI 曾于 2019 年初發布 GPT-2,這一基于 Transformer 的大型語言模型共包含 15 億參數、在一個 800 萬網頁數據集上訓練而成組成,