新探索---EleutherAI的GPT Neo/GPT-3模型
1 引言
就像之前的GPT-2一樣,GPT-3的發(fā)布引起了很多人的關(guān)注。OpenAI的GPT-3是一個(gè)超大型語言模型,參數(shù)高達(dá)175B。不過,盡管GPT-3顯示了驚人的結(jié)果,但它不是開源的,要使用它必須付費(fèi)。于是非營(yíng)利性開源研究組織Eleuther AI發(fā)布了與GPT-3架構(gòu)相同的GPT Neo/GPT-3。這個(gè)筆記簡(jiǎn)要描述了這個(gè)模型的產(chǎn)生背景和現(xiàn)狀。
2 GPT-Neo的背景
GPT-Neo由非營(yíng)利性開源研究組織Eleuther AI發(fā)布,ElutherAI的既定目標(biāo)是重構(gòu)OpenAI完整的1750億個(gè)參數(shù)的GPT-3版本。GPT-Neo是一個(gè)使用GPT-3架構(gòu)設(shè)計(jì)的大型Transformer語言模型。GPT-Neo基于mesh-tensorflow創(chuàng)建而進(jìn)行分布式支持。mesh-tensorflow是一個(gè)用于大規(guī)模并行學(xué)習(xí)庫(kù)。GPT-Neo是在Pile上訓(xùn)練的,Pile是EleutherAI為了特定的訓(xùn)練任務(wù)而創(chuàng)建的一個(gè)大規(guī)模數(shù)據(jù)集,Pile訓(xùn)練語料庫(kù)包括825GB的文本,除了既定的文本數(shù)據(jù)集,它還包括書籍、github資源庫(kù)、網(wǎng)頁(yè)、IRC聊天記錄以及醫(yī)學(xué)、物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和哲學(xué)論文等。該語料庫(kù)由22個(gè)不同的高質(zhì)量子集構(gòu)成--包括現(xiàn)有的和新構(gòu)建的,其中許多來自學(xué)術(shù)或?qū)I(yè)領(lǐng)域。顯然增加訓(xùn)練數(shù)據(jù)集的多樣性可以改善大規(guī)模語言模型的一般跨領(lǐng)域知識(shí)和下游泛化能力。雖然GPT-2聲稱它的數(shù)據(jù)源是來自Wiki以外的數(shù)據(jù),但以前的試驗(yàn)顯示原始的GPT-2模型對(duì)于學(xué)術(shù)寫作來說還很吃力,期望GPT-Neo產(chǎn)生的效果能夠更好一些。
GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程
GPT2-Large模型解碼方法---Top-K and Top-p sampling
開放式文本生成(Open-Ended Text Generation)
必須指出,GPT-Neo代碼庫(kù)是專為TPU設(shè)計(jì)的,但也能在GPU上運(yùn)行,參看下面的試驗(yàn)。雖然GPT-3的全部規(guī)模還沒有被復(fù)制, 但目前已經(jīng)開發(fā)出四個(gè)GPT-Neo模型:
(1) GPT-Neo 2.7B
(2) GPT-Neo 1.3B
(3) GPT-Neo 350M
(3) GPT-Neo 125M
同時(shí),Eleuther AI也正在開發(fā)GPT-NeoX,即GPT-Neo的后續(xù)項(xiàng)目。與基于mesh-tensorflow的GPT-Neo不同,GPT-NeoX使用NVidia Megatron和DeepSpeed。而代碼庫(kù)采用pytorch而不是tensorflow。根據(jù)Eleuther AI的說法,最終將要訓(xùn)練一個(gè)與GPT-3 175B參數(shù)數(shù)量相似的模型。
盡管如此,GPT-3仍然比GPT-Neo有優(yōu)勢(shì)。最大的GPT-3(1750億個(gè)參數(shù))仍然比現(xiàn)有最大的GPT-Neo(27億個(gè)參數(shù))大得多,前者是后者的65倍 。GPT-3托管在OpenAI優(yōu)化的云計(jì)算架構(gòu)上,幾秒鐘內(nèi)就可以返回結(jié)果。相比之下,如果在本地機(jī)器上運(yùn)行GPT-Neo,可能需要等待幾分鐘才能得到回應(yīng)。
3 GPT-Neo試驗(yàn)
GPT-Neo與GPT-2一樣,是一個(gè)自回歸語言模型,這意味著它的核心功能是提取一串文本并預(yù)測(cè)下一個(gè)標(biāo)記。當(dāng)使用GPT-Neo時(shí),輸入一個(gè)文本提示,模型將產(chǎn)生一個(gè)延續(xù)。這些延續(xù)將以最小長(zhǎng)度和最大長(zhǎng)度參數(shù)作為界限。一開始下載了EleutherAI/gpt-neo-125M這個(gè)最小的模型,后來又下載了EleutherAI/gpt-neo-1.3B,目前沒有下載EleutherAI/gpt-neo-2.7B,這個(gè)模型大約10G。
于是試驗(yàn)?zāi)P瓦x用EleutherAI/gpt-neo-1.3B,采用top_p,top_k, temperature聯(lián)合取樣,產(chǎn)生出4個(gè)隨機(jī)句子:
(1) landslide produced by earthquakes. "What we've learned about earthquake magnitude and seismicity is that it's a good indicator of what's going to happen in a particular place," says Mark A. Jaffe, an earthquake scientist at the National Institute of Standards and Technology. "If the magnitude is 6.0, it means a quake is likely to be much bigger."(由地震產(chǎn)生的山體滑坡。"我們對(duì)地震震級(jí)和地震性的了解是,它是一個(gè)很好的指標(biāo),表明在一個(gè)特定的地方會(huì)發(fā)生什么," 美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所的地震科學(xué)家Mark A. Jaffe說。"如果震級(jí)是6.0,這意味著地震可能會(huì)更大。")
(2) landslide produced by earthquakes in Yellowstone National Park, Alaska, USA. The event occurred in the summer of 1892, with an estimated magnitude of 7.2. It was the largest earthquake to ever be recorded in North America. After a magnitude 7 (Mw) earthquake in April 1993, the Yellowstone Crater was one of the most seismically active places on Earth, measuring a further 17 quakes during a 10-year period. (美國(guó)阿拉斯加黃石國(guó)家公園的地震產(chǎn)生的山體滑坡。該事件發(fā)生在1892年的夏天,估計(jì)震級(jí)為7.2級(jí)。這是北美有記錄以來最大的地震。1993年4月發(fā)生7級(jí)地震后,黃石火山口成為地球上地震最活躍的地方之一,在10年間又測(cè)得17次地震。)
(3) landslide produced by earthquakes that occur in the area. The resulting landslide and subsequent mudflow produced an avalanche that resulted in a total of 1,150 deaths and 3,000 injuries. In August 2016, the slide occurred again, this time between the two villages of Fribourg and Sainte-Anne-de-Bellevue. A landslide produced a mudslide and a landslide in which many residents were killed, causing a death toll of up to 2,500. (該地區(qū)發(fā)生的地震所產(chǎn)生的山體滑坡。由此產(chǎn)生的山體滑坡和隨后的泥流產(chǎn)生了雪崩,共造成1150人死亡和3000人受傷。2016年8月,滑坡再次發(fā)生,這次是在弗里堡和圣安娜-德-貝勒維兩個(gè)村莊之間。山體滑坡產(chǎn)生了泥石流和塌方,許多居民在其中喪生,造成的死亡人數(shù)高達(dá)2500人。)
(4) landslide produced by earthquakes and landslides. The rock was also used to build a bridge over the River Cairn. The bridge is now used for pedestrian and cycle access. It was built in the late 1920s and was the last remaining stretch of a former railway bridge in North East Scotland. The river was bridged by the road bridge across the Cather to the east of Stornoway. In 1969 it was destroyed by an earthquake and in 1981 it collapsed. (由地震和山體滑坡產(chǎn)生的山體滑坡。這些巖石還被用來在凱恩河上建造一座橋。這座橋現(xiàn)在被用于行人和自行車通道。它建于20世紀(jì)20年代末,是蘇格蘭東北部?jī)H存的一段前鐵路橋。在斯托諾韋東部,該河由橫跨凱瑟河的公路橋架起。1969年,它被地震摧毀,1981年,它倒塌了。)
5 結(jié)束語
本文描述了GPT Neo/GPT-3的產(chǎn)生背景和現(xiàn)狀,并試驗(yàn)了相應(yīng)的模型。通過試驗(yàn)發(fā)現(xiàn)與GPT-2相比,Neo/GPT-3模型可能更傾向于學(xué)術(shù)寫作的生成,不過要得到滿意的結(jié)果,還需要在我們自己的專業(yè)數(shù)據(jù)集上進(jìn)行微調(diào)。不過在目前的硬件設(shè)備上可能做不了。因?yàn)樵囼?yàn)過GPT2-large不成功,而gpt-neo-1.3B模型比GPT2-large還要大。
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP




















