由于幾乎所有可能的移動(dòng)設(shè)備和裝置都采用或至少?lài)L試了語(yǔ)音控制,對(duì)話式人工智能正迅速成為一個(gè)新的前沿。與處理查詢(xún)和提供響應(yīng)或動(dòng)作不同,對(duì)話式人工智能旨在提供一個(gè)能夠跨越多個(gè)問(wèn)題、答案和評(píng)論的實(shí)時(shí)交互系統(tǒng)。盡管會(huì)話式人工智能的基本組件,如用于語(yǔ)言建模的BERT和RoBERTa,與用于一次性語(yǔ)音識(shí)別的組件相似,但該概念對(duì)訓(xùn)練、推理和模型大小有額外的性能要求。如今,英偉達(dá)發(fā)布了三項(xiàng)開(kāi)源技術(shù)來(lái)解決這些問(wèn)題。
雖然在許多情況下,預(yù)訓(xùn)練的語(yǔ)言模型只能通過(guò)一些調(diào)優(yōu)來(lái)處理新任務(wù),但是有必要在特定的環(huán)境中重新訓(xùn)練以獲得最佳性能。英偉達(dá)已經(jīng)證明,它可以在不到一個(gè)小時(shí)的時(shí)間內(nèi)在DGX超級(jí)吊艙上訓(xùn)練BERT(谷歌的參考語(yǔ)言模型),該吊艙由1472個(gè)Tesla v100-sx63-32gb gpu、92個(gè)DGX- 2h服務(wù)器和每個(gè)節(jié)點(diǎn)10個(gè)Mellanox Infiniband組成。不,我甚至不想去估算每小時(shí)的租金。但由于像這樣的機(jī)型通常需要幾天的時(shí)間來(lái)訓(xùn)練,即使是在高端GPU集群中,對(duì)于能夠負(fù)擔(dān)得起成本的公司來(lái)說(shuō),這肯定會(huì)有助于節(jié)省時(shí)間。
對(duì)于自然對(duì)話,行業(yè)基準(zhǔn)是10ms響應(yīng)時(shí)間。理解查詢(xún)并給出建議的回復(fù)只是這個(gè)過(guò)程的一部分,因此需要的時(shí)間不到10ms。通過(guò)使用TensorRT 5.1優(yōu)化Bert,NVIDIA可以在2.2毫秒內(nèi)在一臺(tái)Nvidia T4上做出推論。T4幾乎可以用于任何重要項(xiàng)目,這很酷。我在我的文本生成系統(tǒng)的谷歌計(jì)算云中使用它們。在做這個(gè)項(xiàng)目的時(shí)候,我租了一臺(tái)4-vCPU的T4虛擬服務(wù)器,每小時(shí)的租金才1美元多一點(diǎn)。
神經(jīng)網(wǎng)絡(luò)的一個(gè)致命弱點(diǎn)是所有模型參數(shù)(包括大量權(quán)重)必須同時(shí)存儲(chǔ)在內(nèi)存中。這限制了可以在GPU上訓(xùn)練的模型的復(fù)雜性,并將其限制在RAM的大小。以我為例。我的臺(tái)式機(jī)英偉達(dá)GTX 1080只能培訓(xùn)8GB容量的機(jī)型。我可以在我的CPU上訓(xùn)練一個(gè)更大的模型。它有更多的內(nèi)存,但需要更長(zhǎng)的時(shí)間。例如,完整的GPT-2語(yǔ)言模型有15億個(gè)參數(shù),擴(kuò)展版本有83億個(gè)參數(shù)。
然而,英偉達(dá)提出了一種方法,允許多個(gè)GPU并行處理語(yǔ)言建模任務(wù)。像今天的其他公告一樣,他們已經(jīng)打開(kāi)了源代碼來(lái)實(shí)現(xiàn)它。我很好奇這項(xiàng)技術(shù)是專(zhuān)門(mén)針對(duì)語(yǔ)言模型的,還是可以應(yīng)用于其他類(lèi)型神經(jīng)網(wǎng)絡(luò)的多gpu訓(xùn)練。
隨著這些技術(shù)的發(fā)展和GitHub上代碼的發(fā)布,英偉達(dá)宣布將與微軟合作改善Bing的搜索結(jié)果,并與Clinc合作開(kāi)發(fā)語(yǔ)音代理,在聊天機(jī)器人上開(kāi)發(fā)人工智能,在對(duì)話分析上開(kāi)發(fā)RecordSure。