日本aⅴ天堂在线,国产婬乱a一级毛片多女

為什么大型機器學(xué)習(xí)模型必須縮??？

2021-05-21 14:04 InfoQ 企鵝號

導(dǎo)讀：更大的規(guī)模不一定更適合機器學(xué)習(xí)。

更大的規(guī)模不一定更適合機器學(xué)習(xí)。但是，隨著研究人員相互競爭追求最先進的基準，深度學(xué)習(xí)模型和訓(xùn)練它們的數(shù)據(jù)集不斷擴展。不管它們?nèi)绾瓮黄?，更大的模型都會對預(yù)算和環(huán)境產(chǎn)生嚴重的影響。比如 GPT-3，一個在去年夏天推出的大受歡迎的自然語言處理模型，據(jù)說花了 1200 萬美元用于訓(xùn)練。更有甚者，馬薩諸塞大學(xué)阿默斯特分校（UMass Amherst）的研究人員發(fā)現(xiàn)，訓(xùn)練大型人工智能模型所需的計算能力能夠產(chǎn)生 60 多萬磅的二氧化碳排放——是普通汽車壽命周期排放量的 5 倍。

目前，沒有跡象表明，以機器學(xué)習(xí)行業(yè)的發(fā)展速度，計算密集型工作將會放緩。OpenAI 的研究顯示，深度學(xué)習(xí)模型的計算能力在 2012 到 2018 年間增長了驚人的 30 萬倍，超過了摩爾定律。這個問題不僅僅是訓(xùn)練這些算法，而是要在生產(chǎn)環(huán)境下運行它們，或者說在推理階段。對很多團隊而言，由于純粹的成本和資源的限制，深度學(xué)習(xí)模型的實際應(yīng)用仍然遙不可及。

幸好，研究人員發(fā)現(xiàn)了一些新的方法來縮小深度學(xué)習(xí)模型，并通過更智能的算法來優(yōu)化訓(xùn)練數(shù)據(jù)集，使得模型在生產(chǎn)環(huán)境下運行得更快，計算量也更少。就連業(yè)界的一個峰會也專門討論低功耗、微型機器學(xué)習(xí)。剪枝（Purning）、優(yōu)化（Quantization）和遷移學(xué)習(xí)（Transfer Learning）就是三種具體的技術(shù)。這些技術(shù)可以讓那些無法投資數(shù)百萬美元把模型轉(zhuǎn)換成生產(chǎn)環(huán)境的組織實現(xiàn)機器學(xué)習(xí)的民主化。對“邊緣”用例來說，這一點尤為重要，因為大型專用人工智能硬件在物理上并不切實際。

第一種技術(shù)，即剪枝，是近幾年來研究的熱點之一。包含“深度壓縮”（Deep Compression）和“彩票假說”（Lottery Ticket Hypothesis）在內(nèi)的高引用文獻表明，可以在不損失正確性的情況下消除神經(jīng)網(wǎng)絡(luò)中“神經(jīng)元”之間一些不必要的連接，有效地使模型更小、更容易在資源有限的設(shè)備上運行。最新的論文進一步驗證并完善了早期的技術(shù)，以開發(fā)出更小的模型，使其達到更高的速度和正確度。對某些模型，比如 ResNet，可以在不影響正確性的情況下剪枝 90% 左右。

第二種技術(shù)，即優(yōu)化，也正在逐步普及。優(yōu)化涉及許多不同的技術(shù)，它們可以將大的輸入值轉(zhuǎn)換為小的輸出值。換句話來說，在硬件上運行神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生上百萬次乘和加運算。減少這些數(shù)學(xué)運算的復(fù)雜性有助于減少內(nèi)存需求和計算成本，這將大大提高性能。

最后，雖然這不是一種縮小模型的技術(shù)，但是遷移學(xué)習(xí) 能夠在有限的數(shù)據(jù)中幫助訓(xùn)練一個新模型。遷移學(xué)習(xí)以預(yù)訓(xùn)練模型作為起點。通過有限的數(shù)據(jù)集，模型的知識可以“遷移”到一個新的任務(wù)中，而無需從頭再來訓(xùn)練原始模型。在訓(xùn)練模型時，這是一種減少計算能力、能源和資金的重要方法。

最重要的啟示是，模型可以（也應(yīng)該）盡可能地優(yōu)化，使其在較少的計算量下運行。在不犧牲性能和正確性的情況下，尋找減小模型大小和相關(guān)計算能力的方法將是機器學(xué)習(xí)的下一大突破。

如果能有更多人在生產(chǎn)環(huán)境中低成本地使用深度學(xué)習(xí)模型，我們就能真正看到現(xiàn)實世界中創(chuàng)新的新應(yīng)用。這些應(yīng)用可以在任何地方運行，甚至是在最小的設(shè)備上，以達到做出即使決定所需的速度和正確性。或許，小型模型最好的效果是整個行業(yè)能夠減少其環(huán)境硬件，而不是每六年增加 30 萬倍。

作者介紹：

Sasa Zelenovic，Neural Magiic 團隊成員，幫助數(shù)據(jù)科學(xué)家發(fā)現(xiàn)開源、廉價的硬件加速器替代品，以實現(xiàn)深度學(xué)習(xí)性能。

https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go

為什么大型機器學(xué)習(xí)模型必須縮??？

相關(guān)閱讀

為什么大型機器學(xué)習(xí)模型必須縮??？