應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

搞機(jī)器學(xué)習(xí)還敲什么代碼

2021-12-16 14:15 媒體合作
關(guān)鍵詞:云科技云計(jì)算AI

導(dǎo)讀:亞馬遜云科技 re:Invent 大會(huì)可謂是云計(jì)算行業(yè)的“春晚”,IT 技術(shù)領(lǐng)域風(fēng)向標(biāo)級(jí)活動(dòng),連他們自家的西雅圖總部大廈也隨其更名為大會(huì)名,品牌影響之強(qiáng),可見一斑。

  不寫代碼也能搞機(jī)器學(xué)習(xí)?!

  這是亞馬遜云科技在最近亞馬遜云科技 re:Invent 大會(huì)上公布的新工具,用于實(shí)現(xiàn)無代碼可視化機(jī)器學(xué)習(xí)。

  亞馬遜云科技 re:Invent 大會(huì)可謂是云計(jì)算行業(yè)的“春晚”,IT 技術(shù)領(lǐng)域風(fēng)向標(biāo)級(jí)活動(dòng),連他們自家的西雅圖總部大廈也隨其更名為大會(huì)名,品牌影響之強(qiáng),可見一斑。

  10年來,這一活動(dòng)上誕生了無數(shù)云計(jì)算乃至 AI 行業(yè)標(biāo)桿產(chǎn)品,如 Amazon Mechanical Turk、Amazon Rekognition、Amazon SageMaker 等等。

  今年亞馬遜云科技 re:Invent 2021 同樣信息量巨大,最引人關(guān)注的,莫過亞馬遜云科技的機(jī)器學(xué)習(xí)平臺(tái)服務(wù) Amazon SageMaker 迎來了一次“大爆發(fā)”。

  不只有無代碼開發(fā)機(jī)器學(xué)習(xí)模型這一道“菜品”,整個(gè) AI 餐桌上,縱向看,亞馬遜云科技的12項(xiàng)產(chǎn)品已經(jīng)覆蓋了整個(gè) AI 產(chǎn)業(yè)鏈——

  再從橫向看,從為個(gè)人開發(fā)者準(zhǔn)備的入門免費(fèi)算力池,到大廠專業(yè)人士所需的 AI 模型優(yōu)化工具,相應(yīng)發(fā)布也一應(yīng)俱全。甚至,考慮到 AI 發(fā)展迅猛的中國市場(chǎng)用戶,亞馬遜云科技還在B站提供帶中文字幕的大會(huì)實(shí)錄。

  現(xiàn)場(chǎng)演講中,CEO 還專門強(qiáng)調(diào):「亞馬遜云科技會(huì)提供最廣泛最完整的全棧式機(jī)器學(xué)習(xí)服務(wù)」。

  不妨跟著我們一起回顧全程亮點(diǎn),對(duì)亞馬遜云科技的 AI 產(chǎn)品脈絡(luò)有一番全面認(rèn)識(shí)。

  不用代碼的機(jī)器學(xué)習(xí)

  還是先探探一開始提及的無代碼機(jī)器學(xué)習(xí)預(yù)測(cè)服務(wù),看它是否真能讓不懂代碼的人上手。

  按官方介紹,這款產(chǎn)品名為Amazon SageMaker Canvas,面向零機(jī)器學(xué)習(xí)經(jīng)驗(yàn)群體,他們中,也許有人是業(yè)務(wù)分析師,也許有人從事人力資源、財(cái)務(wù)或營銷等工作。

  可預(yù)見,上述群體中,多數(shù)人并沒有機(jī)器學(xué)習(xí)經(jīng)驗(yàn),甚至對(duì)代碼也毫無認(rèn)知,卻肯定有通過數(shù)據(jù)來衡量當(dāng)前策略、預(yù)測(cè)市場(chǎng)趨勢(shì)的需求。

  Amazon SageMaker Canvas就是將機(jī)器學(xué)習(xí)模型的諸多步驟可視化為可交互的 UI,旨在解決他們的業(yè)務(wù)問題,號(hào)稱:不寫一行代碼,快速生成機(jī)器學(xué)習(xí)預(yù)測(cè)模型。

  為了證實(shí)其有效性,亞馬遜云科技的 AI/ML 部門自己分享了一個(gè)案例。

  當(dāng)中,該部門產(chǎn)品營銷經(jīng)理想通過 Amazon SageMaker Canvas 對(duì)當(dāng)前營銷活動(dòng)進(jìn)行評(píng)估,判斷其是否具有足夠影響力和有效性。

  只需打開 Amazon SageMaker Canvas,上傳數(shù)據(jù)。該過程中,平臺(tái)還能自動(dòng)糾正上傳數(shù)據(jù)錯(cuò)誤,比如補(bǔ)充缺失值或刪除重復(fù)的行和列。其技術(shù)不出意外,同樣來自自家 AI/ML。

  接下來,指定模型預(yù)測(cè)的目標(biāo),再點(diǎn)擊「快速生成」,所需模型即可訓(xùn)練得到。

  從結(jié)果看,呈現(xiàn)效果確是一個(gè)可視化圖表,模型準(zhǔn)確度為93%。

  生成模型后,還可共享給數(shù)據(jù)科學(xué)家等合作伙伴,幫業(yè)務(wù)人員來進(jìn)一步檢查或者優(yōu)化這些的模型。

  看完官方這一案例,該可視化界面的確有兩把刷子——

  那么合作方體驗(yàn)又如何?

  目前,寶馬集團(tuán)已將亞馬遜云科技 AI/ML 技術(shù)投入實(shí)際業(yè)務(wù)流程中的600多個(gè)應(yīng)用中,涵蓋生產(chǎn)線到銷售端的多個(gè)場(chǎng)景,此外寶馬還有1500萬臺(tái)互聯(lián)汽車介入其中,一天產(chǎn)生數(shù)以百萬公里數(shù)據(jù)均交由 Amazon SageMaker Canvas 分析預(yù)測(cè)。

  西門子能源也是上手吃螃蟹者之一。他們將 Amazon SageMaker Canvas 作為自家機(jī)器學(xué)習(xí)工具包的補(bǔ)充,一位應(yīng)用部門的數(shù)據(jù)科學(xué)組組長表示:Canvas 讓我們能與數(shù)據(jù)科學(xué)團(tuán)隊(duì)共享協(xié)作,有助于生產(chǎn)更多機(jī)器學(xué)習(xí)模型,并確保模型符合質(zhì)量標(biāo)準(zhǔn)和規(guī)范。

  還有很多名不見經(jīng)傳的巨頭也是 Canvas 體驗(yàn)者,比如全球最大的非上市公司科赫集團(tuán)的子公司英威達(dá),也已經(jīng)用 Amazon SageMaker Canvas 來輔助處理業(yè)務(wù)流程中的數(shù)據(jù)科學(xué)問題。

  多方評(píng)價(jià)及直觀展示結(jié)果看完,大致可以判斷,此次 Amazon SageMaker Canvas 確實(shí)值得期待。畢竟圖形界面相比代碼釋放生產(chǎn)力創(chuàng)造價(jià)值的定律在過去已被反復(fù)證明。

  免費(fèi)的線上 AI 實(shí)驗(yàn)室

  前文提及,在年度重磅發(fā)布會(huì)亞馬遜云科技放下豪言:提供最廣泛最完整的全棧式機(jī)器學(xué)習(xí)服務(wù),既然是「最廣泛最完整」,僅靠一個(gè)Amazon SageMaker Canvas的發(fā)布當(dāng)然不夠——

  對(duì)廣大學(xué)研機(jī)構(gòu)、AI 愛好者們,前沿技術(shù)巨人也需要對(duì)得起自己的口號(hào)。

  總結(jié)下來,三個(gè)字,降門檻。

  最直觀的,提供算力資源。

  近年來,高昂的硬件價(jià)格、復(fù)雜軟件配置一直阻礙初學(xué)者入門 AI 的腳步,也是限制行業(yè)發(fā)展,為更多人認(rèn)知熟悉的巨大障礙。

  亞馬遜云科技發(fā)布功能Amazon Sagemaker Studio Lab提供一大團(tuán)可薅的「羊毛」。無需額外環(huán)境配置、無需注冊(cè)賬戶、直接用電子郵件就能登錄進(jìn)去的線上實(shí)驗(yàn)室。

  在這一環(huán)境中,任何人創(chuàng)建的項(xiàng)目,都能直接擁有12個(gè)小時(shí)的 CPU 計(jì)算時(shí)間、4小時(shí)的 GPU 計(jì)算時(shí)間,以及15GB的存儲(chǔ)空間

  這樣的配置縱觀整個(gè)行業(yè),確實(shí)到位。

  要知道,在使用 Pandas 或 XGBoost 進(jìn)行經(jīng)典 ML 算法訓(xùn)練的數(shù)據(jù)預(yù)處理時(shí),12小時(shí) CPU 時(shí)間基本足夠。對(duì)于深度學(xué)習(xí)訓(xùn)練,也可選擇 GPU 后端獲得4小時(shí)計(jì)算時(shí)間,足以在較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練或微調(diào)模型。

  換句話說,對(duì)初學(xué)者階段 AI 模型,拿著上述資源基本都能免費(fèi)訓(xùn)練完成。

  同時(shí),當(dāng)下最流行的機(jī)器學(xué)習(xí)工具、框架和庫也被預(yù)先打包進(jìn)去,提供給注冊(cè)者,能自定義 Conda 環(huán)境,也可安裝開源的 JupyterLab 和 Jupyter Server 擴(kuò)展。上述實(shí)驗(yàn)環(huán)境與 GitHub 緊密集成,使得創(chuàng)建的項(xiàng)目能夠被輕松地復(fù)制和保存。

  除免費(fèi)“線上實(shí)驗(yàn)室”及算力資源,另一部分「羊毛」更直觀——獎(jiǎng)學(xué)金。

  此番亞馬遜云科技共拿出了1000萬美金,推出一項(xiàng)亞馬遜云科技AI&ML 獎(jiǎng)學(xué)金計(jì)劃,旨在幫助16歲以上的高中、大學(xué)生,幫助他們鋪平通往機(jī)器學(xué)習(xí)相關(guān)職業(yè)之路。

  除此之外,亞馬遜云科技的1:18比例自動(dòng)駕駛賽車 Amazon DeepRacer 也在面向自動(dòng)駕駛、機(jī)器學(xué)習(xí)愛好者們,提供一種更有趣、門檻更低的方式幫助他們?nèi)腴T機(jī)器學(xué)習(xí),訓(xùn)練出可自己的強(qiáng)化學(xué)習(xí)模型。

  Amazon DeepRacer 由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),并能將算法部署于云端的 3D 賽車模擬器中,也可以通過實(shí)體小車體驗(yàn)在真實(shí)世界中賽車的刺激感。

  當(dāng)然,表現(xiàn)優(yōu)異者同樣直通獎(jiǎng)學(xué)金計(jì)劃。

  不僅自己發(fā)光發(fā)熱,亞馬遜云科技還拉上英特爾,Udacity 做起聯(lián)名活動(dòng),面向16歲以上的經(jīng)濟(jì)困難、殘疾等社會(huì)弱勢(shì)群體發(fā)放2500份獎(jiǎng)學(xué)金。

  獲得經(jīng)濟(jì)支持之外,這些弱勢(shì)人群們也能得到 Udacity 導(dǎo)師、亞馬遜云科技和英特爾技術(shù)大咖長達(dá)一年時(shí)間的指導(dǎo)和幫助。

  機(jī)器學(xué)習(xí)“工業(yè)化”重塑

  無論零代碼機(jī)器學(xué)習(xí)發(fā)布,還是面向更廣人群的普惠,背后還是技術(shù)撐腰。畢竟功能開發(fā)需要深刻場(chǎng)景理解及技術(shù)積淀,而「普惠」二字考驗(yàn)的,還是技術(shù)企業(yè)的降本水平。

  相比上述兩者,亞馬遜云科技 re:Invent2021 面向?qū)I(yè)從業(yè)者發(fā)布的 Amazon SageMaker 諸項(xiàng)新功能,更直觀展現(xiàn)亞馬遜云科技技術(shù)水準(zhǔn),從中,更可見技術(shù)巨頭對(duì) AI/ML 未來的謀劃。

  對(duì)于廣大的 MLer 來說,一套完整的機(jī)器學(xué)習(xí)流程,包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)標(biāo)注、訓(xùn)練、推理、部署。最終模型推理效果如何,既依賴于開發(fā)者個(gè)人的水平,也會(huì)受架構(gòu)、算力、數(shù)據(jù)這些外化因素的影響。

  亞馬遜云科技之所以這么做,是想要降低個(gè)人水平影響,用他們的話說:讓 AI/ML 從手工作坊走向工業(yè)化。

  具體來看,為一攬子解決問題,Amazon SageMaker 給出一套組合拳,涵蓋機(jī)器學(xué)習(xí)全流程:

  在數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)工程師常常需要離開當(dāng)前開發(fā)環(huán)境,手動(dòng)配置一個(gè)滿足正在運(yùn)行的模型或分析要求的集群。

  為此,Amazon SageMaker Studio 與 Amazon EMR 進(jìn)行了集成,可直接從 Amazon SageMaker Studio Notebook中使用 SparkUI 來監(jiān)視和調(diào)試運(yùn)行在 Amazon ECR 集群上的 Spark 作業(yè)。

  鑒于無論執(zhí)行數(shù)據(jù)預(yù)處理、開發(fā)還是模型部署,都不必離開這個(gè)環(huán)境,上述動(dòng)作無疑向一個(gè)理想的完全集成開發(fā)環(huán)境邁進(jìn)了一步。

  數(shù)據(jù)標(biāo)注階段也在告別勞動(dòng)密集型,避免人工屈從于人工智能:

  這一工作以前需要人力手動(dòng)標(biāo)注,或通過數(shù)據(jù)標(biāo)注程序處理,但現(xiàn)在,在給出原始數(shù)據(jù)和需求之后,Amazon SageMaker Ground Truth Plus 會(huì)結(jié)合機(jī)器學(xué)習(xí)協(xié)助的預(yù)標(biāo)記,輔助人類專家進(jìn)行標(biāo)記。

  這種方式能降低錯(cuò)誤率,同時(shí)將標(biāo)注的成本降低40%,做到更高效地檢測(cè)錯(cuò)誤,避免低質(zhì)量標(biāo)簽的出現(xiàn)。

  訓(xùn)練階段的提升更為關(guān)鍵。

  強(qiáng)如業(yè)界經(jīng)典的深度學(xué)習(xí)模型 BERT ,數(shù)以十億級(jí)參數(shù)的復(fù)雜神經(jīng)網(wǎng)絡(luò),需要用 GPU 訓(xùn)練數(shù)千小時(shí),即使調(diào)參優(yōu)化,也仍然需要幾天的時(shí)間訓(xùn)練。

  但現(xiàn)在,亞馬遜云科技提供的機(jī)器學(xué)習(xí)模型優(yōu)化編譯器 Amazon SageMaker Training Compiler,實(shí)現(xiàn)無需增加太多代碼,即可提升 GPU 實(shí)例訓(xùn)練速度。

  借助該編譯器,包括 BERT-base-cased、BERT-base-uncased、distilBERT-base-uncased 在內(nèi)的諸多經(jīng)典深度學(xué)習(xí)模型,訓(xùn)練速度都能直接提升50%。

  添加兩行代碼就能使用Amazon SageMaker訓(xùn)練編譯器

  最后是推理階段方面的提升。亞馬遜云科技拿出了之前一舉成名的「無服務(wù)器」概念,提供了一套無服務(wù)器推理功能的 Serverless Inference。

  該功能針對(duì)數(shù)據(jù)計(jì)算量波動(dòng)性較強(qiáng)的情況,能夠?qū)①Y源分配交給云端,享受一個(gè)彈性資源空間服務(wù)。讓程序員關(guān)注高級(jí)語言,而不用去關(guān)注底層硬件,讓專業(yè)人士專注擅長方向。

  考慮到現(xiàn)實(shí)中,很多客戶有專項(xiàng)需求,但很難判斷多少計(jì)算資源合適,另一功能 Amazon SageMaker Inference Recommender 則提供推理階段中的配置和實(shí)際運(yùn)行參數(shù)推薦,在成本和速度之間找到最佳平衡點(diǎn)。

  從數(shù)據(jù)準(zhǔn)備到推理階段,上述各個(gè)流程產(chǎn)品功能發(fā)布為全機(jī)器學(xué)習(xí)周期服務(wù),而非單點(diǎn)拼湊而成,其目的在于:幫助企業(yè)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的大規(guī)模運(yùn)用,點(diǎn)連成線,打通了一條 AI/ML 工業(yè)化規(guī)模應(yīng)用流程。

  那么這套組合拳的效果如何?

  可見案例中,美國最大基金管理公司之一 Vanguard 部署時(shí)間壓縮96%,醫(yī)藥巨頭阿斯利康在5分鐘內(nèi)即可完成機(jī)器學(xué)習(xí)環(huán)境部署,理財(cái)企業(yè) NerdWallet 在原有訓(xùn)練需求增加前提下,成本反降75%。

  除此之外,更多元的落地場(chǎng)景,也能看出亞馬遜云科技對(duì) AI/ML 的縱深挖掘。

  比如 DevOps Guru for RDS 可以用來幫助開發(fā)者檢測(cè)、診斷和解決 Amazon Aurora 中的性能和操作問題。

  比如 CodeGuru Reviewer 來識(shí)別源代碼中的密碼、 API 密鑰、 SSH 密鑰和訪問 token,提高代碼審查的效率,幫助傳統(tǒng)軟件行業(yè)提升效能。

  有趣的是,亞馬遜云科技 re:Invent 2021 大會(huì)舉辦期間,CTO Werner Vogels 還忙里偷閑發(fā)表的一篇博客,文中暴露了這位技術(shù)男對(duì) AI/ML 產(chǎn)業(yè)的高期待:

  軟件開發(fā)將從人力密集開始轉(zhuǎn)變,人工智能支持的軟件開發(fā)將占據(jù)主導(dǎo)地位。

  最后硬件上,亞馬遜云科技還發(fā)布了自研芯片,而且還是一口氣推出了三款。

  其中,CPU 芯片 Graviton3 就以機(jī)器學(xué)習(xí)為主打特征。

  更有機(jī)器學(xué)習(xí)定制訓(xùn)練芯片 Trainium,支持 Trn1 實(shí)例,能夠?yàn)橛脩粼谠浦杏?xùn)練深度學(xué)習(xí)模型提供更高性價(jià)比和更快速度。

  無論是打通AI/ML 工業(yè)化規(guī)模應(yīng)用流程,還是硬件自研芯片發(fā)布,更宏觀層面看——

  上述發(fā)布動(dòng)作昭示了亞馬遜云科技在 AI/ML 業(yè)務(wù)肉眼可見的延伸。

  亞馬遜云科技正在拓展 AI 疆界

  根據(jù) IDC 的數(shù)據(jù),從2013年至2020年的7年內(nèi),全球 AI/ML 年支出規(guī)模從0迅速擴(kuò)大到約500億美元,該增速幾乎是亞馬遜云科技老本行云計(jì)算的2倍。

  正是看見這一趨勢(shì),亞馬遜云科技多路出擊似乎也是必然。

  從無代碼機(jī)器學(xué)習(xí)、無服務(wù)器應(yīng)用深入 AI/ML,到底層算力繼續(xù)升級(jí),乃至諸多普惠計(jì)劃…令人眼花繚亂的發(fā)布無不昭示亞馬遜云科技正在重新劃定機(jī)器學(xué)習(xí)的全新的疆界。

  盡管上述發(fā)布還未落地結(jié)果,其展現(xiàn)出的價(jià)值普通大眾一時(shí)未必肉眼可見,但從另一個(gè)視角看,所謂追求長期價(jià)值,所謂看重基礎(chǔ)設(shè)施布局,不就顯而易見地寫在亞馬遜云科技 DNA 里么?

  回想1997年,貝索斯發(fā)布了那封廣為人知的「致股東一封信」。

  彼時(shí)初代互聯(lián)網(wǎng)泡沫正在累積,「快錢」之于很多人尚且是全新概念,當(dāng)時(shí)的 Amazon 就提出客戶、銷售和品牌增長無不為了長期價(jià)值服務(wù),同樣為長期價(jià)值,貝索斯強(qiáng)調(diào)了對(duì)「系統(tǒng)及其它基礎(chǔ)設(shè)施」的持續(xù)投入。

  此后,Amazon Web Services 獨(dú)立運(yùn)作,將云計(jì)算從「概念」變成實(shí)實(shí)在在的一個(gè)行業(yè),更有 Amazon Redshift、Amazon Lambda 帶出云原生數(shù)倉、無服務(wù)器路線發(fā)展…

  一切的一切,似乎都早早寫下序章。

  現(xiàn)在亞馬遜云科技帶著同樣心態(tài)持續(xù)押注 AI/ML 領(lǐng)域,本身也就不令人意外了。

  這既是身為技術(shù)巨頭的責(zé)任所在,也的確讓人有所期待,正呼應(yīng)今年亞馬遜云科技 re:Invent 2021 的 Slogan :引領(lǐng)風(fēng)向,重塑未來。

  我們已能看到,AI/ML 領(lǐng)域人群覆蓋在擴(kuò)大,其行業(yè)場(chǎng)景在延伸,其技術(shù)也相應(yīng)繼續(xù)深探,這一過程還在被行業(yè)技術(shù)探路者們持續(xù)推進(jìn)。

  未來,AI/ML 的疆域究竟有多大?亞馬遜云科技正在一點(diǎn)點(diǎn)劃定新的輪廓。