NVIDIA如何領跑無處不在的AI加速計算新時代？

發(fā)布時間：2024-08-15

“隨著摩爾定律走向盡頭，gpu加速計算已成為新的前進道路，這也是我們領先了20多年的領域。”在gtc china 2019的主題演講環(huán)節(jié)，nvidia創(chuàng)始人兼首席執(zhí)行官黃仁勛為現(xiàn)場的科學家、企業(yè)家、工程師、開發(fā)者等超過6000名參會者，描繪了一個面向未來的ai加速時代，“我們在為當代的‘愛因斯坦’、‘達芬奇’、‘米開朗基羅’打造計算機，當然也包括所有的人。”如今，英偉達已售出15億塊gpu，加速著地質(zhì)研究、個性化醫(yī)療、數(shù)據(jù)科學、自然語言處理等領域的智慧化進程。
在nvidia的數(shù)據(jù)中心業(yè)務版圖中，ai扮演著至關重要的作用，gpu可以滿足大規(guī)模的并行計算需求，并且得益于tensor core和tensorrt的支持在云端低精度計算上構(gòu)筑了技術優(yōu)勢，tensorrt 5可以將fp32模型轉(zhuǎn)換成fp16或int8模型，而不損失準確率，并降低能耗。圍繞tensorrt，nvidia幫助阿里巴巴和百度構(gòu)建了深度推薦系統(tǒng)，對tensorflow的輸出結(jié)果進行優(yōu)化，通過計算尋找計算圖中可以融合的節(jié)點和邊，減少訪問以便開發(fā)者使用cuda將負載高效部署在任意的gpu上。
此前，企業(yè)要在互聯(lián)網(wǎng)數(shù)以百億計的信息流中找到用戶真正關心的內(nèi)容就像大海撈針，而這需要一個智能的篩選系統(tǒng)將有效信息從數(shù)十億過濾到數(shù)百個，并且進行排序，依據(jù)就是對用戶喜好的了解，這種推薦系統(tǒng)的計算平臺已從cpu轉(zhuǎn)向gpu。在百度，10tb量級的數(shù)據(jù)使用gpu訓練成本可減少90%%u3002阿里在處理“雙11”的交易量時，使用基于gpu的深度學習模型每秒可處理780個請求。
不過，tensorrt 5僅能支持cnn，對多數(shù)語音模型所需要的rnn始終是個遺憾，tensorrt 7的發(fā)布則完善了這一特性。黃仁勛談到：“我們已進入了一個機器可以實時理解人類語言的ai新時代。tensorrt 7使這成為可能，為世界各地的開發(fā)者提供工具，使他們能夠構(gòu)建和部署更快、更智能的會話式ai服務，從而實現(xiàn)更自然的ai人機交互。”作為nvidia第七代推理軟件開發(fā)套件，tensorrt 7能夠?qū)崿F(xiàn)與語音代理、聊天機器人和推薦引擎等應用進行實時互動。
具體來說，tensorrt 7內(nèi)置新型深度學習編譯器，可以自動優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡與基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡。這些日益復雜的神經(jīng)網(wǎng)絡是ai語音應用所必需的，根據(jù)juniper research預計，全球有32.5億個數(shù)字語音助理被應用于設備中，到2023年該數(shù)字將達到80億。與在cpu上運行時相比，會話式ai組件速度提高10倍以上，從而把延遲降低到實時交互所需的300毫秒閾值以下。
“實時更新的互聯(lián)網(wǎng)信息使得推理過程無時無刻都在變化，訓練模型需要大量的算力，模型也越來越復雜，這就是nvidia要解決的問題，要用多臺服務器同時來處理。”nvidia加速計算產(chǎn)品管理總監(jiān)paresh kharya表示，“我們提供了不斷升級的各類工具和軟件，例如用最新的tensor rt支持各種各樣的模型在各種情景下的部署，并且支持上百萬的用戶在每秒內(nèi)進行數(shù)十億次的搜索。”
要想實現(xiàn)真正的會話式ai，就要在毫秒級的時間段內(nèi)完成復雜的數(shù)據(jù)交互，這就離不開rnn在序列數(shù)據(jù)處理和預測方面的特性，其已被廣泛應用于語音識別、nlp、語言翻譯、股票預測、金融風控、行程規(guī)劃等實時動態(tài)數(shù)據(jù)的處理任務中。通過tensorrt的新型深度學習編譯器，全球的開發(fā)者能夠?qū)⑦@些網(wǎng)絡（例如定制的自動語音識別網(wǎng)絡以及用于文本-語音轉(zhuǎn)換的wavernn和tacotron 2）實現(xiàn)自動化，并實現(xiàn)最佳的性能和最低的延遲，新的編譯器還能優(yōu)化基于transformer的模型。
nvidia tensorrt產(chǎn)品市場負責人siddarth sharma透露，nvidia研發(fā)會話式ai加速已有數(shù)月時間，最終在tensorrt 7中實現(xiàn)了從語音識別到語義理解再到語音輸出的全流程功能，“會話式ai是非常難的領域，要想把會話式ai做得比較有用，要符合兩個條件，首先是在300毫秒內(nèi)將三個部分完成，而且做得足夠智能化，期間會有非常多的復雜模型需要計算，盡管tensor rt仍需完善，但已可以覆蓋整個流程。”
tensorrt 7能夠快速優(yōu)化、驗證并部署經(jīng)過訓練的神經(jīng)網(wǎng)絡，為超大型數(shù)據(jù)中心、嵌入式或汽車gpu平臺提供推理能力。相比tensorrt 5僅支持30種模型，tensorrt 7可以支持多達1000種不同的計算變換和優(yōu)化，包括最新的bert、roberta等，并且可以擴展到基于cuda的任意gpu計算環(huán)境中。
在nvidia，軟件工程師的數(shù)量要超過硬件工程師，這也是該公司對軟件高度重視的體現(xiàn)之一。在做硬件設計時，nvidia會確保其可編程的靈活性，以便加速計算可用在各個領域，同時也在持續(xù)完善軟件堆棧，無論是對推理速度的提升，還是訓練模型的預部署，nvidia始終保持著與開發(fā)者的緊密溝通，讓tensorflow這樣的ai框架與硬件協(xié)同作業(yè)，并將更多的軟件庫整合到開發(fā)框架中，方便開發(fā)人員隨時調(diào)用。
黃仁勛認為，制程工藝技術固然重要，但要想在兩年后實現(xiàn)ai性能的四倍提升，僅靠制程是無法做到的，“比如我們的‘turing’芯片，制程工藝是12納米，因為它的架構(gòu)和設計都很好，實際上能效已超過了7納米的gpu。當我們談到如何讓芯片達到最高性能的時候，要有架構(gòu)、算法、軟件和應用的共同合力。英偉達的架構(gòu)規(guī)則與其他的架構(gòu)是完全不一樣的，這也是為什么我們能夠?qū)崿F(xiàn)20倍的提升。”
作為首個用于gpu的通用計算解決方案，nvidia開發(fā)的并行計算平臺和編程模型——cuda提供了開發(fā)gpu加速應用所需的一切，包括加速庫、編譯器、開發(fā)/調(diào)試工具、編程指南、api參考等等。如今，cuda在nvidia擁抱arm生態(tài)的進程中同樣扮演著關鍵角色。為此，nvidia也通過對pci express的支持連接了每一顆arm芯片。
年初，英偉達為arm帶來了cuda-x軟件平臺，并在sc19上發(fā)布了參考設計平臺，使企業(yè)能夠快速構(gòu)建gpu加速的arm服務器，該平臺由硬件和軟件基礎模塊組成，英偉達將提供arm兼容軟件開發(fā)套件的預覽版本，該版本包含nvidia cuda-x庫和加速計算開發(fā)工具。為了讓arm平臺上的應用實現(xiàn)gpu加速，英偉達及其高性能計算應用生態(tài)合作伙伴還編譯了大量代碼。除了應用層面的合作，英偉達還與canonical、red hat、suse強化了基礎開發(fā)工具。
而在gtc china 2019上，nvidia又推出了用于自動駕駛和機器人的高度先進的軟件定義平臺——nvidia drive agx orin，orin系統(tǒng)級芯片集成了nvidia新一代gpu架構(gòu)和arm hercules cpu內(nèi)核，以及全新深度學習和計算機視覺加速器，該芯片由170億個晶體管組成，每秒可運行200萬億次計算，幾乎是上一代xavier系統(tǒng)級芯片性能的7倍。由于orin和xavier均可通過開放的cuda、tensorrt api及各類庫進行編程，因此開發(fā)者能夠在一次性投資后使用跨多代的產(chǎn)品。
“通過將cuda平臺和arm架構(gòu)進行兼容，無論是ai、hpc還是其他領域，我們可以在加速計算上為客戶提供更多的選擇，與此前以cpu為基礎的計算方式大不相同，例如能夠讓高性能計算的性能提升達到20、30甚至是100倍。不僅是在架構(gòu)上進行了設計，更重要的是我們通過軟件的方式使得性能進一步提升。”paresh kharya表示，“軟件對加速計算的性能提升是非常重要的，未來我們會繼續(xù)在各個平臺上對軟件進行完善以提升性能。”

上一個：抖音商品類目怎么填寫(抖音小店商品類目表)
下一個：氣相色譜儀穩(wěn)流閥的使用注意事項

LZB-15玻璃轉(zhuǎn)子流量計選型材料
全自動膠囊填充機操作規(guī)程
死亡賠償金是遺產(chǎn)嗎需要償還債務嗎
俄羅斯航空公司怎么樣（俄羅斯國際空運公司的發(fā)展歷程）
iphone手機如何設置來電鈴聲(蘋果手機然后設置來電鈴聲)
供應意大利elap傳感器
絕緣電阻測試測量監(jiān)測
提高三相離心機在油氣水分離效率的方法
淺談茶藝師行業(yè)背景
漿渣分離紅薯淀粉機加工流程具體分為哪幾個步驟

亚洲国产成人,色呦呦内射午夜,无码一级片,无码人妻少妇色欲AV一区二区

NVIDIA如何領跑無處不在的AI加速計算新時代？

NVIDIA如何領跑無處不在的AI加速計算新時代？