8月10日消息,ai大模型成為今年的熱點,openai的chatgpt一馬當先,微軟、谷歌、meta緊隨其后,國內科技巨頭也迅速跟進,現在國內據說已經有上百款大模型問世了。
這么多大模型中,實力到底如何?日前清華大學新聞與傳播學院發(fā)布了《大語言模型綜合性能評估報告》,將國內外的大模型做了一番對比。
該報告還探討了這些模型在不同知識領域,如創(chuàng)意寫作、代碼編程、輿情分析、歷史知識等方面的回答情況,以及其在解決實際問題中的有效性和局限性。
從生成質量、使用與性能、安全與合規(guī)三個維度,對目前市場上的7個大型語言模型進行了全面的綜合評估。
在這7款大模型中,gpt-4獲得了毫無懸念的第一,第二名是百度的文心一言,其次是gpt-3.5,后面就是claude、訊飛星火、阿里云的通義千問及昆侖的天工。
雖然gpt-4各方面領先,但是對國內用戶來說,更懂中文的大模型才是關鍵,這方面百度的文心一言更好,在部分中文語義理解方面,文心一言以92%的得分率排名榜首,超越訊飛星火、gpt-4。
這跟百度的大模型包含大量中文文本有關系,因此能夠更好地處理本土文化相關的內容。