來源:快科技
2023-06-21 22:00:07
快科技6月21日消息,在AI大模型領(lǐng)域,OpenAI的ChatGPT成為當(dāng)前最火的大模型,也是標(biāo)桿性的,多個(gè)國產(chǎn)大模型都要對標(biāo)它,今天商湯科技公布了自己的大模型測試結(jié)果,三個(gè)測試項(xiàng)目中都超越了ChatGPT。
商湯科技自研中文語言大模型名為“商量SenseChat 2.0”,日前公布的測試顯示,MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語言模型評測基準(zhǔn)的成績。
根據(jù)評測結(jié)果,“商量SenseChat 2.0”在三個(gè)測試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT4的水平,實(shí)現(xiàn)了我國語言大模型研究的重要突破。
(資料圖片僅供參考)
這三個(gè)測試分別如下:
由美國加州大學(xué)伯克利分校等高校構(gòu)建的多任務(wù)考試評測集MMLU;
微軟研究院推出的學(xué)科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval;
在MMLU測試中,“商量SenseChat 2.0”綜合得分為68.6,遠(yuǎn)超GLM-130B(45.7分)的得分,同時(shí)還超過了ChatGPT(67.3分)、LLaMA-65B(63.5分)僅落后GPT-4(86.4分),位居第二。
在AGIEval測試中,“商量SenseChat 2.0”測出49.91的分?jǐn)?shù),遙遙領(lǐng)先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。
在其中的AGIEval(GK)評測子集中,“商量SenseChat 2.0”以58.5分全面領(lǐng)先,僅微弱差距落后GPT-4(58.8分)。
在C-Eval測試中,“商量SenseChat 2.0”拿到了66.1的分?jǐn)?shù),在參評的18個(gè)大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一眾海內(nèi)外大模型。
截至目前,已有近千家企業(yè)客戶通過申請,應(yīng)用和體驗(yàn)“商量SenseChat 2.0”超強(qiáng)的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量SenseChat 2.0”還在服務(wù)客戶過程中,持續(xù)實(shí)現(xiàn)著快速迭代和提升,以及知識的實(shí)時(shí)更新。
關(guān)鍵詞: