您當(dāng)前的位置：實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活>資訊頻道 > 聚焦 > 正文

必示科技聯(lián)合多家單位發(fā)布 OpsEval：運(yùn)維大語(yǔ)言模型評(píng)測(cè)榜單

2023-10-27 09:27:52 來(lái)源：今日熱點(diǎn)網(wǎng)

評(píng)測(cè)榜單：

https://opseval.cstcloud.cn/

論文鏈接：

https://arxiv.org/abs/2310.07637

01 引言

大規(guī)模語(yǔ)言模型（LLMs）在NLP相關(guān)任務(wù)如翻譯、摘要和生成方面展現(xiàn)出了卓越的能力。由于大模型的記憶、生成和推理等高級(jí)能力，它在智能運(yùn)維（AIOps）領(lǐng)域也具有巨大的應(yīng)用潛力。然而，當(dāng)前LLMs在AIOps特定任務(wù)的性能尚不明確，需要一個(gè)全面的基準(zhǔn)來(lái)指導(dǎo)針對(duì)AIOps領(lǐng)域的LLMs的優(yōu)化。

為了解決這些問(wèn)題，清華大學(xué)、中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、南開(kāi)大學(xué)、必示科技、中興通訊、中亦圖靈等多家單位聯(lián)合發(fā)布了OpsEval：面向大規(guī)模語(yǔ)言模型的多層次智能運(yùn)維能力評(píng)價(jià)基準(zhǔn)。此榜單發(fā)布于中國(guó)科技網(wǎng)（CSTNET）上，中國(guó)科技網(wǎng)是中國(guó)科學(xué)院領(lǐng)導(dǎo)下的學(xué)術(shù)性、非盈利的科研計(jì)算機(jī)網(wǎng)絡(luò)，是中國(guó)第一個(gè)全功能正式接入國(guó)際互聯(lián)網(wǎng)的網(wǎng)絡(luò)，主要面向全國(guó)科技界、政府和高新技術(shù)企業(yè)提供網(wǎng)絡(luò)服務(wù)，覆蓋30余個(gè)省、市、自治區(qū)、直轄市，擁有網(wǎng)絡(luò)用戶(hù)100余萬(wàn)。中國(guó)科技網(wǎng)由中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心建設(shè)維護(hù)。中心成立于1995年3月，是中國(guó)互聯(lián)網(wǎng)誕生地。

OpsEval首次評(píng)估了LLMs在三個(gè)關(guān)鍵場(chǎng)景（有線(xiàn)網(wǎng)絡(luò)運(yùn)營(yíng)、5G通信運(yùn)營(yíng)和數(shù)據(jù)庫(kù)運(yùn)營(yíng)）的各種任務(wù)難度級(jí)別（知識(shí)召回、推理、應(yīng)用）的熟練程度?；鶞?zhǔn)測(cè)試包括7200個(gè)問(wèn)題，既有選擇題，也有問(wèn)答題，提供英文和中文。我們非常歡迎其他垂直領(lǐng)域的單位提供更多評(píng)測(cè)題目，我們會(huì)統(tǒng)一評(píng)估，并定期更新到OpsEval網(wǎng)站上。

我們?cè)u(píng)估了十余種主流大模型，我們的發(fā)現(xiàn)揭示了傳統(tǒng)的BLEU指標(biāo)不適合用于專(zhuān)業(yè)領(lǐng)域的知識(shí)型問(wèn)答評(píng)估，而GPT-4得分可以作為人類(lèi)評(píng)估指標(biāo)的最佳替代品。最后，我們探討了不同模型量化方法對(duì)總體性能的影響。

02 相關(guān)工作

隨著傳統(tǒng)的自然語(yǔ)言處理（NLP）評(píng)價(jià)指標(biāo)越來(lái)越無(wú)法滿(mǎn)足LLMs的評(píng)估需求，針對(duì)LLMs的評(píng)價(jià)指標(biāo)越來(lái)越受到重視。它們可以分為兩類(lèi)：通用能力指標(biāo)和特定領(lǐng)域指標(biāo)。

通用能力指標(biāo)，如HELM、BIG-bench、C-Eval、AGIEval等等，用于評(píng)估LLMs在各類(lèi)任務(wù)上的通用能力，例如是否包含常識(shí)、通用知識(shí)、推理能力等等，不會(huì)局限在某一特定領(lǐng)域上。而特定領(lǐng)域指標(biāo)，包括金融領(lǐng)域的FinEval、醫(yī)療領(lǐng)域的CMB、HuoTuo-26M、MultiMedQA等等，被用于評(píng)價(jià)LLMs是否處理特定垂直領(lǐng)域的問(wèn)題。

最近提出的NetOps，被用于評(píng)估LLMs在網(wǎng)絡(luò)領(lǐng)域下的能力，包含中英文選擇題、少量的填空和問(wèn)答題。與之相比，我們的工作包括了傳統(tǒng)網(wǎng)絡(luò)運(yùn)維、5G網(wǎng)絡(luò)通信、數(shù)據(jù)庫(kù)運(yùn)維等多個(gè)方面，在AIOps領(lǐng)域涵蓋更加廣泛和深入的評(píng)價(jià)方式，在任務(wù)話(huà)題和任務(wù)難度上進(jìn)行了更加細(xì)致的劃分，并且對(duì)常見(jiàn)LLMs在各類(lèi)任務(wù)上的表現(xiàn)進(jìn)行了詳細(xì)的分析。

03 OpsEval 評(píng)估基準(zhǔn)

在對(duì)AIOps領(lǐng)域的大型語(yǔ)言模型進(jìn)行評(píng)估時(shí)，我們將問(wèn)題分為客觀(guān)和主觀(guān)兩類(lèi)?？陀^(guān)問(wèn)題通常為多項(xiàng)選擇題，提供明確答案，但可能導(dǎo)致模型過(guò)度依賴(lài)模式識(shí)別而非真正理解。主觀(guān)題無(wú)預(yù)設(shè)選項(xiàng)，更能考察模型的理解力和知識(shí)庫(kù)。我們通過(guò)結(jié)合這兩類(lèi)問(wèn)題，旨在全面、平衡地評(píng)估模型的認(rèn)知能力和理解力。

3.1 客觀(guān)題

數(shù)據(jù)來(lái)源：客觀(guān)問(wèn)題主要來(lái)自于全球公認(rèn)的AIOps領(lǐng)域的國(guó)際認(rèn)證考試，我們從各種書(shū)籍、在線(xiàn)資源和合作單位中收集問(wèn)題。這些問(wèn)題主要以選擇題的形式出現(xiàn)，包括單選和多選兩種形式。每個(gè)問(wèn)題都配有問(wèn)題提示、可能的答案選擇以及相關(guān)的解釋或分析。我們主要關(guān)注的領(lǐng)域包括有線(xiàn)網(wǎng)絡(luò)運(yùn)營(yíng)、5G通信運(yùn)營(yíng)和數(shù)據(jù)庫(kù)運(yùn)營(yíng)。我們還將繼續(xù)在未來(lái)完善和擴(kuò)大評(píng)估領(lǐng)域。

數(shù)據(jù)處理：我們的原始數(shù)據(jù)集的處理包括五個(gè)階段：初步篩選、去重、內(nèi)容過(guò)濾、格式標(biāo)準(zhǔn)化和手動(dòng)審查。這個(gè)細(xì)致的過(guò)程最終得到了一個(gè)包含大約7000個(gè)客觀(guān)題的精煉數(shù)據(jù)集。

任務(wù)分類(lèi)：在復(fù)雜的運(yùn)維領(lǐng)域，認(rèn)識(shí)到任務(wù)和挑戰(zhàn)的多維性是至關(guān)重要的。為了全面評(píng)估AIOps領(lǐng)域的大型語(yǔ)言模型，我們?cè)O(shè)計(jì)了一個(gè)分類(lèi)，涵蓋了專(zhuān)業(yè)人員在實(shí)際環(huán)境中面臨的各種場(chǎng)景。我們的八個(gè)不同的運(yùn)維場(chǎng)景的制定受到了行業(yè)相關(guān)性、任務(wù)頻率和每個(gè)領(lǐng)域在AIOps中的重要性的影響。這些類(lèi)別包括：

?通用領(lǐng)域知識(shí)

?故障分析和診斷

?網(wǎng)絡(luò)配置

?軟件部署

?性能優(yōu)化

?監(jiān)控告警

?自動(dòng)化腳本

?混合型任務(wù)

3.2 主觀(guān)題

數(shù)據(jù)收集：OpsEval數(shù)據(jù)集中的主觀(guān)題來(lái)源于精心策劃的多種資源，以確保其全面性和相關(guān)性：

?從客觀(guān)問(wèn)題生成：我們的一部分主觀(guān)題是從原始數(shù)據(jù)集中精心挑選的客觀(guān)問(wèn)題中派生出來(lái)的。這些問(wèn)題在被確定具有潛在的深度和廣度后，被轉(zhuǎn)化為主觀(guān)形式。

?從書(shū)籍中提取：為了增強(qiáng)我們數(shù)據(jù)集的多樣性和深度，我們還從涵蓋AIOps領(lǐng)域的權(quán)威書(shū)籍中獲取了主觀(guān)題。這確保了我們的數(shù)據(jù)集不僅廣泛，而且符合行業(yè)標(biāo)準(zhǔn)和當(dāng)前的最佳實(shí)踐。

數(shù)據(jù)處理：

1.問(wèn)題總結(jié)：被選中轉(zhuǎn)化為主觀(guān)題的客觀(guān)問(wèn)題經(jīng)過(guò)了一個(gè)總結(jié)過(guò)程。這涉及到提煉每個(gè)問(wèn)題的主要內(nèi)容，并以沒(méi)有預(yù)定義選項(xiàng)的開(kāi)放題形式呈現(xiàn)。

2.引入?yún)⒖假Y料：對(duì)于在GPT-4的幫助下生成的問(wèn)題，我們?cè)谔崾局刑峁┝藚⒖嘉谋?，以指?dǎo)生成過(guò)程并確保準(zhǔn)確性。

3.數(shù)據(jù)結(jié)構(gòu)化：每個(gè)主觀(guān)題都被精心結(jié)構(gòu)化，包括原始問(wèn)題、答案的關(guān)鍵點(diǎn)、詳細(xì)答案、領(lǐng)域和相關(guān)任務(wù)。這種結(jié)構(gòu)化的方法便于評(píng)估和分析。

3.3 評(píng)估指標(biāo)

客觀(guān)題：使用準(zhǔn)確性作為指標(biāo)。由于LLMs可能輸出除選項(xiàng)之外的更多內(nèi)容，因此LLMs的答案是通過(guò)基于正則表達(dá)式的選項(xiàng)提取器從其原始回復(fù)中提取的。

主觀(guān)題：用兩種類(lèi)型的指標(biāo)，一種基于詞重疊，另一種基于語(yǔ)義相似性。對(duì)于第一種類(lèi)型，我們使用Rouge和Bleu，這在NLP任務(wù)中被廣泛使用，尤其是在翻譯任務(wù)中。對(duì)于第二種類(lèi)型，我們使用GPT-4和人類(lèi)來(lái)獲取LLMs輸出的分?jǐn)?shù)，這在OpsEval中分別被稱(chēng)為GPT4-Score和Expert Evaluation。

?GPT4-Score是由GPT4生成的分?jǐn)?shù)，使用精心設(shè)計(jì)的提示。尤其是在LLMs的參數(shù)變大后，越來(lái)越多地使用LLMs進(jìn)行評(píng)分。我們將問(wèn)題的評(píng)分提示、真實(shí)關(guān)鍵點(diǎn)、真實(shí)詳細(xì)答案和待評(píng)分的LLM答案組合起來(lái)。分?jǐn)?shù)在1到10之間，越高越好。

?專(zhuān)家評(píng)估（Expert Evaluation）是為OpsEval專(zhuān)門(mén)設(shè)計(jì)的指標(biāo)，根據(jù)三個(gè)與網(wǎng)絡(luò)操作需求高度相關(guān)的標(biāo)準(zhǔn)對(duì)LLMs的輸出進(jìn)行手動(dòng)評(píng)分?？紤]的三個(gè)標(biāo)準(zhǔn)如下：

1.流暢性（Fluency）：評(píng)估模型輸出的語(yǔ)言流暢性，符合主觀(guān)問(wèn)題的回答要求，以及段落重復(fù)或無(wú)關(guān)文本的存在與否。

2.準(zhǔn)確性（Accuracy）：評(píng)估模型輸出的精確性和正確性，包括是否充分覆蓋了真實(shí)答案的關(guān)鍵點(diǎn)。

3.證據(jù)量（Evidence）：檢查模型的輸出是否包含足夠的論證和證據(jù)支持，以確保答案的可信度和可靠性。

04 OpsEval 實(shí)驗(yàn)設(shè)計(jì)

4.1 考察模型

我們選取了比較流行的能夠處理中英文輸入的不同參數(shù)大小、不同機(jī)構(gòu)發(fā)布的模型，并將它們?cè)贠psEval上進(jìn)行評(píng)估。所評(píng)估的模型及具體細(xì)節(jié)見(jiàn)下表。

此外，為了了解不同量化參數(shù)對(duì)模型性能的影響，我們?cè)u(píng)估了LLaMA-2-70B的兩個(gè)量化版本。具體而言，我們使用LLaMA-2-70B的帶有3位和4位量化參數(shù)的GPTQ模型。

4.2 實(shí)驗(yàn)設(shè)置

4.2.1 客觀(guān)題

為了全面了解不同語(yǔ)言模型在OpsEval上的表現(xiàn)，我們使用盡可能多的評(píng)估方式來(lái)進(jìn)行評(píng)估。在評(píng)測(cè)中，我們分別使用zero-shot方式和few-shot方式（我們的實(shí)現(xiàn)中為3-shot）進(jìn)行評(píng)估。對(duì)于zero-shot方式，我們希望從普通用戶(hù)的角度評(píng)估語(yǔ)言模型的能力，因?yàn)橛脩?hù)在普通使用中不會(huì)提供任何示例。對(duì)于few-shot方式，我們旨在從開(kāi)發(fā)人員的角度評(píng)估語(yǔ)言模型的潛力，這通常比zero-shot設(shè)置獲得更好的性能。

對(duì)于每個(gè)評(píng)估方式，我們使用4種設(shè)置來(lái)評(píng)估語(yǔ)言模型，即原始問(wèn)答（Naive）、自我一致性（SC）、思維鏈（CoT），結(jié)合思維鏈的自我一致性（CoT+SC）。由于我們有英文和中文問(wèn)題，我們分別為兩種語(yǔ)言設(shè)計(jì)對(duì)應(yīng)的原始問(wèn)答提示與思維鏈提示。

?原始問(wèn)答（Naive）：希望語(yǔ)言模型在沒(méi)有任何其他解釋的情況下生成答案。由于我們有每個(gè)問(wèn)題的場(chǎng)景，因此我們將問(wèn)題的場(chǎng)景集成到提示中，如下圖所示。

?自我一致性（SC）：將相同的問(wèn)題多次詢(xún)問(wèn)語(yǔ)言模型，提取模型生成答案中出現(xiàn)次數(shù)最高的答案。在實(shí)現(xiàn)中，我們將SC的查詢(xún)次數(shù)設(shè)置為 5 。

?思維鏈（CoT）：通過(guò)讓模型生成中間推理步驟使語(yǔ)言模型獲得復(fù)雜的推理能力。在CoT設(shè)置的zero-shot評(píng)估中，我們進(jìn)行兩步問(wèn)答。第一步，在問(wèn)題后添加“讓我們一步一步地思考?！?，語(yǔ)言模型會(huì)輸出其推理思路。第二步，我們將問(wèn)題的提示和生成的推理思路組合起來(lái)，輸入語(yǔ)言模型，并獲得最終答案。在CoT設(shè)置的few-shot評(píng)估中，我們對(duì)問(wèn)題的每個(gè)選項(xiàng)進(jìn)行推理分析，并制作三個(gè)具有CoT推理過(guò)程答案的Q-A示例，將這些示例與問(wèn)題一起輸入給語(yǔ)言模型。CoT的提示構(gòu)造示例如下圖所示。

?結(jié)合思維鏈的自我一致性（CoT+SC）：將CoT和SC結(jié)合在一起，以提高CoT的表現(xiàn)。與 SC一樣，在實(shí)現(xiàn)中，我們將SC的查詢(xún)次數(shù)設(shè)置為 5 。

4.2.1 主觀(guān)題

我們將每個(gè)問(wèn)題的場(chǎng)景和任務(wù)以及問(wèn)題本身結(jié)合起來(lái)作為語(yǔ)言模型的輸入。在主觀(guān)題中，我們希望模擬普通用戶(hù)對(duì)語(yǔ)言模型的日常使用，將問(wèn)題輸入給語(yǔ)言模型，然后生成答案。因此，我們只使用Naive設(shè)置中對(duì)語(yǔ)言模型進(jìn)行zero-shot評(píng)估。

05 OpsEval 評(píng)估效果

5.1 總體表現(xiàn)

所有模型在英文網(wǎng)絡(luò)操作測(cè)試集的八種設(shè)置結(jié)果顯示在下表中（更多評(píng)測(cè)結(jié)果請(qǐng)參閱論文原文和網(wǎng)站）。我們統(tǒng)計(jì)平均準(zhǔn)確率，并從總體性能中得出了幾個(gè)發(fā)現(xiàn)。

首先，GPT-4始終優(yōu)于所有其他模型，超越了所有其他模型的最佳結(jié)果。

在網(wǎng)絡(luò)操作問(wèn)題集中，當(dāng)使用CoT+SC提示方法時(shí)，LLaMA-2-13b-chat和Baichuan-13b-chat在英文和中文測(cè)試數(shù)據(jù)集中接近ChatGPT的性能。

在5G通信問(wèn)題集中，LlaMA-2-13B和Qwen-7B-Chat在英文和中文測(cè)試數(shù)據(jù)集中超過(guò)了ChatGPT的性能。

在Oracle數(shù)據(jù)庫(kù)問(wèn)題集中，LlaMA-2-13B和Qwen-7B-Chat仍然領(lǐng)先于GPT-4和ChatGPT以外的模型。

較小的模型，如LLaMA-2-7b-chat和Internlm-chat-7b，在客觀(guān)的問(wèn)答任務(wù)中表現(xiàn)出有競(jìng)爭(zhēng)力的性能，接近具有13B參數(shù)的模型的能力，這歸功于它們的微調(diào)過(guò)程和訓(xùn)練數(shù)據(jù)的質(zhì)量。

5.2 不同設(shè)置間效果對(duì)比

從測(cè)試結(jié)果中，有幾點(diǎn)有趣的觀(guān)察：

1.對(duì)于大多數(shù)模型，從Naive到SC、CoT、CoT+SC，評(píng)估性能穩(wěn)步提高，其中CoT帶來(lái)的提高最為顯著。

2.SC提示只能帶來(lái)相對(duì)較小的改進(jìn)，因?yàn)槟Ｐ偷幕貞?yīng)在重復(fù)中傾向于保持一致，符合運(yùn)營(yíng)場(chǎng)景中需要可靠性和一致性的期望結(jié)果。

3.在某些情況下，更高級(jí)的提示方法（如CoT）令人驚訝地導(dǎo)致了更差的結(jié)果。我們分析了這種現(xiàn)象背后的可能原因：

a.一些模型可能在需要逐步思考時(shí)對(duì)CoT提示提供的指導(dǎo)反應(yīng)不佳，導(dǎo)致次優(yōu)的輸出。下圖是CoT失敗的一個(gè)例子：被測(cè)試的模型無(wú)法理解逐步思考的概念。

b.few-shot評(píng)估可能會(huì)導(dǎo)致一些模型認(rèn)為任務(wù)涉及生成問(wèn)題而不是回答問(wèn)題，從而導(dǎo)致模型回答效果變差。

5.3 不同場(chǎng)景與任務(wù)效果

為了研究模型在不同運(yùn)維場(chǎng)景（通用領(lǐng)域知識(shí)、監(jiān)控告警、軟件部署、網(wǎng)絡(luò)配置、故障分析與診斷、自動(dòng)化腳本、性能優(yōu)化、混合型任務(wù)）以及不同任務(wù)（知識(shí)回憶、分析思考和實(shí)際應(yīng)用）中的表現(xiàn)，我們根據(jù)前文提到的結(jié)構(gòu)化評(píng)分分類(lèi)，總結(jié)了不同參數(shù)大小模型組的結(jié)果。

通過(guò)按參數(shù)大小對(duì)模型進(jìn)行分組，我們發(fā)現(xiàn)，盡管13B模型在最佳情況下的準(zhǔn)確率比參數(shù)少于7B的模型高，但不同的13B模型的性能差異極大，導(dǎo)致其下限甚至低于7B。另一方面，7B模型在組內(nèi)的性能范圍更穩(wěn)定。

5.4 不同量化等級(jí)效果對(duì)比

上圖展示了LLaMA-2-70B在中英文客觀(guān)問(wèn)題上的不同量化參數(shù)的準(zhǔn)確性。我們使用Naive設(shè)置下進(jìn)行了zero-shot和few-shot評(píng)估。顯然，在推理過(guò)程中使用量化會(huì)降低LLM的性能。

4位量化模型與原模型相比，準(zhǔn)確率比較接近。具體來(lái)說(shuō)，在英文客觀(guān)題上，與LLaMA-2-70B相比，4位量化模型在zero-shot評(píng)估中的準(zhǔn)確性降低了3.50％，在few-shot評(píng)估中降低了0.27％。在中文客觀(guān)題上，與LLaMA-2-70B相比，4位量化模型在zero-shot評(píng)估中的準(zhǔn)確性降低了3.67％，在few-shot評(píng)估中降低了5.18％。

另一方面，3位量化模型的性能下降較大。平均來(lái)說(shuō)，3位量化模型的準(zhǔn)確性相比原始LLaMA-2-70B降低了12.46％，相比4位量化模型降低了9.30％?？梢?jiàn)，3位量化后，原始模型中的信息丟失太多。

5.5 主觀(guān)題表現(xiàn)

下表展示了50個(gè)主觀(guān)英文問(wèn)題的評(píng)估結(jié)果，這些問(wèn)題涵蓋了四類(lèi)指標(biāo)：Rouge、Bleu、GPT4-Score和專(zhuān)家評(píng)估，按照GPT4-Score結(jié)果排序。

我們觀(guān)察到，基于Rouge和Bleu得分的排名與GPT4-Score和專(zhuān)家評(píng)估的排名并不一致。實(shí)際回答性能較差的模型可能會(huì)生成關(guān)鍵詞，從而得到較高的Rouge和Bleu得分。相反，由于與標(biāo)準(zhǔn)答案的措辭差異，回答性能好的模型可能會(huì)得到較低的Rouge/Bleu得分。

關(guān)于GPT4-Score評(píng)估，排名與基于人類(lèi)評(píng)分的排名非常接近。在專(zhuān)家評(píng)估的三個(gè)指標(biāo)中，GPT4-Score排名與準(zhǔn)確性指標(biāo)最為接近，這表明GPT4在事實(shí)性上最為可靠，因?yàn)樗旋嫶蟮闹R(shí)庫(kù)。生成內(nèi)容的格式和長(zhǎng)度也對(duì)GPT4的評(píng)分有很大影響，這由GPT4-Score和流暢性之間的高正相關(guān)性所證明。另一方面，關(guān)于證據(jù)量指標(biāo)的排名有更多的錯(cuò)排，這表明GPT4的評(píng)分需要充分考慮論據(jù)和證據(jù)的作用，特別是在答案模糊的情況下。

06 總結(jié)與展望

本文介紹了OpsEval，一個(gè)為大規(guī)模語(yǔ)言模型（LLMs）設(shè)計(jì)的綜合性任務(wù)導(dǎo)向的智能運(yùn)維領(lǐng)域基準(zhǔn)測(cè)試。OpsEval的獨(dú)特之處在于，它在考慮了不同的能力水平（包括知識(shí)召回、推理和應(yīng)用）的前提下，評(píng)估了LLMs在三個(gè)關(guān)鍵場(chǎng)景（有線(xiàn)網(wǎng)絡(luò)運(yùn)營(yíng)、5G通信運(yùn)營(yíng)和數(shù)據(jù)庫(kù)運(yùn)營(yíng)）中的熟練程度。這一綜合性基準(zhǔn)測(cè)試包括7200道選擇題和問(wèn)答題，分別以英文和中文呈現(xiàn)。

通過(guò)量化和定性的結(jié)果支持，我們?cè)敿?xì)闡釋了各種LLMs技術(shù)（如零樣本學(xué)習(xí)、少樣本學(xué)習(xí)和思維鏈）對(duì)模型性能的影響。值得注意的是，與廣泛使用的Bleu和Rouge相比，GPT4分?jǐn)?shù)顯現(xiàn)出更可靠的度量標(biāo)準(zhǔn)，這表明它有潛力取代大規(guī)模定性評(píng)估中的自動(dòng)度量標(biāo)準(zhǔn)。

OpsEval框架的靈活性為未來(lái)的探索提供了機(jī)會(huì)。這一基準(zhǔn)測(cè)試的可適應(yīng)性使其能夠無(wú)縫集成更多細(xì)粒度的任務(wù)，為繼續(xù)研究和優(yōu)化針對(duì)智能運(yùn)維領(lǐng)域的LLMs提供了基礎(chǔ)。

免責(zé)聲明：市場(chǎng)有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞：

相關(guān)閱讀

為你推薦

分享到：

版權(quán)和免責(zé)申明

凡注有"實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活"或電頭為"實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活"的稿件，均為實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來(lái)源為"實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活"，并保留"實(shí)況網(wǎng)-重新發(fā)現(xiàn)生活"的電頭。

97国产精品视频人人做人人爱,久久精品亚洲日本,亚洲国产精品线播放,亚洲另类欧洲综合久久

關(guān)注

熱點(diǎn)

頭條