国产又黄又爽又色视频,登录APP

在 9 月 3 日，Gru.ai 在 SWE-Bench-Verified 評估最新發(fā)布的數(shù)據(jù)中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 聯(lián)合 SWE 發(fā)布測試集，旨在更可靠的評估 AI 解決實際軟件問題的能力。該測試集經(jīng)由人工驗證打標(biāo)，被認(rèn)為是評估 AI 軟件工程能力的最權(quán)威標(biāo)準(zhǔn)。

本次參評登頂?shù)?Coding Agent 是來自 Gru.ai 的 Bug Fix Gru。根據(jù) Gru 團(tuán)隊的博客，他們提供給 Bug Fix Gru 完整的運行環(huán)境及豐富的開發(fā)工具，這是獲取高分的基礎(chǔ)，而工作流程，多模態(tài)支持，Rag 能力的添加都有效提高了得分。值得關(guān)注的是，Gru 團(tuán)隊著重提到了他們有一個評估流程來評估任何改動帶來的影響。

Gru.ai 是一家提供軟件工程 Agent（智能體）的公司，提供四種 Agent：

Assistant Gru：幫助用戶解決獨立的技術(shù)問題，該產(chǎn)品可直接在網(wǎng)站注冊使用。
Test Gru：基于用戶代碼補全單測的 Agent，目前該產(chǎn)品僅面相企業(yè)開放。
Bug Fix Gru：基于 Github Issue，直接提交 Patch，目前該產(chǎn)品僅面向企業(yè)開放。
Babel Gru：基于技術(shù)文檔生成軟件，目前該產(chǎn)品仍處于實驗室階段。

Gru 在今年一月披露了一筆 550 萬美金的融資，投資方為云九資本和峰瑞資本。在 2023 年到 2024 年兩年間，國際上大量的資金涌入代碼 Agent 領(lǐng)域，如 Devin、Cosine.sh、Factory、Codium.ai 等，但國內(nèi)針對軟件工程領(lǐng)域 AI 的投資仍然較少。Gru 團(tuán)隊擁有豐富的軟件工程和 AI 實踐經(jīng)驗，CEO 張海龍曾是開源中國及 Coding.net 創(chuàng)始人。

隨著資金和大公司的視線逐步從大模型轉(zhuǎn)向上層應(yīng)用，AI 行業(yè)的主要進(jìn)步方向已經(jīng)開始轉(zhuǎn)向處理復(fù)雜精密的任務(wù)，而非簡單的生成文本內(nèi)容。而 Gru.ai 的成功登頂，標(biāo)志著國人團(tuán)隊在 Agent 領(lǐng)域的工程技術(shù)能力處于第一梯隊。

OpenAI 聯(lián)合 SWE 發(fā)布 AI 軟件工程能力測試集，Gru.ai 榮登榜首

相關(guān)推薦

電子產(chǎn)業(yè)圖譜