在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 評估最新發(fā)布的數(shù)據(jù)中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 聯(lián)合 SWE 發(fā)布測試集,旨在更可靠的評估 AI 解決實際軟件問題的能力。該測試集經(jīng)由人工驗證打標(biāo),被認(rèn)為是評估 AI 軟件工程能力的最權(quán)威標(biāo)準(zhǔn)。
本次參評登頂?shù)?Coding Agent 是來自 Gru.ai 的 Bug Fix Gru。根據(jù) Gru 團(tuán)隊的博客,他們提供給 Bug Fix Gru 完整的運行環(huán)境及豐富的開發(fā)工具,這是獲取高分的基礎(chǔ),而工作流程,多模態(tài)支持,Rag 能力的添加都有效提高了得分。值得關(guān)注的是,Gru 團(tuán)隊著重提到了他們有一個評估流程來評估任何改動帶來的影響。
Gru.ai 是一家提供軟件工程 Agent(智能體)的公司,提供四種 Agent:
-
Assistant Gru:幫助用戶解決獨立的技術(shù)問題,該產(chǎn)品可直接在網(wǎng)站注冊使用。
-
Test Gru:基于用戶代碼補全單測的 Agent,目前該產(chǎn)品僅面相企業(yè)開放。
-
Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前該產(chǎn)品僅面向企業(yè)開放。
-
Babel Gru:基于技術(shù)文檔生成軟件,目前該產(chǎn)品仍處于實驗室階段。
Gru 在今年一月披露了一筆 550 萬美金的融資,投資方為云九資本和峰瑞資本。在 2023 年到 2024 年兩年間,國際上大量的資金涌入代碼 Agent 領(lǐng)域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但國內(nèi)針對軟件工程領(lǐng)域 AI 的投資仍然較少。Gru 團(tuán)隊擁有豐富的軟件工程和 AI 實踐經(jīng)驗,CEO 張海龍曾是開源中國及 Coding.net 創(chuàng)始人。
隨著資金和大公司的視線逐步從大模型轉(zhuǎn)向上層應(yīng)用,AI 行業(yè)的主要進(jìn)步方向已經(jīng)開始轉(zhuǎn)向處理復(fù)雜精密的任務(wù),而非簡單的生成文本內(nèi)容。而 Gru.ai 的成功登頂,標(biāo)志著國人團(tuán)隊在 Agent 領(lǐng)域的工程技術(shù)能力處于第一梯隊。
閱讀全文