人工智能(AI)可觀察性和大型語言模型(LLM)評估領(lǐng)域的領(lǐng)導(dǎo)者Arize AI宣布了7000萬美元的C輪融資,以加速其使人工智能在生產(chǎn)中可靠工作的使命。這一輪是人工智能可觀察性領(lǐng)域有史以來最大的投資,由Adams Street Partners牽頭,M12(微軟的風(fēng)險基金)、Sinewave Ventures、OMERS Ventures、Datadog、PagerDuty、Industry Ventures和Archerman Capital參與?,F(xiàn)有投資者Foundation Capital、Battery Ventures、TCV和Swift Ventures也重申了他們對Arize愿景的信心。

人工智能的采用率正在飆升——2024年,企業(yè)支出超過138億美元,68%的企業(yè)計劃在2025年投資5000萬至2.5億美元用于生成式人工智能(GenAI)。然而,盡管人工智能模型比以往任何時候都更強(qiáng)大,但大多數(shù)LLM在語音助理等現(xiàn)實世界的應(yīng)用程序中都難以可靠地執(zhí)行。越來越多的尖端人工智能模型使用合成數(shù)據(jù)進(jìn)行訓(xùn)練和優(yōu)化,這些數(shù)據(jù)是由其他人工智能模型而不是現(xiàn)實世界來源生成的。但是,當(dāng)這些模型無法準(zhǔn)確評估其自身合成數(shù)據(jù)的結(jié)果時,會發(fā)生什么?
在一項名為OpenEvals的研究中,Arize證明,與非合成數(shù)據(jù)相比,LLM很難可靠地評估合成數(shù)據(jù)集的正確性,這是企業(yè)急于擴(kuò)展生成式人工智能的一個主要盲點。這些發(fā)現(xiàn)突顯了人工智能模型訓(xùn)練和自我改進(jìn)循環(huán)中的嚴(yán)重風(fēng)險,合成數(shù)據(jù)中未經(jīng)檢查的錯誤可能會隨著時間的推移而加劇。對于工程團(tuán)隊來說,LLM仍然是一個黑匣子——不可預(yù)測、難以排除故障,并且容易出現(xiàn)可能破壞整個項目的故障。
隨著該行業(yè)努力應(yīng)對這些挑戰(zhàn),人工智能工程師需要更好的工具來確保他們的模型不會建立在有缺陷的基礎(chǔ)上。借助Arize的AI可觀察性和LLM評估平臺,團(tuán)隊可以在故障升級為現(xiàn)實世界后果之前測試、排除故障并糾正人工智能系統(tǒng)。隨著企業(yè)競相實施半自主多代理系統(tǒng)、語音助理和日益復(fù)雜的面向消費者的人工智能應(yīng)用程序,這一點尤為重要。
Arize AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jason Lopatecki表示:“構(gòu)建人工智能很容易。讓它在現(xiàn)實世界中工作是最困難的部分。企業(yè)不能部署不可靠的人工智能。工程團(tuán)隊需要更好的基礎(chǔ)設(shè)施來測試、評估和排除模型對客戶的影響。這正是Arize所提供的——無論是通過我們的企業(yè)平臺Arize AX,還是我們的開源產(chǎn)品Arize Phoenix?!?/p>
Arize首席產(chǎn)品官兼聯(lián)合創(chuàng)始人Aparna Dhinakaran補充道:“隨著人工智能研究和現(xiàn)實世界應(yīng)用的加速,Arize將繼續(xù)開拓新工具,比如我們最近首次向市場推出的語音助手音頻評估,以幫助從事這些系統(tǒng)工程的工程師更好地評估、調(diào)試和改進(jìn)他們所構(gòu)建的內(nèi)容?!?/p>
自2020年推出以來,Arize已成為世界頂級企業(yè)和政府機(jī)構(gòu)的人工智能可觀察性和評估骨干,包括Booking.com、康泰納仕、Duolingo、凱悅、百事可樂、Priceline、TripAdvisor、優(yōu)步和Wayfair等數(shù)百家公司。該公司的開源產(chǎn)品Arize Phoenix已成為最廣泛采用的人工智能可觀察性和評估庫,每月下載量超過200萬次。
Arize與微軟的合作關(guān)系也在擴(kuò)大,M12的投資加強(qiáng)了長期的合作。該公司最近推出了與Azure AI Studio和Azure AI Foundry門戶、SDK和CLI的更深入集成,使AI工程師比以往任何時候都更容易將可觀察性和評估集成到他們的工作流程中。

Adams Street Partners合伙人Fred Wang表示:“我們認(rèn)為,人工智能的可觀察性是使人工智能真正為企業(yè)做好準(zhǔn)備的缺失部分?!薄半S著人工智能應(yīng)用的加速,公司需要強(qiáng)大、有凝聚力的工具來確保其人工智能系統(tǒng)的性能、可靠性,并與業(yè)務(wù)目標(biāo)保持一致。通過我們在這個市場的研究和勤奮,我們相信Arize AI已經(jīng)建立了人工智能可觀察性和評估的類別定義平臺,受到領(lǐng)先企業(yè)和人工智能優(yōu)先組織的信任。我們很高興在他們擴(kuò)展以滿足對生產(chǎn)級人工智能日益增長的需求時支持他們的愿景?!?/p>
M12管理合伙人Todd Graham表示:“Arize AI在AI可觀察性和LLM評估方面的創(chuàng)新方法正在改變企業(yè)部署和管理人工智能系統(tǒng)的方式。我們的投資反映了我們對他們在行業(yè)中設(shè)定新標(biāo)準(zhǔn)的能力的信心,并使人工智能工程師和開發(fā)人員能夠?qū)崿F(xiàn)現(xiàn)實世界的結(jié)果。”。
Tripadvisor的數(shù)據(jù)和人工智能主管Rahul Todkar表示:“在人工智能搜索和推薦的世界里,Tripadviser的數(shù)十億條評論和貢獻(xiàn)變得更加重要,在這個世界里,旅行體驗更具對話性、個性化甚至代理性。當(dāng)我們構(gòu)建新的人工智能產(chǎn)品和功能時,擁有合適的基礎(chǔ)設(shè)施來評估和觀察人工智能非常重要。Arize一直是這方面的寶貴合作伙伴?!?/p>
Booking的機(jī)器學(xué)習(xí)工程經(jīng)理Jeroen Hofman表示:“借助GenAI,我們正在促進(jìn)更量身定制的體驗,比以往任何時候都更快地適應(yīng)和響應(yīng)旅行者的需求。隨著我們不斷創(chuàng)新,我們的技術(shù)團(tuán)隊將內(nèi)部開拓新工具的方法與Arize等平臺相結(jié)合,以幫助測試、評估和跟蹤新的人工智能驅(qū)動的應(yīng)用程序和工作流程?!?/p>
Swift Ventures普通合伙人Brett Wilson表示:“Arize AI在開創(chuàng)人工智能可觀察性方面值得稱贊,并為希望通過生成人工智能實現(xiàn)現(xiàn)實世界結(jié)果的企業(yè)創(chuàng)建了事實上的標(biāo)準(zhǔn)?!薄拔覀兒茏院滥芾^續(xù)支持公司的發(fā)展。”
熱門跟貼