
電影《銀河系漫游指南》中的巴別魚
科幻小說《銀河系漫游指南》里面有種叫巴別魚的生物,可以突破傳統(tǒng)翻譯工具的物理限制,通過解析腦電波實(shí)現(xiàn)跨物種語言的即時(shí)互譯。這個(gè)看似遙不可及的幻想,如今在深圳一家名為時(shí)空壺的公司手中,正逐步走向現(xiàn)實(shí)。
時(shí)空壺是全球首創(chuàng)AI同傳翻譯耳機(jī)的公司,他們正在用技術(shù)打破人類之間的語言壁壘,讓跨語言交流變得如同說同一種母語一樣自然。從2016年創(chuàng)立至今,他們的產(chǎn)品已銷往全球170多個(gè)國家,并且在北美市場占據(jù)了40%的份額,用戶突破百萬。今年初,中國海關(guān)總署甚至將時(shí)空湖的W4 Pro同傳翻譯耳機(jī)作為中國從“制造”到“智造”轉(zhuǎn)型的代表展示給全世界。
隨著大模型技術(shù)的發(fā)展,AI翻譯正從簡單的“直譯”進(jìn)化為理解語境、把握情感的"意譯"。年初在拉斯維加斯舉辦的消費(fèi)電子展(CES)上,時(shí)空壺發(fā)布了翻譯行業(yè)的首個(gè)人工智能同聲傳譯系統(tǒng)Timekettle Babel OS (The Road to Babel Fish 通往巴別魚之路),首次將大語言模型作為AI翻譯的底層能力,打造逼近母語的自然交流體驗(yàn),賦能時(shí)空壺各終端硬件和軟件應(yīng)用。
其中“Babel”在希伯來語中的原意是“混亂”。《圣經(jīng)》中有一個(gè)“巴別塔”(Tower of Babel)的故事。根據(jù)這個(gè)故事,人類原本說同一種語言,并試圖建造一座通天塔。上帝為了阻止這一計(jì)劃,讓人類說不同的語言,相互無法理解,從而使塔無法完成。
在跟時(shí)空壺創(chuàng)始人田力的對話中,他提到當(dāng)美國一位牧師使用時(shí)空壺的產(chǎn)品讓說不同語言的教徒能在同一次禮拜中交流時(shí),牧師感嘆道:“上帝要愛世人,但是你們這個(gè)產(chǎn)品幫助我們把不同的族裔的人聚在了一起……宗教還沒做到這一點(diǎn),科技產(chǎn)品幫我們做到這一點(diǎn)?!?/p>
在一個(gè)日益全球化但語言障礙依然存在的世界,科技能否真正打破人類交流的最后屏障?我跟田力探討了時(shí)空壺面臨和克服的技術(shù)挑戰(zhàn):從雙向收音的藍(lán)牙通信難題,到無需喚醒詞的語音識(shí)別,再到真正意義上的雙向同聲傳譯。時(shí)空壺的技術(shù)壁壘到底在哪里?為什么連蘋果、科大訊飛這樣的科技巨頭也難以復(fù)制他們的核心功能?在AI時(shí)代,語言翻譯技術(shù)的未來在哪里?
存在于科幻小說中的“巴別魚”如何在現(xiàn)實(shí)中逐步成形,以及它將如何改變我們理解與交流的方式,這是本期播客的主要內(nèi)容。
以下為節(jié)選。
品牌淵源與科幻DNA
潘亂:“時(shí)空壺”這個(gè)名字聽起來像科幻小說中的裝置,它有什么來源或典故嗎?
田力:這個(gè)淵源很有意思。我是科幻迷,最喜歡的作家之一是阿西莫夫。他有本被譽(yù)為歷史上最偉大的中篇科幻之一《永恒的終結(jié)》,里面有個(gè)懸浮在空中的時(shí)間機(jī)器叫”時(shí)空壺”。我們公司前臺(tái)就做了這么一個(gè)裝置,公司名字就這么來的。
潘亂:貝佐斯曾表示《星際迷航》影響了Alexa的設(shè)計(jì),馬斯克則稱《銀河系漫游指南》啟發(fā)了他的太空探索。我看你們公司會(huì)議室也都是用科幻元素的名字命名的,時(shí)空壺還有哪些元素是直接從科幻作品中獲得靈感的?
田力:我們的會(huì)議室都是以著名科幻作家或作品命名的。我們現(xiàn)在所在的會(huì)議室叫“三體”。我們即將建設(shè)的聲學(xué)實(shí)驗(yàn)室很可能會(huì)叫“42實(shí)驗(yàn)室”,取自《銀河系漫游指南》中“宇宙的終極答案”。
還有一個(gè)會(huì)議室叫“巴別魚”,也來自《銀河系漫游指南》。主角在宇宙飛船上聽不懂外星人說話,就塞了一只魚在耳朵里,就能聽懂外星人說話。這個(gè)形象在英美國家非常深入人心,知名度接近西游記在中國的地位。

在科幻世界中,翻譯設(shè)備的想象有兩個(gè)著名IP:一個(gè)是巴別魚,另一個(gè)是《星際迷航》里的宇宙翻譯器。這些科幻作品對我們的產(chǎn)品開發(fā)有天然的啟發(fā)。
創(chuàng)業(yè)初心與技術(shù)突破
潘亂:你大概是什么樣的從業(yè)背景,為什么會(huì)想到創(chuàng)業(yè)做AI同傳耳機(jī)這個(gè)方向?
田力:我并沒有一開始就想做這件事。我的性格比較喜歡折騰,不太喜歡做同質(zhì)化的事情。我從上一家硬件創(chuàng)業(yè)公司出來后,因?yàn)橹暗墓ぷ麝P(guān)系,認(rèn)識(shí)了很多AI公司的人,包括微軟、谷歌、科大訊飛等。
創(chuàng)業(yè)的契機(jī)源于三件事:
第一,當(dāng)時(shí)我意識(shí)到2016年左右AI技術(shù)有了重大突破,但很多公司在做AI To B,做解決方案和項(xiàng)目,最后變成了軟件項(xiàng)目外包公司。很少有公司能做出產(chǎn)品讓普通消費(fèi)者感受到AI的價(jià)值。
第二,我父母去歐洲旅游時(shí),雖然我給他們下載了很多翻譯APP,但他們回來說連去便利店買水的勇氣都沒有。我媽媽在阿爾卑斯山突發(fā)高原反應(yīng),但無法與說法語的醫(yī)生交流。他們覺得拿著手機(jī)那種尷尬的姿勢交流不符合習(xí)慣。
第三,我在深圳高交會(huì)親自嘗試用翻譯APP與外國展商交流,發(fā)現(xiàn)實(shí)際效果很差。需要按住說話、松開翻譯,對方要看屏幕,反應(yīng)遲鈍,還容易錯(cuò)過對方的開頭幾句話。很難堅(jiān)持超過一分鐘的交流。
這讓我認(rèn)識(shí)到,雖然AI翻譯技術(shù)已經(jīng)較為成熟,但在現(xiàn)實(shí)中兩個(gè)不同語言的人很難像朋友聊天一樣自然交流。問題不在于翻譯技術(shù)本身,而是需要?jiǎng)?chuàng)造一個(gè)讓人們愿意交流的場景。
潘亂:你曾是華為中國區(qū)最年輕的金牌個(gè)人獲獎(jiǎng)?wù)?,華為工作經(jīng)歷對你有什么幫助?
田力:華為對我是從0到1的歷練。它在中國可能是管理最好的公司,沒有之一。在華為我做市場工作,雖然學(xué)的是工科。華為教會(huì)我基本素養(yǎng)和思維方式的轉(zhuǎn)變。比如,做一個(gè)好的銷售,首先是利他而非利己的,需要關(guān)心對方的感受,理解對方的價(jià)值點(diǎn)。華為也教會(huì)我職業(yè)素養(yǎng)、如何與上下級同事合作、如何交付等基本訓(xùn)練。
開拓新品類的挑戰(zhàn)與思考
潘亂:時(shí)空壺最近被《新聞聯(lián)播》深度報(bào)道了近四分鐘,這是很有含金量的認(rèn)可。中國海關(guān)總署也認(rèn)可它為代表中國從“制造”到“智能制造”轉(zhuǎn)型的典范。你如何看待中國在全球AI硬件行業(yè)中的地位演變,像時(shí)空壺這樣的公司能扮演什么角色?
田力:首先感謝CCTV和海關(guān)領(lǐng)導(dǎo)的認(rèn)可。我們對自己定位很清晰,我們是產(chǎn)品公司,是小公司,在這個(gè)大潮中只是一朵小浪花,但努力成為“弄潮兒”。

從我的角度看,中國的基礎(chǔ)設(shè)施、技術(shù)和信息流動(dòng),已經(jīng)讓深圳的創(chuàng)業(yè)者,或中國任何角落的創(chuàng)業(yè)者能夠共享全球資源和視野。我們站在巨人肩膀上,以前是谷歌、微軟、科大訊飛,今天則是OpenAI、DeepSeek等。
就像從哈勃到韋伯望遠(yuǎn)鏡,是有遞進(jìn)關(guān)系的。我們享受了基礎(chǔ)設(shè)施的便利,包括物理和信息層面的,開發(fā)時(shí)可以利用大家的經(jīng)驗(yàn)和教訓(xùn)。
潘亂:為什么這波AI硬件公司大多聚集在深圳?
田力:硬件這塊主要是產(chǎn)業(yè)鏈便利。在深圳,打車半小時(shí)就能到達(dá)很多上下游合作伙伴,有很多交流活動(dòng)。比如韶音在我們旁邊,大疆在15分鐘車程內(nèi),還有很多優(yōu)秀硬件公司都在附近,方便交流。
上游如東莞、惠州有很多工廠,非常開放,即使我們是小公司,他們也愿意嘗試合作。我們第一代產(chǎn)品就是在一家上市公司的幾千人工廠生產(chǎn)的,很感謝他們。
深圳還有很多方案商,這在其他地方可能不是特色。想做產(chǎn)品時(shí),不需要從零開始思考用什么芯片,而是可以找方案商,他們像導(dǎo)師一樣幫你完成市場認(rèn)知建立、技術(shù)方案選擇、芯片選型等全流程,幾乎可以“拎包入駐”。
潘亂:作為新品類的開創(chuàng)者,時(shí)空壺最大的優(yōu)勢是什么?在沒有成熟市場參照的情況下,你如何判斷產(chǎn)品方向的正確性?
田力:正因?yàn)槲覀兪切缕奉惖拈_拓者,在無人區(qū)行走,就像發(fā)現(xiàn)新大陸一樣有先發(fā)優(yōu)勢。前提是你沒有“死在沙灘上”,而是真的登陸了。
關(guān)于如何判斷方向正確性,實(shí)事求是地說,最初我們并不確定。我們的第一代產(chǎn)品設(shè)計(jì)——兩個(gè)人各戴一只耳機(jī)交流——當(dāng)時(shí)有很大爭議。大家認(rèn)為陌生人很難接受這種方式。
但我們決定先做出我們設(shè)想中的體驗(yàn),再檢驗(yàn)市場接受度。即使只有少部分人接受,只要他們的體驗(yàn)被顛覆,那這個(gè)無人區(qū)的探索就算階段性成功。然后通過與用戶深度交流,發(fā)現(xiàn)產(chǎn)品問題,進(jìn)一步改進(jìn)。
我們的終極目標(biāo)很清晰:就是讓人們像我們現(xiàn)在這樣自然交流。蘋果產(chǎn)品的目標(biāo)是“disappear”,讓用戶幾乎感覺不到它的存在。我們也一樣,希望最終的體驗(yàn)不需要規(guī)劃、不需要教育,就像人類上百萬年的自然交流方式——看著對方的眼睛,張口說話,不需要做操作,像朋友一樣聊天。
技術(shù)突破:從無到有的探索
潘亂:“把翻譯軟件塞進(jìn)藍(lán)牙耳機(jī)”這事難在哪里?
田力:最初我以為很簡單,找人開發(fā)翻譯軟件,找個(gè)藍(lán)牙耳機(jī)和它結(jié)合就完了。但我找遍了很多方案商,都說做不了。
為什么?我們設(shè)想的場景是兩個(gè)人各帶一個(gè)耳機(jī)進(jìn)行交流。但標(biāo)準(zhǔn)的藍(lán)牙耳機(jī)在錄音時(shí)只有一只耳機(jī)在工作。雖然播放音樂是左右聲道立體聲,但錄音時(shí)變成了單通道,像單行道一樣。這就導(dǎo)致兩人各戴一只耳機(jī)對話時(shí),只有一人的聲音能被錄進(jìn)來,給對方戴耳機(jī)就沒意義了。
這是我們首先遇到的挑戰(zhàn),是通信技術(shù)問題,而不是AI技術(shù)問題。之前沒有人解決是因?yàn)闆]有這個(gè)需求。過去人們可能會(huì)分享耳機(jī)聽音樂,但很少有人想分享耳機(jī)一起通話。所以從藍(lán)牙協(xié)議1.0到現(xiàn)在,一直沒有解決多人錄音的問題。
作為創(chuàng)業(yè)公司,我們本想把現(xiàn)有技術(shù)組合起來,但立刻撞上第一堵墻。在深圳這樣的硬件之都都找不到解決方案,甚至咨詢了高通、海思等芯片廠商的工程師,他們都確認(rèn)這個(gè)問題沒有現(xiàn)成解決方案。
所以我們只能自己搞。雖然公司2016年成立,但真正作為正式項(xiàng)目開始是2017年,第一代產(chǎn)品到2019年才出來。當(dāng)時(shí)我預(yù)計(jì)三個(gè)月能出產(chǎn)品,結(jié)果搞了一年半才做出來,而且只能算40分的產(chǎn)品。
潘亂:在對話過程中如何確保只收錄我們兩個(gè)人的對話,過濾掉背景噪音?
田力:解決了通信問題后,我們面臨的第二個(gè)挑戰(zhàn)是語音識(shí)別問題。人與人的對話與人機(jī)對話不同,不能有喚醒詞。我們需要開發(fā)一套算法,不需要喚醒詞但能檢測說話的開始和結(jié)束。
當(dāng)時(shí)智能音箱流行,都需要喚醒詞。還有耳機(jī)可以用“嘿,Siri!”喚醒。但我們的產(chǎn)品不能有喚醒詞,因?yàn)檫@不符合人類交流習(xí)慣。
這需要先降噪,然后檢測說話的開始和結(jié)束,專業(yè)術(shù)語叫VAD(Voice Activity Detection))檢測。目的是解放雙手,讓兩個(gè)人交流時(shí)能自由自在地溝通,不需要每次都點(diǎn)一下按鈕。我們的目標(biāo)是“想說就說,想停就停”,甚至可以打斷對方,像正常人類交流一樣。
我們解決了通信問題、喚醒問題后,終于達(dá)到了兩個(gè)人可以相對自在地交流的程度。但那時(shí)還是“單向同傳”——我說話你可以邊聽翻譯,但你說話必須等我說完。下一步挑戰(zhàn)是實(shí)現(xiàn)兩個(gè)人可以同時(shí)說話。
W4 Pro的設(shè)計(jì)理念
潘亂:時(shí)空壺W4 Pro的外觀與普通TWS耳機(jī)有明顯區(qū)別,為什么選擇這種形狀?它如何支持你們的技術(shù)需求?
田力:我們做W4 Pro是想嘗試開放式耳機(jī)設(shè)計(jì),有些用戶覺得這種設(shè)計(jì)長時(shí)間佩戴更舒適。其次,我們希望在上面展現(xiàn)更好的技術(shù),比如三麥克風(fēng)陣列算法,形成更強(qiáng)的降噪效果。

這對我們的場景非常關(guān)鍵,因?yàn)閮蓚€(gè)人各戴一個(gè)耳機(jī)交流時(shí),我的聲音很容易串到你的耳機(jī)里。普通耳機(jī)場景不存在這個(gè)問題,因?yàn)槿藗兺ǔ2粫?huì)在旁邊有人說話時(shí)打電話。但我們的產(chǎn)品恰恰是兩個(gè)人戴著耳機(jī)互相對話,兩個(gè)耳機(jī)都在收音。

我們必須屏蔽掉對方的聲音,只收集佩戴者的聲音。普通耳機(jī)很難做到這一點(diǎn)。而且我們對聲音質(zhì)量的要求更高,因?yàn)檫@個(gè)聲音最終要給機(jī)器識(shí)別并翻譯。機(jī)器對錯(cuò)誤的容忍度比人耳低,因?yàn)槿擞写竽X可以自行腦補(bǔ)。所以我們使用三麥克風(fēng)和更先進(jìn)的技術(shù)來更好地屏蔽周圍聲音,包括對話對象的聲音。
從挫折中重生
潘亂:新聞聯(lián)播報(bào)道提到2019年時(shí)空壺面臨重大挫折。你們的復(fù)盤結(jié)果是什么,之后做了哪些調(diào)整?
田力:這像是技術(shù)拼圖。就像大疆要實(shí)現(xiàn)航拍,先要做飛控,然后是遠(yuǎn)程圖傳系統(tǒng),再到自己做攝像頭、云臺(tái)等,一點(diǎn)點(diǎn)拼成完整技術(shù)鏈條。
我們也是如此。當(dāng)你戴上我們的耳機(jī)時(shí),從錄音到傳輸?shù)皆贫颂幚碓俜祷囟鷻C(jī),整個(gè)過程延遲要控制在幾百毫秒內(nèi),是一個(gè)完整技術(shù)鏈條。翻譯部分主要在云端,包含語音識(shí)別、機(jī)器翻譯、語音合成三個(gè)步驟。
2019-2020年時(shí),我們沒有能力自己做這些AI引擎,因?yàn)闊X且有些是“重復(fù)造輪子”。我們與翻譯引擎的關(guān)系像滴滴與地圖的關(guān)系—滴滴需要地圖,但不必從創(chuàng)業(yè)第一天就自己做地圖。當(dāng)時(shí)幾乎所有互聯(lián)網(wǎng)公司都做翻譯和識(shí)別,而且差別不大,成本也低。
所以我們更關(guān)注當(dāng)時(shí)業(yè)界未解決的問題—真正沉浸式的交流場景,而翻譯只是整個(gè)過程中的一個(gè)環(huán)節(jié)。直到最近我們才開始自己做引擎。
差異化競爭優(yōu)勢
潘亂:蘋果為AirPods增加了實(shí)時(shí)翻譯功能,科大訊飛也推出支持40多種語言的翻譯耳機(jī)。時(shí)空壺與它們相比有何獨(dú)特之處?為什么這些擁有強(qiáng)大語音識(shí)別和AI技術(shù)的公司不能簡單復(fù)制你們的雙向同聲傳譯能力?
田力:最初他們可能看不上這個(gè)市場。我們?yōu)榱私鉀Q通信問題,犧牲了聽音樂功能。這部分是技術(shù)限制,也是戰(zhàn)略決策。我們希望消費(fèi)者把我們的產(chǎn)品視為可穿戴的翻譯設(shè)備,而不是能翻譯的音樂耳機(jī)。
其實(shí)早在2018-2019年,谷歌的Pixel Buds配合Pixel手機(jī)已能進(jìn)行翻譯,但交流方式是戴耳機(jī)的人把手機(jī)湊到對方面前,像采訪一樣。對陌生人來說挺尷尬的。
我們與大公司相比的最大優(yōu)勢是專注。這是我們看好但別人不看好的領(lǐng)域,我們投入大量精力、技術(shù)和know-how,形成了今天的壁壘。但必須承認(rèn),創(chuàng)業(yè)公司的壁壘大多是動(dòng)態(tài)的,不是靜態(tài)的。就像特斯拉如果停止創(chuàng)新,其他公司可能三年內(nèi)就能追上。
我們的領(lǐng)先窗口期可能只有半年。我們的優(yōu)勢是在這個(gè)領(lǐng)域的專注積累,以及解決通信技術(shù)、降噪技術(shù)上的突破。這些技術(shù)是為特定交流場景服務(wù)的,不一定適用于其他領(lǐng)域。
用戶體驗(yàn)與場景拓展
潘亂:讓陌生人愿意戴耳機(jī)交流有難度。你有沒有想過開發(fā)不需要對方佩戴但仍可轉(zhuǎn)化為語音的產(chǎn)品形式?
田力:耳機(jī)對我們來說不是最重要的,重要的是場景。我們希望提供自由、沉浸式的跨語言交流體驗(yàn)。
很顯然,在路上隨便問路這種簡單交流,給陌生人分享耳機(jī)不方便。所以我們最初設(shè)計(jì)就明確,這不是為所有場景設(shè)計(jì)的產(chǎn)品。
人類交流在時(shí)間、空間和對象上非常多元豐富。今天我們一對一交流是一種場景;爬山時(shí)遇到背包客想邊走邊聊是另一種場景;開會(huì)時(shí)一對多又是另一種場景...這是一個(gè)排列組合的網(wǎng)絡(luò),我們目前只解決了其中一個(gè)點(diǎn)。
我們有其他模式,比如我戴耳機(jī)通過外設(shè)收音,適合聽會(huì)為主不需要交流的場景;或者通過手機(jī)外放讓對方聽到翻譯,交流不那么自由但更簡便。
至于不需要對方佩戴的交流方式,我們在研究。眼鏡可以快速看到翻譯結(jié)果,但對方是否有眼鏡?除非全世界都有你的眼鏡,這需要難以想象的市場占有率。
全球反饋與獨(dú)特使用案例
潘亂:你們的產(chǎn)品已銷往170多個(gè)國家,有哪些使用方式讓你印象深刻?
田力:因?yàn)槲覀冊跓o人區(qū)探索,看到的風(fēng)景總是不一樣的。最初我們以為產(chǎn)品主要用于旅行,但發(fā)現(xiàn)很多意想不到的使用方式。
舉兩個(gè)例子:在英國,家長買我們的產(chǎn)品與孩子練習(xí)外語。比如,中國家長英語不好但想和孩子練習(xí),他們接孩子放學(xué)路上,家長戴一只耳機(jī)說中文“我們?nèi)コ邪伞?,孩子戴另一只聽到“Let's go to supermarket”,可以用英語回答。普通翻譯APP也能做,但沒有這種沉浸感。
另一個(gè)是美國一個(gè)教堂的神父。他的教堂有講西班牙語的墨西哥信眾,他本會(huì)說西班牙語,但要做兩次禮拜,一次英語一次西班牙語。他用我們的產(chǎn)品,讓墨西哥信眾戴耳機(jī),自己用英語布道,聽不懂英語的人戴耳機(jī)聽西班牙語。神父反饋說:“上帝要愛世人,你們的產(chǎn)品幫助我們把不同族裔的人聚在一起(bring people together)。”這正好對應(yīng)圣經(jīng)中巴別塔的故事—上帝讓人類說不同語言使他們無法合作。

這些使用方式表明,人們渴望更親密的關(guān)系,渴望更自然的交流狀態(tài),超越了翻譯技術(shù)本身。
潘亂:你們的產(chǎn)品能用于跨國戀愛或家庭交流嗎?
田力:這是很經(jīng)典的使用場景,尤其在美國和歐洲。今年1月在美國時(shí),我約了一位用戶吃飯,他是拉斯維加斯曼達(dá)里灣酒店的調(diào)酒師,在哥倫比亞有個(gè)女朋友。他們語言不通,有時(shí)她來美國找他,有時(shí)他去哥倫比亞。他們用我們的產(chǎn)品交流。
還有使用場景是與外國親屬溝通。比如與岳父母交流,過去總要讓配偶充當(dāng)翻譯,現(xiàn)在可以直接交流,建立更好的關(guān)系。所有這些都指向一件事:更好的人際關(guān)系。
AI與翻譯技術(shù)進(jìn)化

潘亂:你們的產(chǎn)品支持40種語言和93種口音,準(zhǔn)確率達(dá)95-96%。哪些語言最難準(zhǔn)確翻譯,你們?nèi)绾魏饬糠g的“準(zhǔn)確性”?
田力:翻譯不存在絕對的準(zhǔn)確性問題。有人說“翻譯是遺憾的藝術(shù)”,因?yàn)槟阌肋h(yuǎn)不能完全理解一個(gè)民族的思想。語言背后是文化、是文明的思考,中英文有很多無法完全準(zhǔn)確還原的內(nèi)容。
一般來說,中英德日法西這些大語種翻譯準(zhǔn)確率相對較高。小語種如印尼語、馬來語,甚至阿拉伯語(雖不算小語種)的識(shí)別和翻譯準(zhǔn)確率都不高。
部分原因是語言結(jié)構(gòu)不同,但很大原因是這些語言為主的國家在AI投入和人才密集度較低。阿拉伯世界在AI上的投入、積累的數(shù)據(jù)比中美差很遠(yuǎn)?;A(chǔ)設(shè)施差一點(diǎn),使用體驗(yàn)就會(huì)與中英文翻譯相距甚遠(yuǎn)。
這也是我們在研究的方向—大廠關(guān)注的大語種之外,很多角落被遺忘,但實(shí)際痛點(diǎn)依然存在。
潘亂:在翻譯過程中,如何處理語氣詞、停頓詞、重復(fù)詞?
田力:這涉及直譯和意譯的區(qū)別。絕大多數(shù)情況下人們需要的是意譯。所以語氣詞等是否保留取決于目的—有人希望保留因?yàn)樗磉_(dá)了情緒,而不僅是把口語表達(dá)變成新聞稿。
大模型時(shí)代的翻譯正逐漸從直譯向意譯進(jìn)化,這更符合人類表達(dá)習(xí)慣,尤其對口語化溝通更有價(jià)值。
大模型時(shí)代的翻譯革命
潘亂:用戶反饋中提到翻譯錯(cuò)誤、語種不全、延遲高、易掉線等問題。大型語言模型的出現(xiàn)會(huì)如何改變這些問題?
田力:首先討論“快”(延遲)和“準(zhǔn)”(準(zhǔn)確率)。關(guān)于延遲,我們需要理解體驗(yàn)變化—從過去按住說完放開等翻譯的交替?zhèn)髯g,到現(xiàn)在邊說邊聽到翻譯的同聲傳譯,用戶感知的延遲概念已經(jīng)變了。
現(xiàn)在的挑戰(zhàn)不是說完一句話到翻譯出來的延遲,而是開始說話到開始翻譯的延遲。對人類同傳譯員的要求是兩三秒內(nèi)開始翻譯,無論句子多長,這要求更高。
關(guān)于準(zhǔn)確率,大模型時(shí)代確實(shí)有顯著改善。它更容易理解真實(shí)意思,而不是逐字直譯。它能去掉廢話語氣詞,糾正語法錯(cuò)誤,使表達(dá)更清晰。
潘亂:與傳統(tǒng)生硬翻譯相比,時(shí)空壺結(jié)合大模型的翻譯有何改進(jìn)?
田力:這就像人類頂級同傳譯員的能力。一個(gè)頂級譯員能在你開始說話后兩三秒內(nèi)開始翻譯,即使你的句子很長或有轉(zhuǎn)折。
他們?nèi)绾巫龅??首先?huì)提前了解會(huì)議主題背景,分析講話主旨。他們能從上下文理解避免低級錯(cuò)誤—比如在金融論壇,如果聽到“披薩”一詞可能會(huì)自動(dòng)忽略或糾正,因?yàn)楸尘笆墙鹑诟拍睢?/p>
他們關(guān)注的是傳達(dá)概念而非逐字翻譯。這正是大模型時(shí)代AI能做到的—更深刻理解主旨,這是我們正在做的。
潘亂:時(shí)空壺開發(fā)的Babel OS系統(tǒng)是業(yè)界首個(gè)AI同傳翻譯大模型,它與通用大模型在翻譯場景下有何專業(yè)優(yōu)勢?
田力:我們的Babel OS不僅是語言模型,而是包含整套技術(shù)的系統(tǒng)。它服務(wù)于完整交流場景,包含翻譯引擎和前端技術(shù)。
在大模型時(shí)代,最直接的變化是在“快”和“準(zhǔn)”兩方面。從技術(shù)角度,過去是從識(shí)別到翻譯到語音合成的級聯(lián)式模型,現(xiàn)在大模型正向端到端模型發(fā)展—中文語音進(jìn),英文語音出(speech to speech translation)。
這像是多語言精通者的思維方式—不是先翻譯再理解,而是直接理解后用另一種語言表達(dá)。當(dāng)AI通過這種方式處理時(shí),能更精準(zhǔn)傳達(dá)意思。
此外,當(dāng)一個(gè)模型處理多種語言時(shí),可以利用語言間的相通性,提高效率和準(zhǔn)確率。當(dāng)然,即使是OpenAI、微軟、谷歌也難以覆蓋所有語種(全球有4000多種定義語言)。我們可以在某些小語種發(fā)揮優(yōu)勢,大語種則采用大公司已做好的部分。從終極角度看,翻譯能力不可能被一家公司壟斷,一定是博采眾長的過程。
翻譯技術(shù)的分級標(biāo)準(zhǔn)
潘亂:現(xiàn)在很多產(chǎn)品宣稱能實(shí)現(xiàn)實(shí)時(shí)翻譯,但它們之間有何區(qū)別?可以定量分析嗎?
田力:我們現(xiàn)在自己有時(shí)會(huì)拿自動(dòng)駕駛作參照物,就比方自動(dòng)駕駛的分級,你看它是從 L1 到L5,那我們其實(shí)也同樣可以對標(biāo)。比方說什么是L1?就是當(dāng)年大家拿一個(gè)電子詞典,或者一個(gè)手機(jī) APP 去打字給對方看的翻譯,這是一個(gè)文本翻譯,它的效率是最低的。然后到了進(jìn)化到 L2 的時(shí)代的時(shí)候,它更像是接近于那種終于可以從逐字逐句的翻譯變成我說話,他幫我語音的翻譯了。
我們給自己定義成我們當(dāng)前處于 L3,就是類似于那種語音的同傳翻譯,比方說我邊說你會(huì)邊聽到,而且你也可以就是雙向同傳的這種交流,正常的交流不會(huì)變成了我說話的時(shí)候你就被禁言了,你想補(bǔ)充一個(gè)什么事兒想說就說,想停就停。所以 L3 我們定義是類似于語音同傳的這種翻譯,這是我們現(xiàn)在能做到的事兒,但這個(gè)還僅僅只是在翻譯的交互模式上的一個(gè)進(jìn)化。
L3 到 L4 的本質(zhì)的最大的區(qū)別是在于從直譯到意譯的質(zhì)變。L4 可能就能從捕捉你的聲音的語氣、情緒的很多東西,包括你的意思的一些真實(shí)的表達(dá)的意圖的東西,和人類的水平是同樣了。L3 可能只能說你接近于人,但是 L4 你就能達(dá)到和人的水平是一致了。比方說你說話時(shí)是疑問的,是質(zhì)問的、是憤怒的還是愉悅的,都可以在翻譯過程中把這個(gè)結(jié)果進(jìn)行修正。很多個(gè)性化的表達(dá),習(xí)慣性的表達(dá),很多的專業(yè)術(shù)語都能在 L4 這個(gè)檔位得到解決,也就是說它就可以等同于人類頂尖語言的水平。
L5就是超越人類的水平了。超越人類水平就是什么呢?它可以在一個(gè)多模態(tài)的層面上去觀察你想要表達(dá)的意思,比方說現(xiàn)在大家還是基于你說話的信息,但未來可能是你的表情,你的過去的積累的一些你的溝通習(xí)慣,這些東西就相當(dāng)于你真的是有了一個(gè)私人秘書,對你“察言觀色”,理解你說話的“弦外之音”,甚至可以替你發(fā)言。
端側(cè)AI的未來
潘亂:考慮到網(wǎng)絡(luò)環(huán)境和隱私顧慮,你們是否計(jì)劃將翻譯處理從云端轉(zhuǎn)移到設(shè)備本地?
田力:這非常重要。由于網(wǎng)絡(luò)不穩(wěn)定和隱私需求,對端側(cè)處理的需求越來越大。我們正在開發(fā)端側(cè)方案,雖然有算力限制導(dǎo)致翻譯能力弱化的權(quán)衡。
人的交流對實(shí)時(shí)性要求非常高。網(wǎng)絡(luò)不好時(shí),用戶會(huì)焦慮,甚至導(dǎo)致交流中斷。所以端側(cè)模型勢在必行。我們正研究如何用僅有過去1%參數(shù)量的模型在終端設(shè)備上實(shí)現(xiàn)翻譯體驗(yàn)。大概今年下半年會(huì)發(fā)布相關(guān)消息。
未來展望
潘亂:耳機(jī)是一個(gè)自然的起點(diǎn),但肯定不是跨語言交流的唯一解決方案。你們已經(jīng)推出了X1語音翻譯機(jī)等非耳機(jī)產(chǎn)品,未來還計(jì)劃開發(fā)哪些非耳機(jī)產(chǎn)品?針對不同的使用場景(例如旅游、會(huì)議、工廠、學(xué)校等),你對擴(kuò)展到耳機(jī)之外的其他形態(tài)有什么愿景?
田力:無論是耳機(jī)還是其他形態(tài),都只是一種介質(zhì)(手段),不是目的。我們的目標(biāo)是讓不同場景中的人們能自然無障礙地交流。
介質(zhì)可能是眼鏡、領(lǐng)夾式麥克風(fēng)、手表或純軟件(我們也有純軟件產(chǎn)品)。重要的是在特定場景下讓交流舒適自然。
比如X1的演講模式,臺(tái)下觀眾不需要我們的硬件產(chǎn)品,只需手機(jī)掃碼就能聽到自己語言的翻譯。這不會(huì)增加我們的硬件銷量,但能創(chuàng)造更好的體驗(yàn),讓人們眼睛一亮:“我終于能聽懂你說什么了!”
我們的終極目標(biāo)始終是做出現(xiàn)實(shí)版的“巴別魚”,在此過程中會(huì)嘗試各種形態(tài)。
潘亂:感覺你是一個(gè)非常謹(jǐn)慎的創(chuàng)業(yè)者,會(huì)把很多問題都前置思考,然后再去做決定,這會(huì)不會(huì)讓你在這個(gè)速度上產(chǎn)生一些問題?你怎么平衡這個(gè)事情的?
田力:這個(gè)問題其實(shí)你會(huì)發(fā)現(xiàn)其實(shí)它是一個(gè)雙向的,一方面我們確實(shí)是在做一個(gè)無人區(qū)的探索,但另一方面你也感覺到好像我們對這個(gè)事又比較謹(jǐn)慎。在你看來這兩個(gè)是矛盾的,但其實(shí)在我看起來它不算矛盾,是因?yàn)槟惚緛砭褪窃谧鲆粋€(gè)新的東西,那新的東西你確實(shí)就要想清楚你到底在服務(wù)什么樣的人群,而不是擴(kuò)大化的事情。
我們是希望你真的有需求的時(shí)候找我們,因?yàn)檫@個(gè)時(shí)候你的產(chǎn)品的方向,你的該迭代的東西,你才會(huì)看的更清楚。我覺得這個(gè)其實(shí)并不影響我們在往前進(jìn)的速度,只不過我們要清晰的認(rèn)知到現(xiàn)在的產(chǎn)品,在我的心目中,現(xiàn)在可能還沒有達(dá)到那種理想的狀態(tài),還沒有達(dá)到那種真正的像科幻里邊那種,是一個(gè)珠穆朗瑪峰的東西。我們現(xiàn)在可能只是還達(dá)不到這個(gè) 8,800 多米的高度,我可能還在五六千米的位置,還在往上攀登,但是我們的慶幸之處在于,當(dāng)我爬到五六千米的時(shí)候,其實(shí)已經(jīng)能滿足相當(dāng)一部分人他的需求了,只是 8,000 多米的時(shí)候,是一個(gè)任何人都能感受到你這個(gè)產(chǎn)品魅力的時(shí)候,都能解決他的問題的時(shí)候。
潘亂:你給時(shí)空壺的產(chǎn)品打多少分?什么會(huì)代表“100分產(chǎn)品”?你覺得8 千米那時(shí)候是一個(gè)什么樣的產(chǎn)品形態(tài)?
田力:從產(chǎn)品適用范圍和細(xì)節(jié)改善角度,我給70分。這不是說質(zhì)量有問題,而是我們還不能解決所有語言障礙。語言障礙非常多,是個(gè)多維矩陣,我們只解決了一點(diǎn)點(diǎn)。
未來隨著AI模型進(jìn)化,能更好傳遞意圖、情緒,體驗(yàn)細(xì)節(jié)更實(shí)時(shí)、延遲更短,AI總結(jié)能讓交流更及時(shí),就像從L3到L4自動(dòng)駕駛,L3還需要人接管,L4就不用總是操心了。
那如果說到8,000米理想的狀態(tài),理想狀態(tài)就是巴別魚—戴在耳朵里的設(shè)備,讓你不再擔(dān)心語言障礙。第一天就能看到遠(yuǎn)方的大洋,但需要哪條河流能到達(dá),你不知道,只知道一直向那個(gè)方向走。
潘亂:如果不考慮當(dāng)前技術(shù)限制,你認(rèn)為語言翻譯的終極形態(tài)是什么?
田力:我經(jīng)常問新同事:“30年后翻譯產(chǎn)品會(huì)變成什么樣?”有人說是腦機(jī)接口,如三體人用腦電波交流;有人提到《黑鏡》里的隱形眼鏡;《流浪地球》里吳京與俄羅斯人交流時(shí)各戴一個(gè)耳機(jī)。
郭帆導(dǎo)演曾在節(jié)目中用過我們的耳機(jī),調(diào)侃說:現(xiàn)在科幻電影不好拍,還沒拍完,產(chǎn)品先做出來了。
終極狀態(tài)是你感受不到它的存在,像空氣一般無感。它可能在不同場景有不同形態(tài)—銀行或醫(yī)院里的固定裝置,戶外則是便攜設(shè)備。形態(tài)一定是多元化的。
最終這些分支是否會(huì)閉合成統(tǒng)一形態(tài)?
這是非常有趣的問題??凑麄€(gè)產(chǎn)業(yè)的進(jìn)化史會(huì)很有意思。我們希望活到那一天,成為基礎(chǔ)設(shè)施提供者之一。那時(shí)人們不再擔(dān)心語言障礙,像基礎(chǔ)設(shè)施一樣隨處可用,我們希望成為其中最重要的玩家之一。
結(jié)語
潘亂:在這個(gè)充滿不確定性的世界,語言障礙仍是人類連接的最大挑戰(zhàn)之一。時(shí)空壺正用科技力量打破這一障礙,讓我們距離科幻小說中描繪的無障礙交流未來更近一步。期待有朝一日,語言不再是人類溝通的障礙,希望時(shí)空壺能加速這一天的到來。
田力:謝謝。
熱門跟貼