山東日照,冫口(zhan4)子莊的四個村委聚在一起,編村志。它們的官方村名叫“棧子莊”,村委不管這一套:村志就要寫“冫口子莊”。
莊子和字一起誕生于晚清時期。兩條即將入海的小河夾繞著村莊,人們在此聚集,然后定居。有識字的讀書人根據(jù)這個地理特征,自創(chuàng)了“冫口”字當(dāng)作村名——遠行游子看到這個字,就能想起家鄉(xiāng)模樣。
道光年間,經(jīng)由村內(nèi) 26 位村民公議,將村莊起源刻在碑上,立在村子里。后來這里成為抗日模范村,還出了著名的地質(zhì)學(xué)家葉連俊。祖祖輩輩,村民每次寫地址,都是兩點水一個口。

冫口子莊地圖,地圖中,這里叫棧子村|地圖截圖
直到上世紀 80 年代,國家開展第一次地名普查,村民這才知道,自己家鄉(xiāng)的名字,被稱作“生僻字”,在電腦里打不出來。沒辦法,官方只能選了同音字“?!眮硖娲?。地圖、政府網(wǎng)站、公文匯報里,這里是“棧子莊”;但在村子里的服務(wù)中心、商戶牌匾、小學(xué)校名,這里還叫“冫口子莊”。
村民們開啟了捍衛(wèi)“這個電腦里不存在的字”的漫長過程。他們先是集資修復(fù)了“公議公稱碑”,還在外面建了個亭子為石碑遮風(fēng)擋雨;然后又開始編撰村志,繼續(xù)強調(diào)村名的來歷和其背后的村史——“要是這個字能進電腦就好了。”

冫口子莊公議公稱碑|百度百科
第一步:迷失中的打撈
要讓生僻字進入計算機,第一步是發(fā)現(xiàn)和判斷它。
在粗略統(tǒng)計中,中國流傳下來的漢字數(shù)量在 30 萬以上,其中只有大約 3500 個為常用字,剩下的都可稱為“生僻字”。
維基百科里,“生僻字”被定義為:使用率極低,甚至音義均難考證的漢字。實際情況比這個有趣。
有的生僻字挺簡單,你甚至以為是常見字。比如“口當(dāng)”,現(xiàn)在在電腦、手機中還不能便捷地輸入和顯示這個想象中會很常見的擬聲字——“叮叮當(dāng)當(dāng)”長這樣,沒有口字旁。
有的則帶著故事。Zhao3,由“山、西、人”三個部分組成,山東人用來指口音不同的外地人(有的地方用同音字“侉”表示類似意思,還有寫作“山、東、人”的)。山東的地方戲曲棗梆,原來就叫 zhao3 梆,因為這戲就是從山西傳來的,唱戲的口音和“大傘凍”話不一樣。

左為 zhao3,右為 kua3|騰訊生僻字小程序
有的字,源頭不一定是漢語,可以是少數(shù)民族的字,與漢字搭配著出現(xiàn)在地名或人名中;有的字還在使用著古方音。





圖1-2:rang4,含義為水牛,是土家族語,因為土家族沒有文字,所以當(dāng)?shù)厝艘詽h字“水牛”創(chuàng)制該新字
圖3-4:peng2,含義為草木旺盛,用四個木會意,用于浙江省南部方言
圖5: 網(wǎng)絡(luò)自造字,biu4,指發(fā)射的聲音
圖片來源:受訪者提供、《湖南省永順縣地名錄》、《浙江省天臺縣地名志》
還可以是歷史中的各種“自造字”。最著名的例子,是武則天在登基后自創(chuàng)“曌(zhao4)”字為自己命名。曌,寓意著日月當(dāng)空。
“生僻字”散落在生活的每一個角落,其中很多仍未進入計算機字庫。對于大眾而言的“生僻”,卻是每一個生僻字使用者難以逃離的身份認同和日常必需。
尤其當(dāng)一個生僻字出現(xiàn)在地名和人名,遭遇的就可能是不得不手寫的戶口本、比常人繁瑣數(shù)倍的登機手續(xù)、無法實名制的支付賬戶,甚至因為名字打不出而被取消的保研資格。
這些生僻字散落在不被人注意的生活角落,需要人特意拾起。王謝楊就是一位“專業(yè)拾字者”,他從大學(xué)時就開始樂于挖掘生僻字:利用網(wǎng)上的學(xué)術(shù)數(shù)據(jù)庫,或是從二手書店里,找到各種地名志、契約、文書、賀信……一頁頁翻,看到有可能是生僻字的就記下來。

冫口字就經(jīng)由村志發(fā)現(xiàn)|受訪者供圖
王謝楊的工作,就像在文獻大海里淘尋那些形色罕見的貝殼,辛勤之上,運氣為主。為了更好地拾字,他曾休學(xué)一年,翻完 2000 余本地名專著,最終找到 500 多個生僻字。
每“淘”到一個生僻字,王謝楊都要進行一番“調(diào)查”,以證明字的使用價值和實際意義——有一定歷史、含義明確的叫做“活字”;而那些個別人一時興起自造的、音義模糊、價值不明的,叫“死字”。這是對于生僻字生命力強弱的判定。
“出處”,是證據(jù)否成立的主要判斷標準:1949 年前的,刻版的古籍最優(yōu)——手抄版字體變化大,不算好證據(jù);1949 年后的,正規(guī)出版的印刷體文獻才能算證據(jù)。
一則出現(xiàn)在正規(guī)期刊發(fā)表的學(xué)術(shù)論文里的證據(jù),比出現(xiàn)在學(xué)位論文里的更優(yōu);字出現(xiàn)在報紙、路牌、路標上,也算證據(jù);政府開的公函,證明該地區(qū)的確有人在使用某生僻字的,是最可靠的證明。

人名地名生僻字的常用省份|資料來源:騰訊
如果上述的證據(jù)都找不到,或者證據(jù)上的字顯示得不清晰,王謝楊就只能先把這個字記在腦子里,等著哪天在文獻海洋中重逢——現(xiàn)在,裝在他腦子的這種字還有四十多個。
好在找證據(jù)的過程并不枯燥,追溯字的歸屬過程有種詩意。王謝楊喜歡登山探險家喬治·馬洛里的故事,在現(xiàn)代登山設(shè)備還未出現(xiàn)的時候,這位 1886 年生的探險家多次想要攀登珠峰,并最終為此獻出生命。有記者問他“為什么要攀登珠穆朗瑪峰”,喬治給出了一個簡單而后聞名于世的回答,”因為山就在那里"。
第二步:字的“身份”
拾字、考證,都是為了向制定國際字符編碼標準的組織提交申請——這是生僻字數(shù)字化的第二個關(guān)口。
電子設(shè)備并非天生顯示漢字。電腦、手機……這些電子系統(tǒng)的底層原理都是處理二進制數(shù)據(jù),要讓電子設(shè)備顯示漢字,需要讓漢字和二進制數(shù)據(jù)形成映射關(guān)系,這便需要對漢字字符進行編碼。
近代計算機誕生在西方國家,設(shè)計之初沒有考慮過顯示漢字。80 年代最具代表性的個人電腦,美國的 IBM PC,系統(tǒng)里僅包含了字母、數(shù)字、符號共 256 個字符;早期的 Windows 系統(tǒng),也不支持中文——那個年代開始接觸計算的中國人,一定都還記得“漢化軟件”、“漢化卡”、“漢化機”這樣紅極一時的產(chǎn)品。

IBM PC|wikimedia commons
相對英文字符,漢字的數(shù)字化要復(fù)雜得多。
首先數(shù)量就是一個坎,26 個字母能組成所有的英文表達,而中文這種表意文字(或語素文字),每個字都是單獨的符號,編碼量和英文完全不在一個等級。
漢字的顯示也更復(fù)雜,IBM PC 里的英文字符,都以 9 * 14 像素點陣的形式呈現(xiàn),而漢字至少需要 16 * 16 像素才能顯示清晰——這進一步又對儲存提出了要求,當(dāng)時電腦的存儲容量還在 KB 的量級,很難容下又大又多的漢字字符。
可電子信息浪潮無差別地沖擊著每一個擁抱現(xiàn)代化的地方。BP 機(傳呼機)、游戲機、相機……這些全球時興的電子產(chǎn)品立刻在中國開始流行,解決漢字數(shù)字化的需求迫在眉睫。
1991 年,山東一家叫浪潮的公司自行編制“傳呼通信用漢字信息表示及其編碼字符集”,自定義編碼規(guī)則,將漢字送進了自家的 BP 機——“我這個,漢顯的”,一度成為 BP 機高配的標志。這是一種當(dāng)時流行的解決方式,各類電子設(shè)備和操作系統(tǒng)各自編碼,分別解決漢字顯示的需求。

BP機|百度百科
在 BP 機這類只需要顯示漢字的產(chǎn)品中,自行編碼能解決問題。但很快,計算機開始普及了。
與 BP 機不同,計算機的交互是雙向的,普通消費者漢字輸入的問題就此出現(xiàn)了——而且,這種交互還是跨系統(tǒng)和跨產(chǎn)品的。僅能顯示漢字已不足夠,這要求漢字有統(tǒng)一的編碼標準,否則在 A 軟件上能輸入和顯示的漢字,在 B 軟件上很可能是一堆亂碼。
沒有統(tǒng)一標準,輸入法也會出現(xiàn)問題。如果輸入法的編碼標準和計算機的編碼標準不一致,便會出現(xiàn)一個字在輸入法鍵盤里有,但計算機文檔顯示不出來的情況。
1991 年,Unicode 標準(也叫萬國碼)在這個背景下誕生,它準備了 17*65536 個碼位(17 被稱為“平面數(shù)”,每個平面能裝下 65536 個字符),用于為世界上所有國家/地區(qū)的字符、標點、符號賦碼。等于將以前編碼上的各自為政,收歸為統(tǒng)一標準。更關(guān)鍵的是,全球通用。
漢字是一種世界性的文字,通行于中國大陸及港澳臺地區(qū)、日本、朝鮮、越南、新加坡等地。實際上,早在上世紀 60 年代末,日本便開始思考如何將 2 千多個日文漢字塞進計算機系統(tǒng),是首個研究漢字數(shù)字化的國家。

“次”字在中國、韓國、越南、日本漢字標準中的變體|wikipedia
日本最終研究出 JIS C 6226 編碼標準;在韓國,這個標準有 KS C 5601;中國有 GB18030;中國香港有 HKSCS——整個漢字世界的編碼標準四分五裂。
如果你經(jīng)歷過那個時候,大概率還會記得玩日本或臺灣地區(qū)盜版游戲時,需要先準備好轉(zhuǎn)碼器,才不至于盯著滿屏亂碼一臉懵的經(jīng)歷——還記得四通利方、南極星、東方快車么?還記得游戲中名叫“變巨”的“治世能臣亂世奸雄”么?

四通利方|百度百科
Unicode 標準字符集中的漢字部分被稱為“中日韓統(tǒng)一表意文字”,使用漢字的人遵循同樣的原則和標準,提交待編碼的漢字。不同地區(qū)字形一樣或差異不大,字義相通的漢字,依次排開,都放在同一個編碼下——一種真正的全球化。
字被發(fā)現(xiàn),獲得編碼,這是一個屬于漢字的“千與千尋”,它不僅收獲了計算機系統(tǒng)里的唯一位置,也找到了世界漢字家族中的一席之地。
第三步:連接的價值
崙(lun2),昆侖也,源于《山海經(jīng)》,月山之意。吳曉侖的父母用這個字的簡體版給他命名。

lun2 字在 Unicode 標準字符集中的代表字形|受訪者供圖
這開啟了他比常人更難坐飛機、更難乘火車、更難用支付寶和網(wǎng)銀轉(zhuǎn)賬的生活。
Unicode 標準解決了漢字沒有統(tǒng)一標準的問題,但對生僻字而言,這遠遠不夠。
在 Unicode 標準的 17 個平面中,目前只啟用了第 0、第 1、第 2、第 3 和第 14 平面用于編碼特定的字符,其中漢字編碼在第 0、第 2 和第 3 平面,新加入的漢字一般放在第 3 平面。
為了保證實用性和效率,不讓有限碼位浪費,漢字編碼標準優(yōu)先收錄常用漢字,使用頻率少的生僻字則依次排隊。運氣好,證據(jù)充足的,可以在每兩年一次提交新字的周期里獲得一個站在 Unicode 標準大門前的機會,并在等待 3-5 年的審核后,納入 Unicode 標準——這就是一個未編碼漢字獲得編碼的常規(guī)周期。
這樣的時間跨度,對于每一位生僻字使用者而言,太過漫長了。

第一代身份證|百度百科
2004 年,公安部在全國推行二代身份證,將由塑封套和卡片組成的身份證升級為帶有電子芯片的版本。公安字庫也一并升級,4600 多個曾經(jīng)手寫的生僻字進入公安系統(tǒng),有了四平八穩(wěn)的電子字體,和常用漢字一起印在身份證上。
當(dāng)時,公安系統(tǒng)使用了 PUA 碼(私人使用區(qū),Private Use Areas)表示這 4600 多個生僻字——這是 Unicode 標準體系下的私用碼區(qū),如果有人想在 Unicode 標準框架下顯示 Unicode 標準尚未編碼的字符,可以用這些私用碼區(qū)的編碼來暫時表示對應(yīng)的字符。不過,使用 PUA 碼的字符在其他電子設(shè)備或系統(tǒng)中難以顯示,更不用提互相交流。
當(dāng)時代進入“實名制+移動互聯(lián)網(wǎng)時期”,這套作為折衷方案的 PUA 碼就引發(fā)了新問題。
身份證上能顯示的生僻字,并不存在于其他信息系統(tǒng)中,買機票、網(wǎng)購、網(wǎng)銀轉(zhuǎn)賬、上網(wǎng)發(fā)評論……大多需要實名制的地方,這些生僻字還是只能用拼音、甚至一個*/□代替,這并不符合實名制規(guī)范。疫情期間,那些和吳曉侖一樣的生僻字持有者,更加寸步難行:曾有一名名字中含“日韋(wei3)”的北京市民給人民網(wǎng)留言,稱其因為無法實名,使用不了健康寶,在進出所有公共場合、公共交通和服務(wù)都需要健康寶的嚴控期間,“造成我寸步難行,全部社會活動基本暫?!薄?/p>
吳曉lun 的銀行卡只能使用拼音|受訪者供圖
也有一些妥協(xié)的辦法。云南麗江傈僳族的村民,就集體將自己的古姓氏“鳥甲(nia4)”,改成鴨——生活倒是方便了,但他們并不開心。
2022 年,國家標準委聯(lián)合有關(guān)部門推出新版《信息技術(shù) 中文編碼字符集》(GB 18030-2022),新增 1.7 萬余個生僻漢字。這是中國官方的編碼標準,具備強制執(zhí)行力,跟隨 Unicode 的更新而更新,但僅專注于中文部分(包括漢字及少數(shù)民族文字),有專門的機構(gòu)和行政部門推廣和監(jiān)督執(zhí)行。
國標在 2000 年和 2005 年有過兩版,其中 2005 版收錄了 7 萬多個漢字。但其中僅有 2 萬多漢字是強制性的,其他均為推薦性。這導(dǎo)致市場上的大部分信息技術(shù)產(chǎn)品最多支持 2 萬多個漢字。
17 年后推出的新版國標改為全文強制,并將需要數(shù)字化的漢字分為三級,電子產(chǎn)品實現(xiàn)級別 1,包含 2 萬 7 千多字;政務(wù)和公共服務(wù)系統(tǒng)需實現(xiàn)級別 3,即包括生僻字在內(nèi)的全部漢字。
這至少能讓生僻字使用者不再被擋在買車票和網(wǎng)銀支付等生活基礎(chǔ)需求之外。
第四步:畫出一個漂亮的字
2017 年,村委執(zhí)意編寫的《冫口子莊村志》被王謝楊發(fā)現(xiàn),他將村志作為證據(jù),向 Unicode 申請為“冫口”編碼,五年后,“冫口”和約 300 個生僻字一同通過審核,獲得了 Unicode 標準中的編碼。

“冫口”字在 Unicode 標準字符集中的代表字形|受訪者供圖
但這不等于電腦就能打出“冫口”。
電腦顯示漢字的邏輯大概如下:首先,電腦讀到一串?dāng)?shù)據(jù),判斷是否為文本數(shù)據(jù)——若是,則根據(jù)該數(shù)據(jù)(該字的編碼)調(diào)用字體文件中的字形——經(jīng)一系列渲染操作,電腦上顯示出字形。
也就是說,擁有編碼只解決字可否在數(shù)字系統(tǒng)中存在的問題,要顯示字,還需要字庫和字形。
新版《信息技術(shù) 中文編碼字符集》發(fā)出征求意見稿時,服務(wù)商之一的漢儀字庫就開始了生僻字的字庫建設(shè)工作,其中兩個重點:一是讓這些字都遵循新版的編碼標準(如果字形編碼和市場通行的碼不在一套標準,也會出現(xiàn)無法顯示的問題),二是設(shè)計字形。
生僻字的特性在第二步被放大。下面是一張生僻字列表,你可以直觀感受下這些字都長什么樣。

部分生僻字|GB 18030—2022
當(dāng)設(shè)計師面對一個從未接觸過的字形的時候,也只有紙質(zhì)版的字形標準文件可以參考(無法獲取字形字體的電子文件)。筆劃繁雜的生僻字在紙張上只有毫米大小,設(shè)計師“難免看錯”。比如?(lei3),正在閱讀的你可以想象下沒有屏幕放大功能時,不看漏每一筆畫有多困難。
保持美觀是另一個問題,常規(guī)字的結(jié)構(gòu)大多簡單,設(shè)計起來有一套規(guī)律,比如“上下同形,上小下大”、“左右同形,左小右大”等。生僻字不管這些,它們或像腫瘤,所有部件恨不得擠在一起;或過于云淡風(fēng)輕,像一個還沒寫完的偏旁。
設(shè)計常規(guī)字時,高頻出現(xiàn)的部件/部首還可以從以往的設(shè)計中復(fù)用。生僻字的部件大多罕見,比如“咼”、“兯”、“婣”,你很難在常用字當(dāng)中看到類似組成部分。面對這些一次性的部件,設(shè)計師只能重新審視其位置和大小,一筆一劃重新來,像是回到手工時代。
比起寫字,“更像在畫畫”——漢儀字庫的產(chǎn)品經(jīng)理這么形容。

生僻字與常規(guī)用字的對比|YouTube by οοοooohmygosh
漫長的闖關(guān)進入關(guān)鍵一步——輸入。
第五步:并非終點的輸入法
這里有一個生僻字需要你輸入,闃,你會如何輸入?肸呢?
不認識很正常,你可能會根據(jù)熟悉的字形部分猜它們的讀音,在輸入法打下“chou”和“pang”,再一頁頁翻找。只可惜,他們讀“qu4”和“xi1”。
既然“生僻”,那就會時常遇到要么不會讀要么不會寫的情況,最常見的拼音和筆畫輸入都會碰壁。面對這些問題的輸入法就需要新的輸入邏輯——拆字。比如“慭”,用戶會輸入這個字中最常見的“夾”,“犬”和“心”,希望用組合方式找到這個字。
騰訊搜狗輸入法在內(nèi)部搭建了生僻字鍵盤項目組,一個一個模擬用戶會如何拆生僻字。這又是一個純靠直覺的手工活,拆字員 A 的思路和 B 的可能完全不一樣。
比如“嶧”這個字,有的人按“山+擇”的思路拆,有的人更碎,拆成“山+又+豐”,還有人采用模糊拆法,拆成“山+峰”。
這就需要不同的人二拆,三拆。生僻字鍵盤項目組在 3 個月內(nèi),拆字 1 萬 7 千多個,前后總共拆字超 9 萬個。如果用戶反饋不好,再從頭拆。目前,每天有 1 萬多人通過生僻字鍵盤輸入 4 萬多字。

騰訊搜狗生僻字鍵盤|受訪者供圖
可作為離用戶最近也是最直觀的環(huán)節(jié),騰訊搜狗輸入法總是接到用戶投訴,“為什么我身份證上都可以打出來的字,你輸入法里都沒有”——用戶往往認為,生僻字輸入輸出的問題,都是輸入法的鍋。
“90% 的用戶認為輸入法解決生僻字問題就可以了,但不知道生僻字的數(shù)字化其實是一個個復(fù)雜的系統(tǒng)工程”,騰訊搜狗輸入法生僻字解決方案項目主管辜海玻解釋?!俺溯斎耄€需要解決生僻字的顯示、存儲、傳輸、輸出、打印等環(huán)節(jié),打通生僻字數(shù)字化的所有鏈路,一個生僻字才能在信息系統(tǒng)內(nèi)順暢地使用。”
為了執(zhí)行新國標,騰訊搜狗輸入法 2022 年開始對輸入法產(chǎn)品進行改造。它放棄用了 16 年的底層架構(gòu),將以前也用 PUA 碼顯示的字統(tǒng)一改為 Unicode 編碼,并擴展了字體。
這是一套艱難而漫長的流程,理想的終點,是一個生僻漢字能顯示、輸入、在數(shù)字化的世界中無障礙地使用;而回歸的起點,則是要讓全社會和全部數(shù)字系統(tǒng)都貫徹落實統(tǒng)一標準——90 年代編碼標準的混亂,依舊很大程度影響著今天,身份證上能顯示的字在其他系統(tǒng)依舊“查無此字”,哪怕在同一家醫(yī)院,掛號和開藥都可能是兩套編碼。

生僻字征集小程序|截圖
“其實不需要每個系統(tǒng)都重新編碼,做好轉(zhuǎn)碼映射,讓每個產(chǎn)品都能顯示出國標上規(guī)定的字即可”,工信部電子工業(yè)標準化研究院中文信息研究室主任黃姍姍稱,“技術(shù)上這些都很容易,重點是讓整個社會意識到生僻字標準統(tǒng)一的重要性。”
今年,電子標準研究院加大新國標的宣傳力度,也在配合支撐主管部門開展標準符合性檢測等工作。
數(shù)字系統(tǒng)的各方也在嘗試聯(lián)合。今年春季,聯(lián)合國中文日前后,一款聯(lián)合了騰訊、電子標準研究院、漢儀字庫等多方機構(gòu)的生僻字征集小程序曾火熱一時。到今年六月入夏時,小程序上就已經(jīng)有 2.1 萬人參與提交 5000 多個(去重后)生僻字,其中有 300 多個生僻字通過此渠道來到專家考證環(huán)節(jié),有望在明年收入新國標和國際標準。

生僻字小程序中提交次數(shù)前十的生僻字|受訪者供圖
8 月 1 日,字符編碼強制國家標準 GB18030-2022 也將正式施行。“冫口”字因在 2022 年才獲得 Unicode 編碼,暫時沒能進入新國標。——未進入新國標,后面的步驟就更沒人有動力去完成了,“冫口”字就這么被丟在了字形設(shè)計和進入字庫那一步。
村民倒也并不氣餒,他們還專門編寫了一首歌,莊里的小孩從小唱著“彎彎的河流,漣然微漾”,記住村子外流淌著兩條小河,歌名就叫《冫口子小學(xué)校歌》。
希望下次在輸入 zhan 時,他們能看到自己的家。
參考文獻
[1] 地名生僻字提交編碼情況及音義考證
[2] 生僻地名用字編碼工作現(xiàn)狀
[3] 陳壯. 中國在 ISO/IEC JTC1/SC2 的活動與中文編碼的國際標準化[J]. 中文信息學(xué)報, 2007, 21(4): 122.
[4] https://www.chinanews.com.cn/cul/2011/12-02/3503995.shtml
[5] https://www.thepaper.cn/newsDetail_forward_16573331
[6] https://www.icst.pku.edu.cn/fqlm/icst_35th/zxbd/1223569.htm
作者:睿悅
編輯:臥蟲
封面圖來源:unsplash
熱門跟貼