下面以粵語爲例,討論方言生僻字讀音的推導問題。
推導生僻字讀音的主要依據爲《廣韻》。例如生僻字「侺」字,市面上所有粵語字典均沒有收錄。經查詢《廣韻》可知,該字屬於常母沁韻,與「甚」同音。在粵語中,同韻的章組字主要元音均爲 a,如:
斟 zam1 針 zam1 執 zap1 汁 zap1 甚 sam6 審 sam2 溼 sap1 十 sap6
故根據演化規律得出「侺」字在粵語中的讀音爲 sam6。
然而,方言的演化規律只能人工總結,不存在一個通用的、自動化的解決方法。
首先,在《廣韻》中音韻地位相同的字,在方言中的讀音可能出現分化。例如《廣韻》中「躇」、「除」同音,但在粵語中「躇」cyu4 /tsʰyː˨˩/,「除」ceoi4 /tsʰɵy˨˩/,二者並不同音。普遍認為這是由於「除」字的 /y/ 進一步裂化為 /ɵy/,而「躇」字的 /y/ 保持早期粵語的讀法不變。
其次,許多字音不符合演化規律。這包括以下幾種情況:
- 讀半邊:「齪」cuk1,按演化規律爲 cok3,這是因為讀半邊,「促」讀 cuk1
- 形近而誤:「糾」字俗讀 dau2,有人認為是與「紏」字相混
- 由官話發音類推:
「闖」cong2,按演化規律爲 cam3,可能是由官話讀法類推(「闖」字有些複雜,若有更好的例子會換掉)
- 直接借用官話發音:「玩」口語音 waan2,按演化規律爲 wun6,可能是直接借用官話讀法
- 白讀掩蓋了文讀:「棒」paang5,按演化規律爲 bong6
- 變調掩蓋了原調:「戀」lyun2,按演化規律爲 lyun6
- 本來是多音字,結果僅保留了另外一個音:「潺」saan4,按演化規律還有 sin4 的讀法
- 訓讀:「孖」maa1,按演化規律爲 zi1 或 zi6
- 無法解釋而又不成系統的音變:「覈」hat6,按演化規律爲 haak6
有人可能認爲,不符合演化規律畢竟佔少數,可以通過統計概率,由程序計算出演化規律。但在某個《廣韻》小韻中,不符合演化規律者可能佔優,例如:
- 添韻喉牙音聲母有大量聲旁為「夾」的字,如「頰」gaap3,但均是讀半邊。「協」hip6「不可以讀半邊」,據此一字可以確定主元音應爲 i
- 歌韻脣音僅「爸」一字,官話屬常用字滯古,粵語模仿官話讀法,因此不合規律。該小韻的演化規律需要借助音韻地位相近的小韻判斷
另外還需注意古今音、形、義不同的情況:
- 《廣韻》讀音不同的:「鳥」避諱「屌」改讀;「璽」避諱「死」改讀;「他」官話屬常用字滯古,粵語模仿官話讀法
- 《廣韻》不收,見於其他韻書的:「嗅」hung3,對應《集韻》香仲切
- 《廣韻》用字不同的:奥(奧)、竒(奇)、𥬇(笑)、𣅦(仄)
- 《廣韻》意思不同的:這(迎接)、頁(人頭)
- 《廣韻》中為意義有別的多音字,現代發生合併的:普通話「索」、「疏」
《廣韻》中還存在一些誤字,如「操」有三讀,其中「蘇后切」釋義為「車轂中空」,應爲「橾」字之誤,而其他兩讀應為「操」不變。
另外需要注意,一部分字在普通話、粵語中均爲多音字,但讀音可能發生交錯。換言之,含有多音字的詞在方言中的讀音並不一定能參考普通話讀音確定。例如「彈」字有「徒干切」(普 tán 粵 taan4)、「徒案切」(普 dàn 粵 daan6)兩讀。但讀音存在交錯:
- 「子彈」、「彈匣」:普 dàn 粵 daan6(-2)
- 「反彈」、「彈屁股」:普 tán 粵 daan6
- 「彈琴」、「彈」(批評):普 tán 粵 taan4
根據以上討論,得到半形式化的方言演化規律總結方法如下。
對於廣韻中的字:
- 將多音字排除
- 對於罕見字(即大部分字典均不收錄的字),排除
- 對於較生僻的字,
- 若「可以被讀半邊」,且確實被讀半邊了,排除
- 本來可以被讀半邊,但是卻没有讀半邊,則「更能説明問題」,應該留下,且要重點考慮
- 若「不能被讀半邊」,留下
- 對於常見字,也要注意「讀半邊」的問題。例如粵語將「租賃」的「賃」讀「任」
- 常見字還要注意文白異讀的問題,例如粵語「棒」、「抱」、「近」、「拒」、「盾」、「肚」,應排除
- 檢查是不是「發生了與普通話相同的音變」,如果是則認定為模仿官話讀法,應排除
- 反過來,如果普通話變了,而粵語没變,則「更能説明問題」,應該留下,且要重點考慮
在上述過程中,需要人工判斷的場合(即限制了推粵語過程自動化的因素)主要有:
- 需要人工區分「常見字」和「較生僻的字」。因為某些字在普通話中可能是常見字,但在方言中罕見,反之亦然
- 需要人工判斷「可以被讀半邊」
- 需要人工判斷某個音是白讀,而不是文讀音本該如此
- 需要人工檢查是不是「發生了與普通話相同的音變」
- 需要人工「靠音韻地位相近的小韻輔助判斷」。如果有多個「音韻地位相近的小韻」,需要人工選取
(2020 年 5 月 11 日)