2022-06-13
例如大正藏:No.72[No.26(155),Nos.73,74,No.125(27.3)]
在 CBETA XML 裡標記為 <docNumber>.
使用者要的應該是「典籍內文的字數」,
而 docNumber 其實是大正藏加上去的,
並不是這一部典籍裡的字數。
例如我們通常說心經有幾個字, 是不會想要把 docNumber 加上去的。
API 回傳 CSV 欄位:
欄位名稱 | 說明 |
work | 典籍編號 |
cjk_chars | 中、日、韓、悉曇、蘭札 字元數 |
en_words | 英數 word 數 |
canon | 藏經(套書) ID |
category | 部類 |
例如「1993」算一個 word,而不是四個字元。
「CBETA」算一個 word,而不是五個字元。
Unicode Name | Unicode Range | CBETA 使用字元 |
ASCII digits | 0030-0039 | 0123456789 |
Uppercase Latin alphabet | 0041-005A | ABCDEFGHIJKLMNOPQRSTUVWXYZ |
Lowercase Latin alphabet | 0061-007A | abcdefghijklmnopqrstuvwxyz |
00C0-00D6 | Ñ | |
00D8-00F6 | Üàáâäæéêíïñóôö | |
00F8-00FF | ùúûü | |
0100-017F | ĀāċēĪīōŚśũŪū | |
0180-024F | ȧ | |
MODIFIER LETTER APOSTROPHE | 02BC | ʼ |
0300-036F | ̐ | |
0370-03FF | Φ | |
0400-04FF | ДФх | |
Latin Extended Additional | 1E00-1EFF | ḄḌḍḤḥḳḶḷṀṁṃṄṅṆṇṚṛṠṢṣṬṭẖạụ |
2150-218F | ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ | |
2460-24FF | ①②③④⑤⑥⑦⑧⑨⑩ | |
2C60-2C7F | CBETA 目前未使用 | |
A720-A7FF | CBETA 目前未使用 | |
AB30-AB6F | CBETA 目前未使用 | |
FF10-FF19 | 0123456789 | |
FF21-FF3A | ABCDEFGHIJKLMNOPRSTUVWXYZ | |
FF41-FF5A | abcdeiu |
構成「英數字」以外的字元,都是分隔字元,除了以下字元例外:
Name | Unicode | 字元 | 用例 | Note |
APOSTROPHE | U+0027 | ' | don't | |
HYPHEN-MINUS | U+002D | - | Saddharma-puṇḍarīka | 單獨一個 - 字元不列入計算。 |
MODIFIER LETTER APOSTROPHE | U+02BC | ʼ | paʼi |
字串 | word 數 |
1993 | 1 |
10 | 1 |
CBETA | 1 |
MP | 1 |
Saddharma-puṇḍarīka | 1 |
isn't | 1 |
ud-vsad,udvsyad | 2 |
(ref taixu::vol:26;page:p102) | 6 |
~Caṇḍālakumāraka(+vā caṇḍālakumārikā vā) | 4 |
目前 CBETA 尚未使用如下 Unicode 悉曇字,將來如果使用,也需考慮計算方式。
下面例子,應該只能算 1 個字:
𑖭𑖿𑖧𑖯𑖾 = U+115AD(𑖭), U+115BF(𑖿 ), U+115A7(𑖧), U+115AF(𑖯), U+115BE(𑖾)
圖:
cjk_chars 不計算以下字元
Unicode Name | Unicode Range | CBETA 使用字元 | Note |
0000-007F | U+0009, U+000A, U+0020 "#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | ||
0080-00FF | §°±·Ñ×Üàáâäæéêíïñóôöùúûü | ||
02B0-02FF | ʼˇˋ | ||
0300-036F | U+0310 ̐ | ||
2000-206F | – — ’ “ ” … ‧ ※ ⁉ | ||
2150-218F | ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ | ||
2190-21FF | ←↑→↓↖↗↘↙ | ||
2200-22FF | ∕√∞∟∠∴∵≡⊕⊙⊥ | ||
2460-24FF | ①②③④⑤⑥⑦⑧⑨⑩ | ||
2500-257F | ─│┌┐└┘├┤┬┴┼═║╭╮╯╰╱╲╳ | ||
2580-259F | ▔■ | ||
25A0-25FF | □▲△▽◇○◎●◐◑ | ||
2600-26FF | ☆ | ||
2C60-2C7F | CBETA 目前未使用 | ||
3000-3002 | {U+3000}、。 | ||
3004 | CBETA 目前未使用 | 〄 | |
3008-3011 | 〈〉《》「」『』【】 | ||
3014-301F | 〔〕 | ||
3030 | CBETA 目前未使用 | 〰 | |
3037 | CBETA 目前未使用 | 〷 | |
303D-303F | CBETA 目前未使用 | 〽〾〿 | |
FE30-FE4F | ︵︶﹁﹂﹄﹏ | ||
FE50-FE6F | ﹐﹑﹒﹔﹕﹖﹗﹘﹙﹚﹛﹜﹝﹞﹟﹠﹡﹢﹣﹤﹥﹦﹨﹩﹪﹫ | ||
FF01-FF0F | !&'()*+,-./ | ||
FF10-FF19 | 0123456789 | ||
FF1A-FF20 | :;<=>?@ | ||
FF21-FF3A | ABCDEFGHIJKLMNOPRSTUVWXYZ | ||
FF3B-FF40 | [\]^_` | ||
FF41-FF5A | abcdeiu | ||
FF5B-FF64 | |}~ |
Unicode | Unicode Name | 說明 |
3003 〃 | Ditto Mark | 重文符號,例如「漸〃」算2個字。 |
3005 々 | IDEOGRAPHIC ITERATION MARK | 重文符號,例如「人々」算2個字。 |
3006 〆 | IDEOGRAPHIC CLOSING MARK | CBETA 目前未使用此字元。 參考: https://www.letsgojp.com/archives/393819 |
3007 〇 | IDEOGRAPHIC NUMBER ZERO | 因為「一二三」都算文字,「二〇二〇」就該算4個字。 |
3012 〒 | POSTAL MARK | CBETA 目前未使用此字元。 |
3013 〓 | GETA MARK | CBETA 目前未使用此字元。 用來取代字型沒有、不能顯示的字 |
3020 〠 | POSTAL MARK FACE | CBETA 目前未使用此字元。 |
3036 〶 | CIRCLED POSTAL MARK | CBETA 目前未使用此字元。 |
303B 〻 | VERTICAL IDEOGRAPHIC ITERATION MARK | CBETA 目前未使用此字元。 重文符號。 |
303C 〼 | MASU MARK | CBETA 目前未使用此字元。 informal abbreviation for Japanese -masu ending 這是兩個字的縮寫符號, 通常用在結尾, XXXXmasu |