日本語歴史コーパス『中納言』の使い方
2022年8月23日 国立国語研究所「通時コーパス」プロジェクト
短単位検索・長単位検索…形態論情報を使った検索
文字列検索…形態論情報を使わない・表層形による検索
位置検索…すでに出現位置が分かっているものを(再)検索
「非コア」…機械による形態素解析後、一部に人手修正が入っているデータ
分かち書きがされない日本語には、かならずしも決まった単語の区切り方がない
例:国立国語研究所 国立|国語研究所 国立|国語|研究所 国立|国語|研究|所
→しかしコーパスを構築し利用するためには、決まった区切りが必要
→国語研究所で定めた2つの区切り方が「短単位」と「長単位」
誰が区切っても揺れが少ないことが特徴
意味を持つ最小の単位を、最大で一回まで結合させた単位
和語の場合:「母」「親」「母親」などは1短単位。「母親|代わり」は2短単位
助詞・助動詞・補助動詞・接頭辞・接尾辞はそのままで1短単位
漢語の場合:原則として2字ないし1字の漢語が1短単位
外来語の場合:原語における1語が1短単位
実際の文章を文節で区切ったうえで、文節を自立語と付属語に区切った単位
複合語が1長単位となるほか、「ている」などの複合辞を1長単位と認める
短単位と長単位が結果として全く同じ区切り方になる場合も多い
品詞情報は、いわゆる学校文法に基づくが、主に次のような点で違いがある
・形容動詞を「形状詞」と助動詞「だ・なり」に分ける
(学校文法)形容動詞「奇麗だ」
→(短単位・長単位)形状詞「奇麗」+助動詞「だ」
・漢語サ変動詞等を、短単位では名詞と動詞「為る」に分ける
(学校文法)動詞「勉強する」
→(短単位)名詞「勉強」+動詞「為る」、(長単位)動詞「勉強する」
・階層的な品詞・活用型の付与
例(短単位):名詞-普通名詞-一般 (大分類>中分類>小分類)
例(短単位):下一段-ア行 (大分類>行分類(>小分類))
・可能性に基づく品詞付与
例(短単位):名詞-普通名詞-サ変可能 「勉強」
長単位では文脈に応じた品詞を付与
「日本語歴史コーパス」(CHJ)の形態論情報の見出し語は次のような階層構造を持っている(形態素解析用辞書UniDicの見出し階層)
(発音形は省略)
語彙素:辞書の見出しのレベル
語形:異語形を区別するレベル
書字形:異表記を区別するレベル
語彙素(見出し語の代表表記)が分からないときは「文字列検索」(→5節)で検索して確認してみる (奇麗?綺麗? → 「きれい」等で文字列検索、表示される語彙素「奇麗」を見て確認)
→ 「読ま」「読み」「読む」「読め」「読もう」(各活用形)
→ 「うぐひす」「鶯」「鴬」
→ 「イズコ」「イズク」「イドコ」
形態論情報を使った検索では、次の画面で検索条件を設定する
条件指定する属性はデフォルトで「書字形出現形」となっている。検索したい属性(「語彙素」「品詞」など)を選び、右の空欄でその中身を指定する
ボタンで一つの単位について詳細な条件指定を追加できる
活用形など選択肢が決まっているものはドロップダウンメニューから選択する
ボタンでキーの前方に出現する単位を指定
ボタンでキーの後方に出現する単位を指定
検索例5 「言葉」を連体修飾する形容詞
キー = 品詞「形容詞」 + 活用形(の大分類)「連体形」
後方共起1(キーから1語)= 語彙素「言葉」
☞集計に使いたいもの(この場合は形容詞)をキーの位置に持ってくるのがコツ
条件指定を入力したあとでもボタンで、キーの位置を移動できる
語彙素などの検索指定では通常の文字の代わりに、次のワイルドカードが利用できる
% 任意の文字列…0文字以上の文字列、何でも良い
_ 任意の1文字
[abc] 文字クラス…括弧内の文字いずれか一文字
[^abc] 文字クラスの補集合… 括弧内の文字以外のいずれか一文字
検索例6 心% 「心」ではじまる「心ばえ」「心地」etc.
検索例7 [をはも] 「を」または「は」または「も」
前方・後方共起が指定されている場合のキーに限り、「キーの条件を指定しない」をチェックすることにより、条件指定なしで検索することができる
前方・後方共起が指定されている場合、キーに隣接する共起条件の「キーと結合して表示」をチェックすることで、キーに隣接する前後条件を含めて検索結果を表示させることができる
↓
・「語彙素」の指定だけでは一意に決まらない場合がある(例:辛い→つらい・からい)
・語彙素レベルで例外なく一意にするには、語彙素・語彙素読み・品詞・語彙素細分類 の4つを指定する必要がある(または語彙素IDを利用する)
・可能動詞は語形レベルで定義されている(「読める」の語彙素は「読む」)
検索例8 文字列検索で「せむ方なし」を検索
↓ 上の赤丸部分をクリックすると下のように文脈が表示される
・ 上の青丸部分をクリックするとジャパンナレッジ『新編 日本古典文学全集』(小学館)へリンクされ、当該ページの本文・現代語訳・注釈を参照できる
「検索動作」の設定画面において「副本文を検索対象に含む」を選択し検索を行うことで、副本文の形態論情報も含めた検索ができる(デフォルトでは「検索対象に含まない」になっている)。副本文とは、和歌における掛詞や人情本などに見られる特殊な振り仮名のような1つの文字列に複数の意味をもたせている箇所に、主たる意味の語とは別に付与した形態論情報である
検索結果が主本文の形態論情報である場合「主本文」の列に「1」、副本文の形態論情報である場合は「0」が表示される。また、「多重化種別」の列に、「掛詞」「振り仮名」などの種別が表示される
検索例9 「副本文を検索対象に含む」を選択し、語彙素「発つ」を検索
上段の例は、「主本文」欄が「0」となっており、表示されている形態論情報が副本文のものであることがわかる
検索例10 「副本文を検索対象に含む」を選択し、語彙素読み「タツ」を検索
語彙素「発つ」「断つ」という同じ語彙素読みの語が同一箇所の主本文・副本文となっているため、検索結果に2回現れているので注意が必要である
検索結果画面において「層」と「層内連番」はそれぞれ次のような意味を有する
(1)層――該当箇所が有する多重化情報の数。1、2、3 重に情報を有する場合、そ れぞれ 10、20、30 のように 2 桁の数で表示される
(2)層内連番――多重化情報の同じ層内での連番を示す
3重に形態論情報が付与されている例
「主本文」1 「層」0(語彙素「尽くす」)
「主本文」0 「層」10(語彙素「澪標」)
「主本文」0 「層」20(語彙素「ツクシ」)
「主本文」0 「層」30(語彙素「櫛」)
上記の検索結果の「層」列にそれぞれ「10」「20」「30」とあるところから、この部分には3層にわたり「掛詞」側の形態論情報が付与されていることが判る
層内連番の例
上図ではいずれの「層」列も「10」と同じだが、「層内連番」列にはそれぞれ「10」「20」とある。このことは「嵐」に 対する多重化情報として「あらじ」が「掛詞」となっており、その同じ層の中で、短単位として「あら」と「じ」とが連続していることが示されている
単位を気にせず、検索したい文字列を入力して検索する。「対象文字列」を「校訂本文」または「原文」から選択することができる。4.3で説明した「ワイルドカード」を使用した検索も可能である
サンプルIDと開始位置をカンマ区切りで入力(複数行可。タブ区切りでも可)すると該当例がピンポイントで検索される
検索結果の表示単位は短単位・長単位のどちらかを選べる
※開始位置(=サンプル中の文字位置にもとづくID)は短単位・長単位で共通
4~6節で紹介した方法によって行った検索の検索条件は、「検索条件式」として履歴に記録される(「履歴で検索」で再検索可能)
検索例5の検索条件式:
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") AND 後方共起: 語彙素 = "言葉" ON 1 WORDS FROM キー WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToMainText="1" AND limitToSelfSentence="1" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
検索例5の修正版(「言葉」または「歌」):
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") AND 後方共起: (語彙素 = "言葉" OR 語彙素= "歌" ) ON 1 WORDS FROM キー WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToMainText="1" AND limitToSelfSentence="1" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
検索結果は、見つかった件数と、500件までの該当例が画面上に表示される
500件以上ある場合には表示は500件まで。時代順に表示される
「検索動作」の設定で、文脈中の区切り記号の種類や表示する前後文脈の語数を変更することもできる
□コーパス情報
時代名・サブコーパス名・サンプルID・開始位置・連番・コア・層・層内連番・多重化種別
□形態論情報
前文脈・キー・後文脈・原文KWIC・語彙素ID・語彙素読み・語彙素・語彙素細分類・語形・語形代表表記・品詞・活用型・活用形・書字形・仮名形出現形・発音形出現形・語種・原文文字列・振り仮名
□本文情報
本文種別・話者・文体・歌番号
□作品情報
ジャンル・作品名・成立年・巻名等・部
□作者情報
作者・生年・性別
□底本情報
底本・ページ番号・校注者・出版社
□その他
底本リンク・参考リンク・permalink
・画面上の「【列の表示】」でチェックボックスをオン・オフすることで、リアルタイムで表示を切り替えられる
中納言自身には集計機能はないので、検索結果をダウンロードして利用する
検索例11 語彙素「中々」(インラインタグ「語彙素」「品詞」)
共起検索で同じレコードが複数表示されることがある
並び順は無秩序
検索結果が10万件以上ある場合、10万件で切れる
ピボットテーブル…クロス集計表を作成する機能
検索例12 形容詞の一覧
キー: 品詞 LIKE "形容詞%"
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToMainText="1" AND limitToSelfSentence="1" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"