検索システム

検索システムの作成

責任者:迫田久美子
データ整備:佐々木藍子、小西円
検索システム設計:李在鎬

 

検索システムの画面説明

C-JASは発話の全文テキストデータに加え、付属の検索システムを備えることとした。検索システムでは利便性を向上させるため、一般的な文字列検索だけでなく、形態素情報を用いた検索が行えるように設計した。その他、話者や調査期の指定、品詞での絞り込みや、意味分類からの検索も可能である。

 

C-JAS検索画面

①形態素単位で検索
形態素による検索を行う。検索キーワードに対して、⑧~⑫で示す検索オプションを加えることで、より高度な検索ができる。

②文字列で検索
表層の文字列に対して検索することができる。ただし、「文字列で検索」を選択した場合、形態素情報を利用しないため、⑧~⑫の検索オプションは指定できない。

③検索ボックス
検索したいキーワードを、形態素または文字列で入力する。形態素単位での検索を行う場合、入力する文字種に注意が必要である。詳細は以下⑧を参照願いたい。

④話者
話者を選択して検索を行うことができる。

⑤収集時期
データの収集時期単位で検索を行うことができる。

⑥発話の種類
話者(学習者および調査者)単位で検索を行うことができる。

⑦文脈表示幅
検索結果に表示されるキーワードの前後の文脈に表示される形態素数を選択することが出来る。5、10、30、50、100語の5種から選択する。30語以上を選択した場合、⑯の検索結果に表示される文脈が見づらくなるが、データをエクセルにダウンロードした場合(⑮参照)は、一列に表示されるため問題ない。そのため、web画面上でのみデータを閲覧する場合は、5または10語を選択されたい。

⑧形態素解析情報を用いた検索オプション 「語彙素」「発音形」「書字形」
検索キーワードが「語彙素」「発音形」「書字形」のどれにあたるかを指定することができる。それぞれの入力に関する注意事項は以下のとおりである。

・「語彙素」を指定した場合、漢字仮名交じり表記で入力する必要がある。語彙素は、茶まめ(3.を参照)を利用して確認することが可能である。
例)×はしる、○走る/×ある、○有る/×この、○此の/×する、○為る

・「発音形」を選択した場合は、すべてカタカナ表記で入力する必要がある。また、長音は「ー」と表記する。
例)×走る、○ハシル/×計算、×ケイサン、○ケーサン

・「書字形」の場合は、文字化されたテキストデータと一致した表記で入力する必要がある。
例)○走る、○はしる

⑨形態素解析情報を用いた検索オプション 「完全一致」「部分一致」
検索キーワードと部分一致で用例を収集するか、完全一致で収集するかを指定することができる。

⑩形態素解析情報を用いた検索オプション キーワードの「品詞」
検索キーワードの品詞を指定することができる。品詞・詳細はプルダウンメニューから選択することができる。検索キーワードが空欄でも検索可能である。

⑪形態素解析情報を用いた検索オプション キーワードの「意味分類」
検索キーワードの意味分類を指定することができる。意味分類は『分類語彙表』によっているため、このオプションが利用できるのは、名詞、形容詞、動詞のみである。意味分類の詳細は、『分類語彙表』を参照されたい。具体的な検索キーワードを指定せず、意味分類から形態素を抽出することも可能である。

⑫形態素解析情報を用いた検索オプション「誤用」「正用」の指定
学習者の誤用と正用、およびその両方を指定することができる。

⑬全文会話のダウンロード
コーパスに収録されている全会話の文字化資料をダウンロードすることができる。

⑭検索結果のクロス集計表
検索結果をもとに、検索キーワードの出現回数を学習者ごと、時期ごとに自動で集計し、一覧で出力される。

⑮データのダウンロード
検索結果をテキストファイル(TXT)とエクセルファイル(XLS)でダウンロードすることができる。エクセルファイルの「File」列は「K1-a」のように、各学習者記号とその時期が表示される。最初の2文字(「K1」)は学習者を、ハイフンに続くアルファベットは時期を示している。時期は1期の「a」から8期の「h」まである。「error」列は、検索キーワードに誤用タグが付与されている場合に、「誤」と表示される。前後の文脈(left contextおよびlight context)に示される文脈は、L(学習者)とN(調査者)という文字によって、発話者が表示される。「utterance ID」列は「File」列に表示されたデータの中に表記されている、発話番号が表示される。

⑯検索結果
検索キーワードをハイライトしながら、KWIC形式(Key Word in Context)で、キーワードの前後の文脈を表示する。表示する形態素数は、⑦の「文脈表示幅」で選択することが出来る。緑字で示されているのは調査者の発話である。行頭の「全文閲覧」(青字)をクリックすると、その用例を含む全文が参照できる。検索例の下の赤字の[ ]でくくられた内容は、補足情報(参照:2-1.<表記の方針>(8))であり、下線の上の発話の補足情報である。また、「Φ」は学習者の発話のうち、必要な語が脱落していると思われる箇所で、赤色の下線は誤用を表わす。行の下の[ ]なしの赤字は考え得る正用例である。これは、今後変更の可能性があるため参考程度として扱って頂きたい。