【2018年5月21日】『多言語母語の日本語学習者横断コーパス(I-JAS: International Corpus of Japanese as a Second Language)』の第三次データを公開しました。

今回、第三次公開で追加されたデータは、中国語母語話者50名、ベトナム語母語話者35名、ハンガリー語母語話者35名、スペイン語母語話者35名、ロシア語母語話者35名、国内教室環境学習者10名、国内自然環境学習者10名の計210名分です。これまでに公開したデータを合計すると660名分のデータになります。
利用できるシステムおよびデータは、以下の通りです。

(1)検索システム『I-JAS中納言 第三次公開版』
(2)発話プレインテキスト
(3)発話の音声データ

 

第二次公開からのI-JASの変更点は以下の通りです。

1.I-JAS中納言のインターフェイスの変更

(1)検索条件の「言語環境・調査地およびタスク」から「調査ID」の行を削除しました。
(2)検索条件の「データセット」のうち、第三次データのチェックボックスを有効化しました。
(3)研究詳細、マニュアル、バージョン情報の場所を右上に移動しました。また、マニュアルについては内容を更新いたしました。

2.第一次データのミスの修正

第二次データ公開より、文字化のデータの最終的なチェック方法を変更し、文字化やタグなどのミスを減らしてきました。しかし、第一次データは第二次データ以降とは異なる方法でのチェックだったため、文字化や形態論情報の不備、誤解析が残ってしまっていました。この度、第一次データもチェックし、修正しました。

第一次データで研究を進めてこられた方は、今一度、確認をしていただいたほうがいい場合がございます。ご了承いただけますよう、お願いいたします。

注)修正した箇所はLSAJのHP(LSAJ>I-JAS>研究詳細>I-JAS関連資料>(6)データ修正箇所一覧)からご確認いただけます。
http://lsaj.ninjal.ac.jp/?page_id=364

3.検索結果および検索結果のダウンロードファイルについて

これまでは検索結果および検索結果をダウンロードしたファイルには第何次のデータか、どの調査地のデータかの情報は載せていませんでしたが、第三次公開から、「データセット」列(何次公開か)、「調査地」列(どこの調査地か)を追加しました。

 

第三次公開については「I-JAS関連資料」ページで詳細情報を掲載していますので、ご参照ください。