TreeTaggerを使ってタグ付けをしたデータが含まれていますが、現状では全体を通しての整合性は取れていません。また、TreeTaggerによるタグ付けの誤りの修正はしてありません。
NICE-NNSで新設したタグ
TreeTaggerでは、前置詞と従属接続詞にINタグをふるため、NICE-NNSでは、TreeTaggerのINタグを前置詞INと従属接続詞CJ(新設)に分割しました。
注:NICE-NNS のJPN210_pos.txt~JPN342_pos.txtと NICE-NSは未処理です。
TreeTaggerタグセット変更記録{{tag_change}}
toと品詞タグTOについて
- toは不定詞を導くtoでも前置詞のtoでも、TreeTaggerでは全てTOが振られる。
- JPN001~JPN209では、全てINに変更した。
ただ し、JPN005だけTOのままになっている(2014-09-09にこれも置き換え)- 不定詞のtoも品詞は前置詞としてINになっている
- JPN210からJPN342のファイルや、NICE-NSについては、TOのままになっている。
品詞タグチェック
NICE-NNSから10ファイルと、NICE-NSから3ファイルを対象に、TreeTaggerで付与した品詞タグをチェックしました。
品詞タグチェック記録{{tagcheck}}
注:タグチェック記録はデータに反映されていません。データを利用する際の参考資料にしてください。