品詞タグについて

TreeTaggerを使ってタグ付けをしたデータが含まれていますが、現状では全体を通しての整合性は取れていません。また、TreeTaggerによるタグ付けの誤りの修正はしてありません。

NICE-NNSで新設したタグ

TreeTaggerでは、前置詞と従属接続詞にINタグをふるため、NICE-NNSでは、TreeTaggerのINタグを前置詞INと従属接続詞CJ(新設)に分割しました。
:NICE-NNS のJPN210_pos.txt~JPN342_pos.txtと NICE-NSは未処理です。
TreeTaggerタグセット変更記録{{tag_change}}

 

toと品詞タグTOについて

  • toは不定詞を導くtoでも前置詞のtoでも、TreeTaggerでは全てTOが振られる。
  • JPN001~JPN209では、全てINに変更した。
    • ただ し、JPN005だけTOのままになっている(2014-09-09にこれも置き換え)
    • 不定詞のtoも品詞は前置詞としてINになっている
  • JPN210からJPN342のファイルや、NICE-NSについては、TOのままになっている。

 

品詞タグチェック

NICE-NNSから10ファイルと、NICE-NSから3ファイルを対象に、TreeTaggerで付与した品詞タグをチェックしました。
品詞タグチェック記録{{tagcheck}}
:タグチェック記録はデータに反映されていません。データを利用する際の参考資料にしてください。