*disclaimer
613419
CoNLL-U Format
https://universaldependencies.org/format.html
- テキストファイル
- UTF-8, LF
3種類の行
- 単語行
- word/token
- 10種類のフィールド、タブ区切り
- 空行
- 文の区切りを意味する
- コメント行
- ハッシュ(#)で始める
10種類のフィールド
- ID: 文内の単語の番号(1から)
- FORM: 語形(句読点も)
- LEMMA: レマ
- UPOS: 普遍品詞タグ
- XPOS: 言語固有の品詞タグ(ない場合は、アンダスコア)
- FEATS: 形態的特徴
- HEAD: その単語のヘッドになる単語のID(それ自身の場合は0)
- DEPREL: ヘッドとの依存関係
- DEPS: 拡張依存グラフ
- MISC: 備考
注
- 各フィールは空ではいけない。
- FORM, LEMMA, MISC以外は、スペースを入れてはいけない
- 値がない場合はアンダスコア
処理プログラム
https://universaldependencies.org/tools.html
https://sugiura-ken.org/wiki/