Blog Sugiura

Enjoy

『現代日本語書き言葉均衡コーパス』

sugiura, · カテゴリー: 未分類 · タグ:

(BCCWJ:Balanced Corpus of Contemporary Written Japanese)
「現代の日本語の書き言葉の全体像を把握できるように集められたサンプルが約1億語収録されています。」

http://www.kotonoha.gr.jp/shonagon/
「本サイトで可能な検索は文字列検索(全文検索)だけ」

アカデミック版のDVDは、52,500円
利用単位は「研究室」

“compound lexical entry”

sugiura, · カテゴリー: 未分類 · タグ:

というのが、ICLEv2にでてきて、なんだこれは、と思ってググったが、でてこない。出てきたのは、ICLEv2のFAQのページだけ。 
 
結局のところ、これは、基本的に、CLAWSが「ditto tag」をつけている連語のことだった。

参照:CLAWS7 Manual

で、これは、形態素解析をする際に、バラバラの単語として形態素解析するのではなく「ひとかたまり」で付けた方が「現実的」と判断された連語のリストのこと。例えば、「all of a sudden」
 
で、これに基づき、学習者コーパスから、これらの表現の使用頻度が出るようになっているわけですが、まあ、出てもよいのですが、それなりに興味深いので、で、でも、それで何?ってことですよね。そこからが問題です。