Corpusデータの誤植

訳あってLOBコーパス中の接続副詞の数を数えている途中で、どうも、文頭のHoweverの数が合わない。

1) “However” では 119
2) “¥^.*However” では 118

「^」は文頭を表す記号として使われているが、その記号の後ろに小文字を表す「*0」等の記号が入る場合がある。また、「^」が正規表現で特殊文字あつかいされるので、文字列の指定をする際には「¥」で「エスケープ」しておく。

差分をとったりして調べてみたところ、以下のような行を発見:

G30 78 proved more difficult than anticipated. However, my friend Wilfred

つまり、データ中で文頭につけることになっている「^」のつけ忘れだ。

コメントを残す