COCAのサンプルファイル内の「ゴミ」をとるプログラム:cocaClean

  • COCA samplesのファイルには、以下の「ゴミ」が含まれていて、単語の処理をする際に「ゴミ」となる
    • テキストID
    • 匿名記号
    • 段落記号
  • Copilotに指示を出してスクリプトの原案を作ってもらい修正する
  • 作り方はこちら → https://sugiura-ken.org/wiki/wiki.cgi/exp?page=cocaClean
  • ほぼ修正なしで、のぞみのプログラムができた。すごいわ。
  • 上記ページから、そのプログラムをダウンロードできます。