日本語の「名前」のリスト

ENAMDICT/JMnedict
http://www.csse.monash.edu.au/~jwb/enamdict_doc.html
http://ftp.monash.edu.au/pub/nihongo/enamdict.gz

フォーマットの原則は、次のようになっている:

漢字仮名まじり [よみがな] /romaji (?)/

ただし、ひらがなだけの場合はよみがなのフィールド自体がなかったり、歴史的な名前については、/romaji (?)/の中に名字と名前と年号が入っていたりする。

ローマ字だけ取り出すには、/ を手がかりに、その直後、のアルファベット文字だけをとれば、歴史的な名前を除くほぼすべての名前のリストを作成できる。約70万。

wc -l enamdict
728032 enamdict

コメントを残す