ENAMDICT/JMnedict
http://www.csse.monash.edu.au/~jwb/enamdict_doc.html
http://ftp.monash.edu.au/pub/nihongo/enamdict.gz
フォーマットの原則は、次のようになっている:
漢字仮名まじり [よみがな] /romaji (?)/
ただし、ひらがなだけの場合はよみがなのフィールド自体がなかったり、歴史的な名前については、/romaji (?)/の中に名字と名前と年号が入っていたりする。
ローマ字だけ取り出すには、/ を手がかりに、その直後、のアルファベット文字だけをとれば、歴史的な名前を除くほぼすべての名前のリストを作成できる。約70万。
wc -l enamdict
728032 enamdict