今川館

都内勤務の地味OLです

2016-12-25から1日間の記事一覧

Pythonでサロゲートペア -- ほっけの逆襲

Pythonで「ほっけ」という漢字をprintに渡すとどうなるか試した。 「ほっけ」はサロゲートペアの文字である。 Python2は寛容に処理してくれるが、Python3は原則としてサロゲートペアを許さないので、エラーオプションに許可するよう指定する。

サロゲートペアの入った文字列を処理する場合の注意点

Goは文字をUnicodeコードポイントで扱い、runeというデータ型を用意している。 unicode/utf8モジュールを使うとサロゲートペアが含まれる文字列でも安全に処理できる。