今川館

都内勤務の地味OLです

正規表現

マルチバイト文字を含む正規表現のパターンを定義するときはunicodeでパターンを書かないと予期せぬ結果をもたらす

adminuser.pyを書いていたときにはまったのがこの問題。 reモジュールを使って半角と全角のスペースで文字列をsplitしようとしたのだが、 正規表現パターンをstrで渡してしまいおかしな文字列分割が行われてはまった。 regex1 = re.compile(r"[ ]+") regex2 …

Unicodeの「横棒」文字

[日本語の横棒記号に絶望した] http://taichino.com/programming/1384[従来の文字コードとUnicodeの対応に関する諸問題] http://euc.jp/i18n/ucsnote.ja.html ↑Unicodeでは横棒文字がたくさん定義されている。 しかし、人が画面に入力する横棒なんて、見た目…