今川館

都内勤務の地味OLです

2011-07-09から1日間の記事一覧

マルチバイト文字を含む正規表現のパターンを定義するときはunicodeでパターンを書かないと予期せぬ結果をもたらす

adminuser.pyを書いていたときにはまったのがこの問題。 reモジュールを使って半角と全角のスペースで文字列をsplitしようとしたのだが、 正規表現パターンをstrで渡してしまいおかしな文字列分割が行われてはまった。 regex1 = re.compile(r"[ ]+") regex2 …