したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

604 ◆/vmukiyuzw:2010/06/20(日) 12:58:11
バージョンアップしました(0.8.18)
 ・文字コード自動判別のロジックを若干見直し。
  文字コードUTF-8のHTMLをSJISと判定してしまう不具合に対応した(つもり)。

ぱっと見は明らかにUTF-8なのに、バイトの範囲と組み合わせをチェックすると
SJISにも当てはまってしまう場合があります。

今までは、「どの文字コードの可能性が最も高いか」判定するために、HTML全文を
「SJIS」「EUC」「UTF-8」それぞれの規則で読んでみて、当てはまる文字の数を調べ
一番多く登場するコードを候補として選択するロジックになっていました。
ただ、文字数で判定すると1文字に3バイト使うUTF-8が若干不利となりSJISと誤判定
される原因となりえます。
そこで、文字数でなくバイト数で判定するよう変更してみました。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板