ot2sy39's note

twitter 140文字じゃ書けないときの外部エントリみたいな

ソートの注意メモ

テキストをソートするとき、漢数字などが直感に反するというのはある程度意識にあるが、 実は超基本的な半角アスキー文字群の順番もかなり変なことになっていて時々罠にはまるので、 備忘のためメモ。

一般的にどうかは分からないが、自分はゆるふわに「記号→数字→英大文字→英小文字」の順になっているような気がしている。 しかし、実際にはアスキーコード部分(0x01~0x7F)の並びは以下の様になっている。

16進コード 種別 文字
01 - 1F 制御コード
20 スペース
21 - 2F 記号群1 ! " # $ % & ' ( ) * + , - . /
30 - 39 数字 0 1 2 3 4 5 6 7 8 9
3A - 40 記号群2 : ; < = > ? @
41 - 5A 英大文字 A - Z
5B - 60 記号群3 [ \ ] ^ _ `
61 - 7A 英小文字 a - z
7B - 7E 記号群4 { | } ~

注意しなければならないのは、こんな部分。

  • @;などは数字よりも後
  • 英大文字と英小文字は連続しておらず、間に記号がいくつか入る
  • _は英大文字より後だが英小文字よりは前!
  • カッコが支離滅裂で、()→ 数字 →<>→ 英大文字 →[]→ 英小文字 → {}

特に@_が罠過ぎると思う。

forfiles.exe についてのメモ

条件に合致する多数のファイルに対して一括処理を施したいケースは多い。 Windowsでこれを実現してくれるのが、forfiles.exeというコマンド。

www.atmarkit.co.jp

上の記事でも触れられているが、forfiles.exe の /C オプションの中では、 0x00の形式で特殊文字を使用できる。 記事中では0x09でタブですよと例示されているが、真に必要なのはダブルクォート。

/C オプションの引数はダブルクォートで実行コマンドを記述するのだが、 awksedワンライナーを書こうとするとどうしても入れ子でダブルクォートをする必要がでてくるので、 0x22でくくってやるわけだ。

> forfiles.exe /S /D -2017/12/31 /M *.log /C "cmd /c gawk 0x22{print $0}0x22 @path"

このコマンドは、カレントディレクトリ以下にある2017/12/31以前の*.logファイルを{print $0}する。

awkでsqlite3.exeの即席フロントエンドを作った

Windowsでsqlite3を使うにはRubyPHPなどから適当なライブラリ経由でアクセスする必要があると思い込んでいて、職場のリソース逼迫シンクライアントだと環境整えるハードル高いと感じてたのだが、↓のエントリをみて、sqlite3.exeとgawk.exeの2個だけでいけるじゃんと気づいた。

d.hatena.ne.jp

というわけで手元にあったsqlite3のDBを操作するラッパーというか即席フロントエンドをawkで作ってみた。

BEGIN {
  db = "test.db"
  command = "sqlite3 -header -column " db " \" %s \""
  printf "command? "
}

/^\.exit$/  { exit }

/^!/  {
    caution=1
    sub(/^[!]/, "")
}

/^[0-9]+$/  {
    sql=sprintf("select * from testtable where id=%s", $1)
}

/^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$/ {
    sql=sprintf("select * from testtable where ip=%s", $1)
}

/^[a-zA-Z][a-zA-Z0-9_-]+$/ {
    sql=sprintf("select * from testtable where host like \"%s%\"", $1)
}

sql!="" {
    print sql
    if(caution) {
        printf("execute? (y/n) ")
        getline can_execute
        if(can_execute ~ /^[Yy]/)
            system(sprintf(command, sql))
    } else {
        system(sprintf(command, sql))
    }
    caution==0
    sql=""
    caution=0
    printf "command? "
}

骨子はこんな感じ。自分用なので正規表現は超手抜き。実行はgawk.exe -f test.awkてな感じで実行するだけ。

サンプルはちょっとしたネットワーク管理表を操作するイメージコード。プロンプトで数値を入れると該当idのレコードを、ドット区切りの4つの数値を入れるとipアドレスとみなしてそのIPを持つホストのレコードを、英字で始まる1単語を入れるとその単語に前方一致するホストのレコードを表示する。

実使用しているコードはテーブルも1つじゃないし、もう少し複雑なクエリを出す構文なんかも用意してるけど割愛。常用するクエリをどんどん取り入れてやると捗る。

不安なときは入力の先頭に!をつけると、実行前に本当に実行するか聞いてくるようにした。

まあSQL文を手入力するような工程はあまりないだろうけど、手元のちょっとしたデータ整理用にsqlite3使うにはそこそこ便利で、即席な割にいいもの作った感がある。

言語設計者はこれを一億倍したくらいの充足感あるんだろーなー。

Android 5.1.1 が Nexus7 2012 w/3g に降ってきた

新機能なんかより、APN まわりの不具合が解消したかだけが気になるが、二日ほど使った感じでは、事象、頻度ともに変わってない。無念。

【復習】第16回春だからログ解析するぞシェル芸勉強会:03

続き。

Q3-1 ログの件数が一番多い曜日はどれ

gawk '{print $1}' access_log | xargs date ***** | sort | uniq -c

ってな感じでいけそう、 でもログの行数すごいからうまくxargsで処理できるのか? と思いつつ、man dateでフォーマット文字列を確認してたら、 date -f -なる便利オプションを発見して解決。

gawk '{print $1}' access_log | date -f - "+%w" | sort | uniq -c

Q3-2 ログの件数が一番多い時間帯はどれ

Q1と同じ。自分の中では定番となっていて、あまり他の方法を考え付かない。 結果的には速い方法だったぽいが、考えなしなのは良くない。

gawk '{h[substr($2,1,2)]+=1} END {for(i in h){print h[i], i}}' access_log | sort -rn

【復習】第16回春だからログ解析するぞシェル芸勉強会:02

【復習】第16回春だからログ解析するぞシェル芸勉強会:01 - ot2sy39's diary の続き。

Q1 NASAのログについて、ステータスコードを抽出して、どのコードがいくつあるか数えてみましょう

初手思いついたのがコレ。あるパターンの行の数を数えるとき、ついパターンをキーとした連想配列に出現回数を数えてしまう。

gawk '{status[$(NF-1)]+=1} END{for(i in status){printf i, status[i]}}' access_log

でもサンプル回答ではキーをプリントしちゃって、sort & uniq -c。

awk '{print $(NF-1)}' access_log | LANG=C sort | uniq -c

うむ、サンプルの方が間違いなくシンプル。

念のため手元の環境*1で処理時間を測ってみると、 だいたい連想配列版が半分くらいの時間で完了していた(やったね!)*2。 富豪なら無視するレベルだが。

連想配列 sort | uniq -c版
real 4.243s 9.335s
user 3.955s 10.130s
sys 0.286s 0.554s

Q2 NASAのログについて、ファイルを開かずに、ログの多い日を探しだしてみましょう

「ログの多い日」=「ファイルの行数の多い日」としか考えられず、 頭の中は以下のコマンドで占拠されてしまった。

wc -l 1995*

サンプル回答は「ls -l | sort -k5,5n | tail」。 「lsを使ってサイズを見たら開かないでも見当がつきます」とのこと。 まあそうだよね。

*1:さくらVPS(1G) 石狩第1ゾーン メモリ1GB ディスク100GB(HDD) CPU2コア CentOS 6.3(64bit) ローカルにまともなUNIX環境がないのでVPSでやってる……

*2:サンプル回答はawkだがCentOSなのでawk=gawk

【復習】第16回春だからログ解析するぞシェル芸勉強会:01

まずは準備だけ。今回のシェル芸勉強会は準備段階から篩い落としにきた。

準備1

zcat access_log.nasa.gz |
gawk -vFS='[[ /:]' 'BEGIN{m["Jul"]=7; m["Aug"]=8;} {printf("%04d%02d%02d %02d%02d%02d %s\n", $7, m[$6], $5, $8, $9, $10, $0)}' > access_log

とりあえず書いたのがコレ↑。 月変換用連想配列の準備はもっとスマートな記述がありそう。

結果を確認してみるとおおむね上手くいってるが、稀に日付が2カラム目に出力されるレコードがある。 上手くいかないデータをみると、リクエスト元データに ':' や '/' が入っているケースが存在することがわかった。 マジで……。 ホスト名に英数字とアンダースコア以外使っていいわけ? いや俺が無知なだけでApacheのログにはユーザ名などの付加データが ':' や '/' で区切って追加されるんだきっと。

zcat access_log.nasa.gz |
gawk '{print $4,$0}' |
sed 's/^\[//' |
gawk hogehoge

というわけで日時のカラム($4)のみ切り出して加工する必要があり、 限りなくサンプル回答↓に近づくのであった。

【問題と解答例】第16回春だからログ解析するぞシェル芸勉強会 | 上田ブログ

準備2

準備2はサンプル回答の形式を知っていたのでそのままだった。