labunix's blog

labunixのラボUnix

ワンライナーで接続元毎、閲覧先毎の接続回数の集計(改)

■ワンライナーで接続元毎、閲覧先毎の接続回数の集計()
 100回以上アクセスという制限があれば気にならないが、
 以下だと画像やCSS等の付随するページも集計されてしまう。

 アクセスログからワンライナーで接続元毎、閲覧先毎の接続回数の集計をしてみる。
 http://labunix.hateblo.jp/entry/20151007/1444203751

■「.js」を除くのが良いか悪いかは別として、
 SquidGuardのDBに追加するべきサイトを確認するときは
 以下のようにすれば、画像やCSS等の付随するページを除外して探せます。

$ sudo cat /var/log/squid3/access.lo{g,g.1} | \
    awk -F\" '(/GET .* 200 / || /CONNECT .* 200 /) && \
              !/.png|.jpeg|.jpg|.gif|.json|.js|.ttf|.css|.ico/\
              {cnt[$2]+=1};END{for (key in cnt) \
                              {print cnt[key],key}}' | \
    sed -e 's% HTTP/...%%g' | sort -nr | less