2026.03.01 21:42

AWS Athena の使いどころ — 「とりあえずS3に溜めたデータ、どう分析する？」問題を解決する

そもそも Athena って何者？

一言で言うと、S3に置いたファイルをそのままSQLで分析できるサービスです。

データベースサーバーを立てる必要はありません。データをどこかにロードする必要もありません。S3にあるCSVやParquet、JSONファイルに対して、直接 SELECT * FROM ... が叩けます。課金はスキャンしたデータ量に応じた従量制（1TBあたり約$5）なので、使った分だけ払えばOK。

AWSの各サービスはログをS3に出力します。ALBのアクセスログ、CloudFrontのログ、CloudTrailの監査ログなど、どれも膨大なテキストファイルです。

これをAthenaでテーブルとして定義すれば、こんなクエリが書けます。

Elasticsearch や CloudWatch Insights でも似たことはできますが、Athena は「すでにS3にあるログ」に対して追加コストほぼゼロで即座に始められるのが強みです。

「ひとまずデータはS3に放り込んでいるけど、ちゃんと分析できていない」という状況、よくあります。Redshift や RDS に入れ直すのはコストも手間もかかる。

Athenaならスキーマを後から定義するだけで分析を始められます。ETLパイプラインが整う前の探索的分析（EDA）フェーズに特に重宝します。

常時稼働するデータウェアハウスを用意するほどでもない、でも手動集計は辛い——そんな「月に数回だけ走らせる集計」にAthenaはぴったりです。RDSやRedshiftなら24時間インスタンスを起動し続けるコストがかかりますが、Athenaはクエリを実行したときだけ課金されます。

AthenaはAWSの他サービスとの親和性が高く、QuickSightのデータソースとして指定するだけでBIダッシュボードが作れます。GlueのData Catalogと組み合わせれば、クローラーが自動でスキーマを検出してくれるので、手動でテーブル定義を書く手間も減ります。

thenaの料金はスキャンしたデータ量で決まるので、ここを工夫するとコストが大幅に変わります。

Parquet / ORC 形式を使う　CSVをそのままクエリするより、列指向フォーマットに変換するだけでスキャン量が10分の1以下になることも。

パーティションを切る　year=2024/month=01/day=15 のようなディレクトリ構造にしておき、クエリの WHERE 句でパーティションを指定すると、不要なファイルを読み飛ばせます。

SELECT * を避ける　必要な列だけ指定するのが基本です。

Athenaはあくまで分析用途なので、以下のような用途には向きません。

SoulImpact株式会社公式ブログ

ソフトウェアの開発/システム技術者の派遣/ITコンサルタント

0コメント