Azkabanを使って依存関係のあるジョブの管理を行う(インストール編)

こんにちは、高橋@SSTDです。 複数のサービス間でデータ連携したりするには、データフローの中に必ずバッチ処理が必要となります。 これは、ビッグデータを扱う際にも同様で、全ての処理をリアルタイムに行うことは残念ながら難しく、Hadoop等の大規模分散処理を得意とするバッチ処理型ツールを用いて、データの正規化等を行う必要がでてきます。 このようなシステムの運用を行うときには、依存関係が複雑になってしまい、バッチ処理のエラーハンドリングやエラー通知、障害発生時のリトライが非常に重要となります。 この問題を解決するために、linkedin社が中心に開発を進めているオープンソースのジョブ管理システムAzkabanについて、今回はご紹介します。

Tableau Server/OnlineへTreasureDataのクエリ実行結果を出力する

こんににちは、SSTDの髙橋です。 先日、トレジャーデータのResult Outputの新機能として、Tableau Server/Onlineへのクエリ結果書き出しが可能になりました。 これによって、Tableau Server/Onlineでダッシュボードを作っておくだけで、 データの定期更新ができるようになります。 今回はTableau Onlineを使って、この機能について紹介していきます。