メタバースプロジェクトにおけるObservability構築とユーザー視点での信頼性可視化の現在地
2025年7月11日SRE NEXT LT
1
1
自己紹介
2
sugar cat
CTO室インフラチーム所属
ホロアースのSRE(2024/10~)
ホロアースについて
01
3
3
ホロアースについて
2025年4月に正式リリースを迎えたホロアース�
4
4
ホロアースについて
5
SREのロードマップと課題
02
6
6
ホロアースSREロードマップ
7
2025/4
2025/10
2026/4
2024/10
サーバーサイドのテレメトリデータを
Datadogへ集約
UGCリリースの
負荷試験・インフラ構築支援
API Gateway/Kubernetes移行
監視基盤構築/インフラ構築支援
インフラ構成の見直しと
プラットフォームエンジニアリング
SLI/SLO
導入推進
クライアントサイドへのSentry導入
リアルタイム通信の
Kubernetesの運用改善
アラート運用改善
エラートラッキング実装
SLO導入計画策定
UJの洗い出しと成功率の可視化
SLI定義
新規リリースのインフラ構築支援
SLO定義
2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直しやプラットフォームエンジニアリングを進めている
ホロアースSREロードマップ
8
2025/4
2025/10
2026/4
2024/10
サーバーサイドのテレメトリデータを
Datadogへ集約
UGCリリースの
負荷試験・インフラ構築支援
API Gateway/Kubernetes移行
監視基盤構築/インフラ構築支援
インフラ構成の見直しと
プラットフォームエンジニアリング
SLI/SLO
導入推進
クライアントサイドへのSentry導入
リアルタイム通信の
Kubernetesの運用改善
アラート運用改善
エラートラッキング実装
SLO導入計画策定
UJの洗い出しと成功率の可視化
SLI定義
新規リリースのインフラ構築支援
SLO定義
2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直やプラットフォームエンジニアリングを進めている
まずはクライアント・サーバーともにエンジニアがシステムの内部状態を観測可能な状態にすることが最優先
現在のシステム構成
9
現在のシステム構成
10
クライアント
・ホロアース(Desktop App): Unity
・クリエイター用ツール(Web): React, WebGL
メインのホロアースを遊ぶためのUnityビルドとUGCコンテンツを作成するためのWebサイトを開発・運用
現在のシステム構成
11
●API サーバー
●リアルタイムサーバー
各機能ごとに別々のサーバーチームで開発・運用
現在のシステム構成
12
各種テレメトリデータはクライアント・サーバーごとそれぞれ監視Saasへ集約
クライアントサイド:Sentry
サーバーサイド:Datadog
課題1: 監視基盤の整備
13
[課題]
・クライアントサイド: コストの兼ね合いでチーム全体での監視が満足に行えていなった。
・サーバーサイド: ECS/EKS上で動くアプリ内で複数のAgentが併用されており、一部で重複してメトリクスを収集していた。
課題1: 監視基盤の整備
14
[課題]
・クライアントサイド: コストの兼ね合いでチーム全体での監視が満足に行えていなった。
・サーバーサイド: ECS/EKS上で動くアプリ内で複数のAgentが併用されており、一部で重複してメトリクスを収集していた。
[クライアントサイド]
Sentryを導入しチーム全体で利用を促進、補足したエラーの改善がリリースに含まれるようになった。
[サーバーサイド]
Datadogに全てのサービスのテレメトリデータを集約しコスト削減、各チームが利用しやすいようにダッシュボードの整備を行った。
課題2: アラート運用の整備
15
[課題]
・システムコンポーネントのメトリクスによるSLOアラートが準備されていたが、サービスの品質改善に活かせていない
課題2: アラート運用の整備
16
[課題]
・システムコンポーネントのメトリクスによるSLOアラートが準備されていたが、サービスの品質改善に活かせていない
自動計装を活用し分散トレースを改善、APMの活用をしやすい基盤を整備した。
APIサーバのエンドポイント、非同期ジョブごとのアラートを再定義し、より開発者がサービスの品質改善に生かしやすい環境を構築した。
課題3:CUJの洗い出しとビジネスメンバーへの可視化
17
[課題]
・システムの稼働状態の把握がエンジニアに閉じてしまい、ビジネス上の機会損失を定量的に測るためのSLOが定義されていない
課題3:CUJの洗い出しとビジネスメンバーへの可視化
18
[課題]
・システムの稼働状態の把握がエンジニアに閉じてしまい、ビジネス上の機会損失を定量的に測るためのSLOが定義されていない
機能単位でホロアースの稼働状態を定量的に確認できるようにするためにユーザージャーニー(UJ)を整理。
前段で整理したUJとトレースデータを元に、API側で観測可能な範囲でユーザー数ベースの影響範囲(成功率)をダッシュボードで可視化し、メンバー全体へ展開・運用を開始した。
今後の展望
03
19
19
ホロアースSREロードマップ
20
2025/4
2025/10
2026/4
2024/10
サーバーサイドのテレメトリデータを
Datadogへ集約
UGCリリースの
負荷試験・インフラ構築支援
API Gateway/Kubernetes移行
監視基盤構築/インフラ構築支援
インフラ構成の見直しと
プラットフォームエンジニアリング
SLI/SLO
導入推進
クライアントサイドへのSentry導入
リアルタイム通信の
Kubernetesの運用改善
アラート運用改善
エラートラッキング実装
SLO導入計画策定
UJの洗い出しと成功率の可視化
SLI定義
新規リリースのインフラ構築支援
SLO定義
2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直やプラットフォームエンジニアリングを進めている
インフラ構成・運用の全体的な見直しとオブザーバビリティのコントロールをプラットフォームチームで行えるような基盤を作る
展望: Kubenetes移行によるゴールデンパスとAPI Gatewayの構築
21
AWSアカウントの分断によるネットワークや各種リソースの管理の複雑性が増している
→Kubenetes移行+API Gatewayを構築でプラットフォームチームによるコントロールを目指す
まとめ
22