1 of 22

メタバースプロジェクトにおけるObservability構築とユーザー視点での信頼性可視化の現在地

2025年7月11日SRE NEXT LT

1

1

2 of 22

自己紹介

2

sugar cat

CTO室インフラチーム所属

ホロアースのSRE(2024/10~)

3 of 22

ホロアースについて

01

3

3

4 of 22

ホロアースについて

2025年4月に正式リリースを迎えたホロアース�

  • Windowsでプレイ可能なメタバースプラットフォーム
  • タレントとともに楽しめるオープンワールドゲーム

4

4

5 of 22

ホロアースについて

5

6 of 22

SREのロードマップと課題

02

6

6

7 of 22

ホロアースSREロードマップ

7

2025/4

2025/10

2026/4

2024/10

サーバーサイドのテレメトリデータを

Datadogへ集約

UGCリリースの

負荷試験・インフラ構築支援

API Gateway/Kubernetes移行

監視基盤構築/インフラ構築支援

インフラ構成の見直しと

プラットフォームエンジニアリング

SLI/SLO

導入推進

クライアントサイドへのSentry導入

リアルタイム通信の

Kubernetesの運用改善

アラート運用改善

エラートラッキング実装

SLO導入計画策定

UJの洗い出しと成功率の可視化

SLI定義

新規リリースのインフラ構築支援

SLO定義

2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直しやプラットフォームエンジニアリングを進めている

8 of 22

ホロアースSREロードマップ

8

2025/4

2025/10

2026/4

2024/10

サーバーサイドのテレメトリデータを

Datadogへ集約

UGCリリースの

負荷試験・インフラ構築支援

API Gateway/Kubernetes移行

監視基盤構築/インフラ構築支援

インフラ構成の見直しと

プラットフォームエンジニアリング

SLI/SLO

導入推進

クライアントサイドへのSentry導入

リアルタイム通信の

Kubernetesの運用改善

アラート運用改善

エラートラッキング実装

SLO導入計画策定

UJの洗い出しと成功率の可視化

SLI定義

新規リリースのインフラ構築支援

SLO定義

2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直やプラットフォームエンジニアリングを進めている

まずはクライアント・サーバーともにエンジニアがシステムの内部状態を観測可能な状態にすることが最優先

9 of 22

現在のシステム構成

9

10 of 22

現在のシステム構成

10

クライアント

・ホロアース(Desktop App): Unity

・クリエイター用ツール(Web): React, WebGL

メインのホロアースを遊ぶためのUnityビルドとUGCコンテンツを作成するためのWebサイトを開発・運用

11 of 22

現在のシステム構成

11

●API サーバー

●リアルタイムサーバー

各機能ごとに別々のサーバーチームで開発・運用

12 of 22

現在のシステム構成

12

各種テレメトリデータはクライアント・サーバーごとそれぞれ監視Saasへ集約

クライアントサイド:Sentry

サーバーサイド:Datadog

13 of 22

課題1: 監視基盤の整備

13

[課題]

・クライアントサイド: コストの兼ね合いでチーム全体での監視が満足に行えていなった。

・サーバーサイド: ECS/EKS上で動くアプリ内で複数のAgentが併用されており、一部で重複してメトリクスを収集していた。

14 of 22

課題1: 監視基盤の整備

14

[課題]

・クライアントサイド: コストの兼ね合いでチーム全体での監視が満足に行えていなった。

・サーバーサイド: ECS/EKS上で動くアプリ内で複数のAgentが併用されており、一部で重複してメトリクスを収集していた。

[クライアントサイド]

Sentryを導入しチーム全体で利用を促進、補足したエラーの改善がリリースに含まれるようになった。

[サーバーサイド]

Datadogに全てのサービスのテレメトリデータを集約しコスト削減、各チームが利用しやすいようにダッシュボードの整備を行った。

15 of 22

課題2: アラート運用の整備

15

[課題]

・システムコンポーネントのメトリクスによるSLOアラートが準備されていたが、サービスの品質改善に活かせていない

16 of 22

課題2: アラート運用の整備

16

[課題]

・システムコンポーネントのメトリクスによるSLOアラートが準備されていたが、サービスの品質改善に活かせていない

自動計装を活用し分散トレースを改善、APMの活用をしやすい基盤を整備した。

APIサーバのエンドポイント、非同期ジョブごとのアラートを再定義し、より開発者がサービスの品質改善に生かしやすい環境を構築した。

17 of 22

課題3:CUJの洗い出しとビジネスメンバーへの可視化

17

[課題]

・システムの稼働状態の把握がエンジニアに閉じてしまい、ビジネス上の機会損失を定量的に測るためのSLOが定義されていない

18 of 22

課題3:CUJの洗い出しとビジネスメンバーへの可視化

18

[課題]

・システムの稼働状態の把握がエンジニアに閉じてしまい、ビジネス上の機会損失を定量的に測るためのSLOが定義されていない

機能単位でホロアースの稼働状態を定量的に確認できるようにするためにユーザージャーニー(UJ)を整理。

前段で整理したUJとトレースデータを元に、API側で観測可能な範囲でユーザー数ベースの影響範囲(成功率)をダッシュボードで可視化し、メンバー全体へ展開・運用を開始した。

19 of 22

今後の展望

03

19

19

20 of 22

ホロアースSREロードマップ

20

2025/4

2025/10

2026/4

2024/10

サーバーサイドのテレメトリデータを

Datadogへ集約

UGCリリースの

負荷試験・インフラ構築支援

API Gateway/Kubernetes移行

監視基盤構築/インフラ構築支援

インフラ構成の見直しと

プラットフォームエンジニアリング

SLI/SLO

導入推進

クライアントサイドへのSentry導入

リアルタイム通信の

Kubernetesの運用改善

アラート運用改善

エラートラッキング実装

SLO導入計画策定

UJの洗い出しと成功率の可視化

SLI定義

新規リリースのインフラ構築支援

SLO定義

2024年10月から最終目標のSLI/SLOアラートの運用を見据えて、監視基盤およびインフラ構成の見直やプラットフォームエンジニアリングを進めている

インフラ構成・運用の全体的な見直しとオブザーバビリティのコントロールをプラットフォームチームで行えるような基盤を作る

21 of 22

展望: Kubenetes移行によるゴールデンパスとAPI Gatewayの構築

21

AWSアカウントの分断によるネットワークや各種リソースの管理の複雑性が増している

→Kubenetes移行+API Gatewayを構築でプラットフォームチームによるコントロールを目指す

22 of 22

まとめ

22

  • 監視基盤の構築やUJの可視化によってSRE文化の形成の足がかりを作った
  • 将来的にはプラットフォームチームを設けてアプリケーションのプラットフォームの運営を目指す