SRE課の飯野です。
2023/12/11(月)〜12(火)の2日間、『CloudNative Days Tokyo 2023』(以下CNDT)が開催されました。
弊社からはわたしが所属するSRE課の他、インフラ開発部の大阪メンバー(出張での参加!)や楽楽精算の開発メンバーなども含め、15名ほどが現地参加しました。
本ブログでは、CNDT参加後に行った社内でのふりかえりの内容をお届けします。
『SRE NEXT 2023』参加時のブログもありますので、よろしければこちらもご覧ください。
目次
CNDTとは?
『CloudNative Days』というコミュニティが手掛けている日本最大級のクラウドネイティブ・テックカンファレンスです。
その名の通り「クラウドネイティブ技術」に焦点を当てており、クラウドネイティブなアーキテクチャや開発手法、ツール、運用等に関するトピックが取り上げられ、最新の動向や実際の現場においてどのような取り組みを行っているかといった情報を得ることができます。
今年もオフライン会場は有明セントラルタワー ホール&カンファレンスにて行われ、オンライン配信もありのハイブリッド方式で開催されました。
今回のテーマは「+Native ともに飛び出せ!」とのこと。
"CloudNative Days"は、技術を学び、技術と人・人と人の繋がりを深めるテックカンファレンスです。
コロナ禍で生じたコミュニティの分断を乗り越え、一体感を再び取り戻し、仲間や友達と共に成長しましょう。
今回は分断されたコミュニティを再集結するための一歩として、東京で開催します!
みなさんの所属組織の垣根を飛び越え、CloudNativeを元に交流する場に飛び込みませんか?
"CloudNative"を学び、新たな世界に飛び出しませんか?
さあ、ともに飛び出しましょう。
"CloudNative Days"で、新たな繋がりと成長をお楽しみください。
(公式サイトより)
申込者数はなんと2,000名を超えていたようです、界隈の盛り上がりを感じますね〜。
当日の様子
タイムテーブル
両日共に午前の部は各20分×6本のKeynoteがあり、午後は休憩を挟みつつ4トラック同時開催で各40分ずつのセッションが行われました(スポンサーセッション含む)。
その他、現地では技術コミュニティによるLT大会や、美味しいコーヒーを飲みながら交流ができる「ゆるカフェ」スペース、ついつい貯めがちなステッカーを集約できちゃう御朱印帳作りなど、様々な企画が行われていました。
スポンサーブースで開催されていたスタンプラリーもとても盛り上がっていました〜(おみやげたくさん!)。
また、1日目のセッション終了後には懇親会も行われました。
ふりかえりやってみよう
さて、今回も現地参加の熱が冷めやらぬうちに、インフラ開発部(SRE/大阪)のメンバーで後日さっそくふりかえりを実施してみました。
実施するにあたって、事前に用意したフォーマットは下記です。
# 印象に残ったセッション ## タイトル ## 登壇者情報 ## スライド ## セッション概要 - セッションの内容を簡潔に ## 共有したい点、感想等 - どんな点に共感したか、疑問に思ったこと等 --- # 今後実施/挑戦したいこと - 参加してみてアクションを起こしたくなったものが何かあれば # 全体を通しての感想 - 率直な感想をご自由に
それぞれが印象に残ったセッションを選択し、セッション概要と共有したい点/感想等を事前にまとめてもらいました。
以下、実際にまとめてもらったふりかえりの内容を一部ご紹介します。
大阪インフラ/U氏のまとめ
noteのKubernetes移行、ゼンブ見せます
セッション概要
- 2023年9月に本番稼働の全てのアプリケーションをKubernetesに移行したプロジェクトで行ったことについて
共有したい点、感想等
- 新規サービス立ち上げでなく、既存環境への移行の場合はサービスの継続性を重要視する為、綿密な計画とステップを踏みながら行っている
- 移行完了は年単位レベルになる為、自社で行う場合は複数サービスがある為、移行是非の検討は慎重に行いたい
今後実施/挑戦したいこと
- 開発への環境提供を高速に行うために、まずは自社内のKubernetesベストプラクティス環境を策定し、その後にPrehubのようなものを作成し開発者体験向上に貢献していきたい
全体を通しての感想
- コロナ明けによりオフライン開催が増え、久々の大型イベントの参加だった為、素直に楽しかった
- Kubernetes歴はまだ1年未満だが社内でも詳しい人があまりおらず、自分の中の「?」の回答を得る為に情報収集するのがとても大変だったが、各社ブースや登壇者、Kubernetes界隈の方々と直接意見交換することで正解に近い答えが得られたりと有意義な時間が得られた
大阪インフラ/M氏のまとめ
100万コンテナのKubernetesプラットフォームを5年間スケーラブルに運用するために乗り越えていること
セッション概要
共有したい点、感想等
- 運用されているクラスタ数(1600)、コンテナ数(100万超)に圧倒された
- この規模の基盤を運用するには、トイルの徹底削減も必須になることが分かった
- 信頼性向上のためのSLIを用いた監視拡充を進めたことにより増加したアラートを削減するプロセスが参考になった
- アラートを洗い出し、以下4つに分類
- Noisy Alerts: すぐ直る一時的なアラート、監視の問題
- Easy-Easy Alerts: 原因究明、対応手順が簡単
- Easy-Hard Alerts: 原因究明は簡単だが、手順が明確でない
- Hard-Hard Alerts: 原因究明が難しい、手順もない
- アラートを洗い出し、以下4つに分類
今後実施/挑戦したいこと
- Kubernetes未導入のサービスでも現状通ずること(トイル・アラート削減など)があったので、まずは改善できるところから実践していきたい
- 知識不足から難しいと感じる内容もあったので、引き続き情報をインプットしていきたい
全体を通しての感想
大阪インフラ/A氏のまとめ
これからのPlatform Engineeringを支えるコンテナ×Backstageの真価
セッション概要
- クラウドネイティブにおける開発で、認知負荷が高まっている
- Docker, Kubernetes, Git, Security, TestTools, CI/CDなどの多種多様なツール
- PlatformEngineeringの力で開発者の道筋を整備・誘導し、開発生産性を向上させる
- そのために『開発環境・ルール・ノウハウ』を一括で提供する
- 仕組みとしてGoldenPath:開発のベストプラクティスを動作環境とサンプルアプリと一緒に開発者に提供
- ツールとしてBackstage:開発者ポータル、ツール類のカタログのようなイメージ
- Backstageで開発&運用ノウハウの『集約・展開』を支援、GoldenPathで『習得・体系化』でブラシュアップしていく
共有したい点、感想等
- 開発者に限らず、インフラ側でもBackstageのようなポータルがあることで、例えばノウハウ共有や新規参入メンバの立ち上がりを高速化するなどの恩恵を受けられそう
- クラウドネイティブな開発に限らず、GoldenPathやBackstageのエッセンスを取り入れられる部分がないか調査/改善していきたい
今後実施/挑戦したいこと
- オブザーバビリティ/Platform Engineering面白い、どんどん学習して改善に繋げていきたい
- クラウドネイティブ技術をまずはハンズオンから実践してみる
全体を通しての感想
- 凄いところに来た感はありつつも、活発な技術カンファレンスで刺激を受けられたため、また参加したい
SRE課/U氏のまとめ
Kubernetes Persistent Volume 向けゾーン障害への備え
セッション概要
- KubernetesでPersistent Volumeを利用する上で、ゾーン障害とどのように向き合っていくか
- 前提知識となるKubernetesの基礎知識もすこし
共有したい点、感想等
- クラスター構成別にどのような形でPVを扱うべきかが簡潔にわかる
- そもそもPVを必要とするアプリケーションが悪という認識が強まる
今後実施/挑戦したいこと
- ステートレスなアプリケーション開発を徹底しようと決意した
- 逆にPVが必要になるユースケースについてもっと学ぶべきだと思った
全体を通しての感想
- 昨年参加した時よりもクラウドネイティブ周りの知識が少しはついた実感があった(成長を感じた)
- 初心者〜上級者向けのセッションまで幅広くあり、初心者にもぜひ参加を薦めたい
- 一部登壇者の異次元感でモチベが上がった
SRE課/S氏のまとめ
クラスターを分割するという運用の現実解 ~Pod を VM のように使い始めたら見えてきた世界~
www.slideshare.net
セッション概要
- VMからコンテナ(Kubernetes)に移行して良かったこと
- 協力会社がVMを使用していたため、開発環境の構築時間を大幅に削減し、人的エラーを解消できた
- Dockerfileは開発チーム自身でGit管理し自由にカスタマイズが可能に
- Kubernetesで運用していく中で出てきた課題
- しばらくコンテナで運用していると、開発環境の動作が全体的にもっさりしはじめた
- Kubernetesのバージョンアップが行いづらい
共有したい点、感想等
- 運用していく中で、構築時に予想していなかった課題は都度出てくるものだと思うので、載せてからがスタートだと身に染みた
- 今後の構築において学びが多かった
- クラウドネイティブ初心者にぜひ聞いてほしいセッションだと思った
今後実施/挑戦したいこと
- CNDTで聞けた内容を実務で挑戦、取り入れていきたい
- アプリケーションをKubernetes上に載せてからの実運用
全体を通しての感想
- 去年参加した時は右も左もわからない状態であったが、今年は聞いたことがないワードが少なく楽しく拝聴できた
- 去年と比べて少しは成長した
- 去年よりクラウドネイティブが身近に感じるようになった
SRE課/I氏のまとめ
決済システム内製化のその先に 〜 クラウドネイティブな開発を"スケール"させるために必要だったこと
セッション概要
- 5年前に内製化された決済システムが、月日を経て規模が大きくなりどのようにスケールさせたか
- 一部リソースをクラウドからオンプレ、内製から外注に移行しており、それぞれを進める上で生じた課題解決の知見を紹介
共有したい点、感想等
- クラウドネイティブなシステムを内製から外注に移行するのは相当ハードルが高いことだと思ったが、とても丁寧にイネイブリングしていたのが印象的だった
- 新しい取り組みを始めるにあたって、まずは動く実物なりサンプルを用意してからガイドラインに落とし込みレクチャーするという流れは対象が何だとしても重要
- プラットフォームが用意されていることで「開発者が安心して開発に注力できる」という点は、気持ちの面で学びになった
今後実施/挑戦したいこと
- 立場的に、クラウドネイティブな環境をどう用意しどのように展開していくかを考えることが多いので、レクチャーマインドを参考にしていきたい
- 泥臭い活動ですけど価値はありありですよねと常に思う
- 会社としてこの分野に一丸となって取り組めるように文化醸成頑張る、と共に説得力をつけるためにインプット邁進
全体を通しての感想
- CNDTは初参加だったが、普段課内で触れているキーワードが多かったのでクラウドネイティブにしっかり取り組めているなと自信がついた
- SRE課以外の他チームも現地参加していて、単純に嬉しかった!仲間が増えてる!
SRE課/I氏のまとめ
GitOpsで実装するKubernetesセキュリティ -攻撃者が考えるアタックシナリオとOSSを活用した守り方-
セッション概要
- パブリックなリポジトリにアップされた非公式のコンテナイメージを利用することによる攻撃シナリオの例を解説
- 攻撃用コンテナイメージへの対策として、OPA(GateKeeper)を利用したAdmission Controllerによるイメージ取得元のバリデーションチェック導入のハンズオンを実施
共有したい点、感想等
- イメージ上のOSやライブラリの静的スキャンはtrivyでも実施できるが、今回の攻撃例はコンテナ起動時にバックドアを作ってコンテナ内部に侵入するというものだったのでtrivyでは防げない
- コンテナ起動後の不審な挙動の検知まで行けなくても、コンテナイメージ取得元のチェックだけで相当多くの攻撃が防げる、かつそこまで導入の難易度は高くなさそうなので、是非導入すべきだと思う
- チェックロジックはRegoで書かれていたが、簡単なものであればサンプルも多いので導入は難しくなさそうに感じた(GitHubリポジトリ)
今後実施/挑戦したいこと
- コンテナイメージ取得元のチェックを実行(GateKeeper使うのかはさておき)
- Kubernetes特有のセキュリティの学習
全体を通しての感想
- 東京のインフラ開発部内で「基礎から学ぶコンテナセキュリティ」の輪読会をやっているが、あくまでコンテナ(docker)に閉じているので、Kubernetesに適用した際にどのような技術や対策があるのかの知見をインフラ開発部内で高めるべきだと感じた
SRE課/I氏のまとめ
(※なぜかSRE課はIがつく人が多い)
計測の手間を省きたい!OpenTelemetry に見る”自動計装”のイマ
セッション概要
- オブザーバビリティ、計装、OpenTelemetry(以下OTel)について
- OTel計装の基礎
- OTelの"自動"計装
- OTel計装(自動/手動)のデモ
- 補足情報(Kubernetes Operatorでの自動計装、Goへの自動計装 by eBPF)
共有したい点、感想等
- 自動計装を使うと、自社へのTraceの導入がスムーズに進むかもしれない
- アプリケーションの改修が不要というところがポイント
- ラクスはインフラとアプリケーション開発で組織が分かれているため、インフラ発案でTrace導入を進めるとなると、アプリケーション開発への協力依頼が必要になる
- 手動計装の場合、机上での説得が必要
- 自動計装の場合、とりあえず実装してデモを見てもらえるし、TraceのON/OFFも容易であるため本番での導入障壁も低い
- 逆井さんの「オブザーバビリティは横断的関心事。組織間には必ずオブザーバビリティ"格差"が存在する」という言葉が染みた
今後実施/挑戦したいこと
- Kubernetes上のサービスに対し、分散トレーシングを導入する
- Java系サービスのアプリケーションに自動計装を注入してデモ→導入
- OTelCollectorを導入
- Kubernetes上のMWもTrace/Spanを出すようにインスツルメンテーションする
- バックエンドはGrafana Tempoで実装
- 問題なければ本格導入へ
全体を通しての感想
- 自社にオブザーバビリティを導入するステップが少しイメージできた、面白かった!
SRE課/M氏のまとめ〜その1〜
Wasm is becoming the runtime for LLMs
セッション紹介ページ ※スライドなし/リンク先に動画あり
セッション概要
- Wasmを利用して超軽量かつ、高性能なLLMアプリを実現
共有したい点、感想等
- Wasm(WASIのがいいのかな)って何が良いの? どうすごいの? という感覚の方に見てもらいたい
- 私もそうですが、何がすごいのか良く分かっていなかった人にその効果を見て驚いて欲しい
- Wasmの単語は知っていましたが、実用的な事例で改めて素晴らしさを感じた
- 個人的にはコンテナランタイムのゲームチェンジャーになる可能性を感じたのでものすごくワクワクするセッションだった
今後実施/挑戦したいこと
- Wasm周りについて情報が追えておらず、ヤバさを感じてWasmEdgeをインストールして簡単なデモを動かしてみた
- 今後もドンドン革新的な変化を遂げそうなのでWasmの動向はチェックしていきたい
全体を通しての感想
- Wasmという単語しか分かっていなかった自分にその必要性や効果をしっかりと示してくれるセッションだった
SRE課/M氏のまとめ〜その2〜
マイクロサービスの信頼性を支えるオブザーバビリティとサービスメッシュ
セッション紹介ページ ※スライドなし/リンク先に動画あり
セッション概要
- マイクロサービスにおいてサービスメッシュを利用することで信頼性を向上させる方法について解説
- SLIやSLOといった信頼性に必要な概念から、実際にサービスメッシュを利用してどういったことが出来るのかの紹介
共有したい点、感想等
- 信頼性やオブザーバビリティといった概念を把握出来る
- サービスメッシュとは何なのかその概念を把握出来る
- サービスメッシュを利用した自動計装についてその概要を理解出来る
今後実施/挑戦したいこと
- サービスメッシュの利用を検討していたところだが、信頼性の点で有効活用することは考えていなかった
- 本セッションで紹介された機能を利用することで、アプリケーションエンジニアの負担を軽減しながら信頼性の向上を目指すヒントを得られたと思う、今後は実際の導入に向けて検討を進めたい
全体を通しての感想
- サービスメッシュのことは知っていたが、詳しい機能については知識が不足していた
- このセッションを通して有効な利用方法の一端を把握することが出来た
総括
以上、『CNDT』に参加したメンバーのふりかえりの内容をご紹介しました。
単純にインプットが増えただけでなく、参加者同士での情報共有や議論の場が持てたことで、理解をより深めることができたのではないかと思います。
こういった大型イベントは自社や個人の取り組みをふりかえる良い機会にもなりますし、何より参加者が刺激を受けてモチベーションが上がるのが嬉しいですね。
スタッフの皆さま、登壇者の皆さま、企画運営本当にお疲れ様でした。そしてありがとうございました!
次回の開催は北海道か沖縄という噂?
SREの課長は必ず現地参加するのでw、現地レポートに期待しましょう!