第19回 「エンジニアリング・スペシャリストとしてのキャリアを楽しむ」 Google サイト・リライアビリティ・エンジニアの仕事とは?

エンジニアリング・スペシャリストとしてのキャリアを楽しむ

(c) Ralwel | Dreamstime.com

Seattle IT Japanese Professionals

この方にインタビュー:
細川 一茂(ほそかわ かずしげ)さん
サイト・リライアビリティ・エンジニア(SRE)。カークランド市のオフィス勤務。2008年に Google 日本法人に入社したのち2013年に米国法人に転籍。Google 入社前はアスキー、サンマイクロシステムズ、日興シティグループ証券などでエンジニアとして活躍。

渡米

アメリカで仕事をするようになったきっかけは?

もともと Google の東京オフィスで SRE として働いていたのですが、社内での組織変更に伴って東京のチームが解散となったのが、渡米のきっかけです。アメリカ以外にも選択肢はあったのですが、「やはり IT の本場であるアメリカで一度は仕事をしてみたい」と思っていたので、転籍することを選びました。シアトルに来て今年で3年になります。

3年経過して、いかがでしょう?

来てよかったと思っています。英語やコミュニケーションに関してはやはりチャレンジがありますが、チームメイトにも恵まれ、今担当している仕事が面白く、グローバルチームの中で高い目標に向かってやる仕事はやりがいがあり、日々楽しく仕事をしています。また、日本と比べると仕事の仕方や日々の生活に柔軟性があり、自分で決められる範囲が大きいことも、仕事をする上ではとてもいいですね。

サイト・リライアビリティ・エンジニアとは

サイト・リライアビリティ・エンジニア(SRE)って、そもそもどんな仕事なんでしょうか?

簡単に言うと、Google のサービスやインフラの信頼性にフォーカスしたエンジニアです。ご存知の通り、Google のサービスはインターネット上で提供されていますが、それを実現するためには、開発部門が開発したソフトウェアをデータセンターのサーバー群で稼働させ、世界中のユーザーがいつでもどこでも問題なくアクセスして使える状態に保つ必要があります。

SRE は、そのサービスの状態の把握や信頼性に関わる部分で必要な改良を行います。また、問題が発生した場合には、迅速に解決します。SRE のチームはアメリカだけでなく、世界に点在するグローバルチームとして、24時間365日サービスを提供できる体制を整えています。最近出版された SRE についての書籍が参考になると思います。

今の仕事で面白いこと、楽しいことは?

SRE の役割はとても幅が広く、勉強できること、しなければならないことがたくさんあります。サービスの運用監視に加え、問題が発生した場合にはその原因を追究して対応します。具体的には、問題発生時のサービスの状況の確認や記録されたログを解析し、ソフトウェアのソースコードの不具合箇所を特定します。その結果、ソフトウェア自体を修正することもありますし、より信頼性を高めるためにサービスの実装を改良するプロジェクトを立ち上げたりもします。

私はもともとシステム・アドミニストレータ(注: 企業ITシステムの運用管理を担当する役割)の経験もあるのですが、チームメンバーにはソフトウェアエンジニアの経験を持ったメンバーもいます。仕事を通じて学べること、広がることがまだまだたくさんある、とてもチャレンジングなポジションだと思います。

日々の生活は?

子供の朝練のため、午前6時30分頃に子供を学校まで送り届け、一旦帰宅して朝食を済ませたあと、午前9時頃に出社します。

渋滞を避けるため、通常は午後6時過ぎに会社を出ますが、子供の送り迎えをする日は午後5時前に会社を出て、夕食後にまた仕事をするという感じでしょうか。 先ほどもお話しした通り、勤務の形態については自己裁量で柔軟に対応できます。周りからのプレッシャーがなく、家庭の状況に応じてオフィスでの勤務等を調整できるのは、アメリカで働くメリットの一つだと思います。

とはいえ、SRE の役割は24時間サービスを提供することにあるので、電話で常に対応できる状態でいなくてはならない「オンコール」という当番の週が約1〜1.5ヶ月ごとに一度あります。その夜間はヨーロッパのチームが担当するので夜中の対応する必要はありませんが、早朝や夕方から夜にかけて対応しなければならないようなことはありますよ。

SRE ならではのユニークな業務は?

Google のサービスは、データセンターが地震や台風などの災害に襲われても常に提供できる必要があるので、ディザスタ・リカバリがきちんと機能することはとても重要です。 といっても実際に災害が頻繁にあるわけではないので、DiRT(Disaster Recovery Testing, DiRT について興味のある方はこちら)と呼ばれる全社規模のテストを定期的に行いますが、その方法がユニークですね。

各部署が想定シナリオに沿って点呼確認しながら行う一般的な災害訓練とは違って、実際のプロダクション環境をこっそり意図的に変更し、障害のシミュレーションを行うのです。 DiRT がいつの週に行われるかの情報以外は、いつ、どんな訓練が行われるのかは事前に知らされないので、実際に起こったときと同じような緊張感の中でテストが行われます。たまたま DiRT の週に当番になったときは大変ですよ。テストとはいえ、全社的に障害が頻繁に起こるので非常に気を使います。

訓練に参加するだけではなく、テストシナリオを書くことも役割上あるのですが、これもまた大変です。実際に問題が発生したときに使えるものである必要があり、かつユーザに影響を与えないよう細心の注意を払うので、準備にかける時間も規模も結構なものです。DiRT のようなよりリアルな災害訓練は、日本の企業ではちょっとないかもしれないですね。

これからのキャリア

これからのキャリアについて、どう考えていますか?

スペシャリストとして今後も自分のキャリアを積み上げていきたいと考えているのですが、ここには管理職以外にもさまざまな機会、特に専門職の機会が多くあるのは、私のようなエンジニアにとってはよいところです。

今の仕事が気にいっていますし、先ほどもお話ししたように、今のポジションは技術的にも非常に幅が広いので、まだまだ楽しんでいきたいですね。

ありがとうございました。

取材・執筆:保坂 隆太
Seattle IT Japanese Professionals 会長。現職は Microsoft Corporation にて 社内IT部門のプログラム・マネジャー(ビジネスインテリジェンス・ビッグデータ)。東京生まれ/育ち。法政大学大学院システム工学研究科卒。40年以上の日本生活ののちに2012年からシアトル在住。シアトルに来てからアウトドアが楽しくて仕事よりも休日が忙しい。詳細プロフィール

インタビュー: 11月11日 @ Google カークランドオフィス
掲載:2016年12月

この記事は、参考情報の提供のみを目的としており、法的その他の専門的助言を提供するものではありません。この記事に記載する情報に基づくいかなる行為およびその結果について、筆者および SIJP は一切責任を負いません。また、掲載内容は対談者個人の見解であり、所属する企業を代表するものではありません。

コメント

この記事にコメントする

※コメントは承認制です。公開までに時間がかかることがあります。
※弊社へのご連絡にはお問い合わせフォームをご利用ください。コメント欄はご使用になれません。
※内容によって掲載をお断りする場合もありますので、あらかじめご了承ください。

「ひと」の新着コメント

このカテゴリーのコメントはありません。

Fandango Now Tickets for AMC Theatres!