CTO 室立ち上げとデータ基盤課題 - キカガクプラットフォームブログ

はじめに
キカガクプラットフォーム
今年何をするのか
データ基盤課題
おわりに

はじめに

皆さんこんにちは、株式会社キカガク CTO の祖父江です。

前回は振り返りの記事で「CTO としての 3 年間 ~組織作りと開発の狭間で~」を書きましたが、今回は新しいチャレンジとして CTO 室を立ち上げたので立ち上げ背景といっしょに働いてくださる仲間を募集するために記事を書きます！

特に、

SRE
情シス
プロダクトマネージャー
データエンジニア

の方は絶賛募集しております！

キカガクプラットフォーム

キカガクプラットフォームのビジョンは「AI×データで人の力を解放し、価値が循環するプラットフォーム」です。プラットフォーム構想では、法人向けに DX 推進支援による組織改革、個人向けに学習支援で機会の提供をすると共に個人ユーザーに対して次の活躍機会を提供できることを目指してきました。

データから振り返るとキカガク for Business のユーザー数は 2023 年頭から現在で約 50 倍になっています。導入が控えている企業も複数あり、まだまだ伸びる予定です。転職・採用支援のキャリア事業は 2023 年からスタートし、転職支援の実績が積み上がってきいます。創業初期から続いているスクール事業もキカガク Learning 機能を活用しながら順調に数値が伸びています。

今年何をするのか

キカガクは従業員数 100 名を超える大きな節目を迎えました。業務委託の方を含めると 200 名弱になります。組織として新たなフェーズに入ったことを実感しますが、今後も持続的で健全に成長するために特に 3 つの分野へ積極的に投資していきます。

AI/LLM
Corporate IT
データ基盤

AI/LLM

直近 1~2 年の AI、特に LLM の成長は目覚ましく、毎日のように新しいサービスや技術が出てきており、弊社も AI 領域の教育を提供しているのでキャッチアップして講義やプロダクト上での機能として提供できるように準備しています。教育×LLM は個別最適化の教育の実現が低コストかつ精度高くできるようになります。

LLM の新技術で良く使われているものをピックアップして簡易にまとめましたが、まとめきれないぐらいにサービスが乱立しています。国産 LLM も複数企業で開発が進められています。日本ローカルに特化した LLM を開発する必要性はこちらのスライド（LLMの現在）がとてもわかりやすかったです。

CTO 室ではプラットフォームへの適用と組織横断的な効率化の二軸を目的に進めています。長期学生インターンの募集も開始しましたので、ぜひ応募してください。

Corporate IT

従業員が増えていく中で日々の活動を安全で効率的におこなうためには Corporate IT への投資が不可欠であり、これには二つの重要な軸があります。一つはシステム化・スケール化、もう一つはセキュリティ強化です。

例えば、これまで毎月数人入社だったのが毎月数十人入社になってくると入社処理、オンボーディング、パッキングだけでも業務負荷が高まります。ツールの導入管理やユーザー毎のアカウント権限管理なども企業がさらに拡大する前に整備しておかないといけません。キカガクでは CFO を中心に管理体制を構築できているのですが、さらに組織が拡大していくとエンジニアリング知識を持ったメンバーがいないと組織のスケールに耐えられません。

また弊社ではフルリモートワークをしている従業員も多いため、リモートワーク化でのセキュアなネットワーク環境づくりなどは改善していく必要もあります。ゼロトラストなセキュリティ環境構築を進めているのですが、実際に導入するとなるといくつか課題も見えてきており、そのあたりも一緒に解決していける仲間を探しています。

データ基盤

データ基盤、データ活用はどこの会社でも自社の優位性を高める上で必須の観点ですので今更言及する必要はないと思いますが、弊社でもプラットフォームの価値を最大化するために、データが一元管理されている状態、社員が誰でもいつでもアドホックなデータ分析ができる状態を年内に構築することを一つの目標としています。

データ基盤は 2 年前から Google Cloud の BigQuery 上に構築を進めており、主に Firestore, GA4 がデータソースとなっています。プラットフォームの主要数値や指標はプロダクト毎に Looker Studio 上で可視化されている状態です。

技術選定としては、

BigQuery
Prefect
Cloud Run

などを活用しています。今後はデータ変換ツールとして dbt の採用も決まり、導入を進めてもらっています。
また今年は CRM として Salesforce の導入も決まっており、Salesforce と BigQuery の統合も進めます。複数のデータソースをリアルタイムに統合することや、そもそもどんなデータソースがどのように全社的に使われているのかから洗い出しをしていく必要があります。

データ基盤課題

現状のデータ基盤ではデータソースが限定的であり、SendGrid や色々なスプレッドシート、Google Drive、Salesforce などの他システムとの統合が行われていません。個別最適化的な構造になっています。またアクセス管理もルール整備から進めていく必要があります。

社内データソースの洗い出し
- まずは各事業部にヒアリングを行い、データソースを洗い出す地道な作業から始めていきます。何でもかんでもデータを統合したいわけではなく、必要なものが使える場所にあることが重要です。
アクセス管理のルール整備
- 誰が触っても同じ数値、指標になるようにクレンジング処理が終わったデータのみを触って貰う必要があります。
- またデータセット、テーブル毎にアクセス権を適切に設定と運用する必要があります。
統合実施の技術選定
- 実際に統合する際にデータ抽出とデータ変換のツールを何にするか、実行基盤はどうするかなどは適宜議論する必要があります。一定技術選定は進んでいますが、ベストな意思決定をするために継続的なディスカッションが必要です。