多国籍従業員向け音声AI日報システム
多国籍の従業員が母国語で録音した日報をテキスト化・翻訳し、管理者が日本語で状況確認とフィードバックを行えるSaaS。16言語に対応。
課題
従来の面談形式では、時間的制約や心理的ハードルが高く、十分なケアが難しく、従業員のメンタルヘルス問題が増加していた。
ソリューション
母国語で録音した日報を文字起こし・翻訳し、管理者が日本語で確認できるアプリを開発。リスクの高い投稿を見逃さないためのアラートや質問テンプレートも用意した。
成果
従業員の変化を早期に把握し、面談前の状況確認に使える運用を整備
チーム
1 member, 2 months
PM・エンジニアリング全般
役割
要件整理、画面設計、音声処理、権限管理、運用設計を担当。
現場で使う日報フォーマットや管理者の確認フローを踏まえ、MVPの機能範囲を整理しました。
技術スタック
主要機能
音声録音 → 文字起こし → 翻訳 → 感情/リスク確認 → 要約 → フォローアップ質問作成までの処理フロー
16言語対応: 日本語・英語・ベトナム語・インドネシア語・ミャンマー語・ネパール語・フィリピン語・タイ語など
マルチテナント・RBAC: ワークスペース単位のテナント分離(RLS)、4段階ロール管理
カスタマイズ可能な質問テンプレート: 業種・現場に合わせた柔軟な日報フォーマット
処理内容に応じたモデル使い分けとフォールバックでAPIコストを調整
月次パーティショニング: 高頻度テーブルをパーティション分割し、大規模データでの性能劣化を防止
注力した点
セキュリティアーキテクチャの改善
従来の公開APIエンドポイント経由の分析を、Supabase Edge Function + pg_cronの内部トリガー方式に変更し、DDoS攻撃面を排除。
APIコストの調整
翻訳はGPT-4o-mini/Gemini Flash(安価)、複雑な推論のみGemini Proを使用。感情分析はGoogle NLP API→OpenAI(非対応言語時)のフォールバックチェーンを構築。
多言語音声処理の調整
16言語の音声文字起こしではWhisperの言語パラメータとドメイン特化プロンプトで精度を向上。Safari音声録音の互換性問題にはWebAudio APIのカスタムhookで対応。