多国籍従業員向け音声AI日報システム

多国籍の従業員が母国語で録音した日報をテキスト化・翻訳し、管理者が日本語で状況確認とフィードバックを行えるSaaS。16言語に対応。

課題

従来の面談形式では、時間的制約や心理的ハードルが高く、十分なケアが難しく、従業員のメンタルヘルス問題が増加していた。

ソリューション

母国語で録音した日報を文字起こし・翻訳し、管理者が日本語で確認できるアプリを開発。リスクの高い投稿を見逃さないためのアラートや質問テンプレートも用意した。

成果

従業員の変化を早期に把握し、面談前の状況確認に使える運用を整備

チーム

1 member, 2 months

PM・エンジニアリング全般

役割

要件整理、画面設計、音声処理、権限管理、運用設計を担当。

現場で使う日報フォーマットや管理者の確認フローを踏まえ、MVPの機能範囲を整理しました。

技術スタック

FrontendTypeScript / Next.js (App Router)
StateJotai / React Query
UITailwind CSS / Radix UI / shadcn/ui
DatabaseSupabase (PostgreSQL / Auth / Storage / Edge Functions / RLS)
AIOpenAI (Whisper, GPT-4o) / Google (Gemini, NLP API) / Vercel AI SDK
InfrastructureVercel / GitHub Actions

主要機能

01

音声録音 → 文字起こし → 翻訳 → 感情/リスク確認 → 要約 → フォローアップ質問作成までの処理フロー

02

16言語対応: 日本語・英語・ベトナム語・インドネシア語・ミャンマー語・ネパール語・フィリピン語・タイ語など

03

マルチテナント・RBAC: ワークスペース単位のテナント分離(RLS)、4段階ロール管理

04

カスタマイズ可能な質問テンプレート: 業種・現場に合わせた柔軟な日報フォーマット

05

処理内容に応じたモデル使い分けとフォールバックでAPIコストを調整

06

月次パーティショニング: 高頻度テーブルをパーティション分割し、大規模データでの性能劣化を防止

注力した点

セキュリティアーキテクチャの改善

従来の公開APIエンドポイント経由の分析を、Supabase Edge Function + pg_cronの内部トリガー方式に変更し、DDoS攻撃面を排除。

APIコストの調整

翻訳はGPT-4o-mini/Gemini Flash(安価)、複雑な推論のみGemini Proを使用。感情分析はGoogle NLP API→OpenAI(非対応言語時)のフォールバックチェーンを構築。

多言語音声処理の調整

16言語の音声文字起こしではWhisperの言語パラメータとドメイン特化プロンプトで精度を向上。Safari音声録音の互換性問題にはWebAudio APIのカスタムhookで対応。