多国籍従業員向け音声AI日報システム

多国籍の従業員が母国語で録音した日報をテキスト化・翻訳し、管理者が日本語で状況確認とフィードバックを行えるSaaS。16言語に対応。

課題

従来の面談形式では、時間的制約や心理的ハードルが高く、十分なケアが難しく、従業員のメンタルヘルス問題が増加していた。

母国語で録音した日報を文字起こし・翻訳し、管理者が日本語で確認できるアプリを開発。リスクの高い投稿を見逃さないためのアラートや質問テンプレートも用意した。

従業員の変化を早期に把握し、面談前の状況確認に使える運用を整備

1 member, 2 months

PM・エンジニアリング全般

要件整理、画面設計、音声処理、権限管理、運用設計を担当。

現場で使う日報フォーマットや管理者の確認フローを踏まえ、MVPの機能範囲を整理しました。

FrontendTypeScript / Next.js (App Router)

StateJotai / React Query

UITailwind CSS / Radix UI / shadcn/ui

DatabaseSupabase (PostgreSQL / Auth / Storage / Edge Functions / RLS)

AIOpenAI (Whisper, GPT-4o) / Google (Gemini, NLP API) / Vercel AI SDK

InfrastructureVercel / GitHub Actions

音声録音 → 文字起こし → 翻訳 → 感情/リスク確認 → 要約 → フォローアップ質問作成までの処理フロー

16言語対応: 日本語・英語・ベトナム語・インドネシア語・ミャンマー語・ネパール語・フィリピン語・タイ語など

マルチテナント・RBAC: ワークスペース単位のテナント分離（RLS）、4段階ロール管理

カスタマイズ可能な質問テンプレート: 業種・現場に合わせた柔軟な日報フォーマット

処理内容に応じたモデル使い分けとフォールバックでAPIコストを調整

月次パーティショニング: 高頻度テーブルをパーティション分割し、大規模データでの性能劣化を防止

従来の公開APIエンドポイント経由の分析を、Supabase Edge Function + pg_cronの内部トリガー方式に変更し、DDoS攻撃面を排除。

翻訳はGPT-4o-mini/Gemini Flash（安価）、複雑な推論のみGemini Proを使用。感情分析はGoogle NLP API→OpenAI（非対応言語時）のフォールバックチェーンを構築。

16言語の音声文字起こしではWhisperの言語パラメータとドメイン特化プロンプトで精度を向上。Safari音声録音の互換性問題にはWebAudio APIのカスタムhookで対応。

営業リスト作成から送信までの業務フローを自動化

海外SNS向けの翻訳・承認・投稿管理アプリを開発