ラズパイでSTTとTTSを堪能
Home > Raspberry Pi >
バケチャンロボとの会話の実現を目指してお母ちゃんが自然会話生成や音声認識、発話の調査をしてくれています。
ChatGPTによる会話文生成
OpenAI APIによる音声認識
Google TTSによる発話
いずれもNode-REDで動作検証しているので私(お父ちゃん)もラズパイを使用して味見してみました。
ラズパイ4で実検
ラズパイ4にマイクとスピーカをつないで、声を録音してOpenAI STTで音声認識しGoogle TTSで発話して声を変換してみました。
このシステム自体に全く意味はないのだけど音声認識の精度に大変驚きました。
動画では手動で録音のOn/Offを実施して音声認識のタイミングと合わせて動作させています。
スピーカはイヤホンジャックにさして、マイクはwebカメラで代替しました。
Google TTSは以前 室内コンシェルジュ ティラノくんの発話に使用しておりました。
Google TTSの仕様がこのころと随分変わったようで使用の際にもろもろ登録が必要になるようです。
音声認識でMini Pupperを制御
ラズパイでSTTやTTSを楽しめるようになったのでMini Pupperを音声認識で動かしてみました。
相変わらず録音のOn/Offと音声認識のきっかけは手動で実施しておりますが、ミニぷぱがメチャクチャお利巧になりました。
Node-REDによるミニぷぱサーボの制御方法は以下を参照ください。
おわりに
ここではラズパイ(Node-RED)でSTTやTTSを楽しみました。
精度のよい音声認識や発話を簡単に楽しめるようになって現代は本当に楽しい時代だなと実感します。AIすごいわ。
バケチャンロボの会話システムの実現に向けて、音声認識のための録音タイミングの自動化やハード検討をお母ちゃんと共に進めていきたいと思います。