Whisperとはどんなサービス?精度や課題について解説
ChatGPTをリリースしたOpenAIがWhisperという音声認識ソフトをリリースしました。音声認識ソフトは、会議などの音声を文字に起こして議事録を作成する際に大変便利です。この記事ではWhisperの説明だけでなく、アプリでの使用感と今後の課題について解説します。
Whisperとは
Whisperは、OpenAIがリリースした音声認識ソフトで、68万時間分の多言語音声データを学習しているため、精度の高い音声認識が可能となっています。Whisperには「tiny」「base」「small」「medium」「large」の5つのモデルがありますが、最後の「large」以外は英語のみの対応です。
日本語の精度は他言語に比べて相対的に高く、今後、音声認識にWhisperを活用する日本企業は増えてくると予想されます。
Whisperの利用料金は?
Whisperで文字起こしをする場合、APIから利用すると有料になります。ただし料金としては1分あたり0.006ドルという格安で、1時間でも50円~60円ぐらいしかかかりません。またGitHubのオープンソースモデルを使えば無料で使えます。ただしいずれの場合も実行環境の構築が必要であり、簡単には利用できません。
Whisperが使えるアプリも登場
Whisperがどれほどの精度なのか、今すぐ確かめたい人もいるはずです。そういう方は、Whisperを搭載したChatGPTのアプリがオススメです。こちらは録音したデータを文字起こしすることはできませんが、Whisperの音声認識の精度を確かめられます。
しかもこちらのアプリであれば無料で利用可能です。説明やメニューは英語で書かれていますが、日本語で入力も可能であり、日本からAppStoreにアクセスしてもダウンロードできます。
アプリで音声入力をしてみた
実際にアプリで質問項目を入力してみました。以下のような一般的な文章は問題なく変換できます。句読点も自動でついていて非常に便利です。回答もすぐに生成されました。
次に松尾芭蕉の俳句、「古池や蛙飛びこむ水の音」と入力してみましたが、「蛙」が「河津」に変換されてしまいました。さすがにこの変換は難しいのでしょう。ただ俳句そのものの説明は合っています。
私はGoogleの音声入力機能も使いますが、精度はWhisperの方が勝っていますし、自動で句読点が入るため、ストレスなく使用できました。今後さらに精度が上がれば、活用する人が増えると感じました。
Whisperの課題
アプリで試したところ、Whisperの精度としてはかなり高く便利です。句読点も自動で入力してくれました。ただし文字起こしをしようとした場合、実行環境を整える必要があり、プログラミングになじみのない人がすぐに使えるものではありません。
そのため「Whisper API」を使った有料サービスを使うのが現実的でしょう。ただし有料で使うというのであれば、他にも優秀な文字起こしサービスがあるため、比較しながら利用するかどうか決めていく方が良いでしょう。
また別の課題もあります。Whisperに音声ファイルをアップするため、機密情報保護の観点から問題があるともされています。たとえばOpenAIのサービスであるChatgptで、サムスンのエンジニアが、社内機密のソースコードをアップして流出させたという事件がありました。
サムスンではこの事件を機に、「生成AI」ツールを禁止することになりました。またアマゾンでもChatGPTの回答例の中に、内部データと酷似しているものが見つかったことで使用禁止になっています。Whisperに共有されたデータは削除ができず、精度をあげるための訓練のために使用されていると考えられます。
Whisperに共有されたデータがすべて削除されているのか、またユーザーが削除できるのか、セキュリティ上の問題は解決すべき課題でしょう。
まとめ
ここまでWhisperについて説明してきました。実際にアプリで試してみると、かなりの精度で日本語入力が可能です。Googleでも音声入力が可能ですが、Googleよりも精度が高いと感じました。たしかに課題もありますが、今後、Whisper を使った多くのサービスがリリースされるはずですので、どのような進化が見られるのか注目しておいた方が良いでしょう。
コールデータバンクは電話成果を含めた広告効果を100%計測し、すべての成果に至るマーケティングデータを一元共有。『広告運用改善』と『顧客共有改善』ができるツールです。コールデータバンクについて詳しく知りたい方はこちらから問い合わせしてみましょう。