ルイ
音声を聞いてそれを手で入力するというのは、時間もかかりますし疲れますよね。
先日のことです。
「せっかく喋っている音声があるのだから、それを使って自動で音声入力できないかなぁ…」
と気になって調べてみたところ・・・
やっぱりありました。
これが精度も高くかなり便利で、作業時間を大幅に短縮することができるので、今回はその方法をシェアしたいと思います。
目次
仕組み
具体的な方法を説明していく前に、どういう仕組みで自動音声入力ができるのかを説明していきます。
まず通常の音声入力に関してですが、ご存知の通り、これは単純にデバイスが持つマイクが言葉の内容を拾い、それを言語として認識して文字に変換していくわけです。
なので当然、前提としてこの音声入力モードをオンにしておいてスピーカーから流れる音声を聞かせれば文字起こしをすることができますが、課題はその精度です。
特に録音をされた音声が明瞭でないとか、マイクから音源が遠すぎると音声入力が正しく認識できず、使い物になりません。
こうして物理的にパソコンに音声を読み込まするのではなく、オーディオそのものをパソコンの中で再生し、パソコンの中で認識させるために”仮想ミキサー”を使います。
この役割を果たしてくれるのはサウンドミキサーです。
例えば通常音声を入力する役割を持つマイクとその音声を出力するスピーカーの位置が近すぎると・・・
マイクで入力した音声がスピーカーから出る
↓
スピーカーから出た音をマイクが拾う
と言う無限ループが起き、ハウリングが発生します。
ツールはフリーソフト”Soundflower”
ここで登場するのがフリーソフトのサウンドフラワーです。
“仮想”のミキサーなので、PC内に入力と出力ができるようになります。
わかりやすく言うと
“録画した映像を流した音声をPCが直接聞いている状態”
なので、その状態で音声入力をオンにしておけばPCにとっては「すぐ耳元で音声を聞いている状態」を作り出すことができます。
テキストエディタはGoogleスプレッドシートがオススメ
音声入力自体はスマホでもできますしパソコンを使えばどんなテキストエディターでも対応できますが、個人的なオススメはGoogleドキュメントです。
理由は大きく2つあります。
- クラウドに保存されるのでどのデバイスからもアクセスできる
- 自動音声入力の精度が高い
この2つです。
人によって文字起こしをする状況は違うかと思いますが、いずれにせよこの記事の方法で文字起こしをしようとすると、100%の精度は絶対に出せません。
加えて、機械は最適な句読点の位置も判断できないので、自分で入力する必要があります。
となれば、最も効率の良い方法というのは
「時間のある時にリアルタイムで音声をパソコンに流し込み、移動中などの隙間時間でスマホから句読点を挿入したり、文章の校正をする」
といった流れかと思います。
そういった点で、データをいちいち転送したり、同期しなくていいと言うのは大きなメリットです。
またMac内蔵の純正の音声入力機能を使うよりGoogleスプレッドシートを利用した方が音声入力の精度は高いです。
これは具体的なデータを取ったわけではないので数的根拠を示す事はできませんが、Googleは前後の文脈や文法を理解した上で、しかるべき漢字に変換したりといったプロセスを見ることができます。
設定
設定の方法は非常に簡単で、PC本体の入力と出力をどちらもインストールしたばかりのサウンドフラワーに変えるだけです。
こうすれば音を出力するのもサウンドフラワー、入力するのもサウンドフラワーといった回路が出来上がります。
先述した通り、あくまで仮想のミキサーなので音がループしてハウリング起こすことはありません。
注意点
まだ検証しきれてないのですが、以下のような注意点に気をつけないと、サウンドフラワーが正しく動作しなかったり、音声入力の精度が低くなったりします。
ブラウザがSafariだと動作しない
これ実際に僕が遭遇したんですが、「音声入力」の項目がそもそもツールタブに存在しない…。
でも環境設定からマイクへのアクセス権限は付与してあるので、システムが原因ではなさそう…。
いろいろ探って判明しました。
Google Chromeじゃないと音声入力機能をオンにできないようです。
Safariでは動きませんので、この機能使いたい人は要注意です。
音声が小さい時
もしも録音した音声が小さいのであれば、音量を上げてからサウンドフラワーに流し込むようにしましょう。
もしPCの音声出力を最大にしてもなお小さいようなら、無料の音源編集ソフトなどをダウンロードして、マスターフェーダーを上げたり、マスタリングのエフェクターを差し込んで音源そのものを底上げしてあげればOKです。
音声が速い時
もしも会話やスピーチが速くてGoogleドキュメントが聞き取れないと言った場合は、音源自体の速度をゆっくりにしてあげることで、精度が上がります。
プレミアだったら右クリックをしてオーディオ・デュレーションを変更してあげればいいし、音源編集ソフトであれば、何倍速にするかという設定は比較的簡単にできるはずです。
しかもここでは音声を垂れ流しにすればいいので、書き出しをする必要もありません。手軽です。
音声が不明瞭な時
ノイズや環境音が入っているような、音声が聞き取りにくい場合が一番厄介です。
この場合はイコライザーといったエフェクターを上手に使って明瞭度を上げるか、それでも難しい場合は自分で再度喋り直してあげるのが良いでしょう。
要するに音声入力をオンにした状態で、耳から入ってくる音声をそのまま自分の口で滑舌よく喋ればいいのです。
多少なりとも内容に左右されるかもしれませんが、手で入力するよりかは効率は良いはずです。
まとめ
文字起こしをイチからするのであれば、この無料で使えるサウンドフラワーとGoogleスプレッドシートの組み合わせが有効です。
手入力での修正はあくまで必要になりますが、音声で聞き取った内容を手でカタカタ入力している人にとっては、作業効率が爆上がりするかもしれません。
機械に任せられるところを機械に任せて、その会いた時間でインプットを増やしたり、別の仕事をこなせるようにすると、さらに生産性アップにつながりそうですね。
まだ試したことがない方はぜひチャレンジしてみて下さい。
それでは!