無料でどんな音楽ファイルでもカラオケにできる「Nightingale」、ボーカルと曲を分離し単語ごとに同期された歌詞を生成してハイライト表示可能で動画にも対応

03/19 20:00

Nightingaleは、ニューラルネットワークを活用して音楽ライブラリからカラオケを生成するアプリです。リードボーカルとインストゥルメンタルの分離、歌詞の自動生成、採点機能などを備えており、手持ちの楽曲ファイルを高機能なカラオケとして楽しむことが可能。GPL-3.0ライセンスに基づいてオープンソースで開発されており、Windows・macOS・Linux向けに無料で公開されています。
Nightingale — Karaoke from your music library
https://nightingale.cafe/
NightingaleはUltimate Vocal Remover(UVR)のKaraokeモデルやDemucsを用いてボーカルを分離し、WhisperXによって単語単位のタイムスタンプを持つ歌詞を自動的に書き起こすことができます。

インストゥルメンタルにはコーラス成分が維持されるため、自然な音質での歌唱が可能です。また、リアルタイムの音程検出によるスコア表示や、プロフィールごとのスコア管理、ゲームパッドによる操作、4K解像度に対応したアダプティブUIなど、実用的な機能を多数搭載しているとのこと。
また、Nightingaleは音源の処理だけでなく、カラオケ中の背景映像の描画や制御も行います。背景にはGPUシェーダーによるアニメーションやPixabayの動画、あるいは元となる動画ファイルをそのまま再生することができ、視覚的にも多彩な演出が行われます。

さらに、ユーザーが用意した動画ファイルを読み込ませた場合には、その動画から音声だけを抽出してボーカル分離の解析を行い、歌唱時には元の動画をそのまま背景として同期再生することが可能です。

Nightingaleは実行ファイル単体で配布されており、macOS、Linux、Windowsの各プラットフォームに対応しています。セットアップは簡略化されており、PythonやFFmpeg、機械学習モデルなどの必要なコンポーネントは初回の起動時に自動でダウンロードおよび構築されます。
ファイルの解析はフォルダ単位で実行することが可能。解析結果はキャッシュされるため、二回目以降の再生は迅速に行われます。解析処理はNVIDIAのGPUによるCUDA加速やApple SiliconのCoreMLに対応しており、効率的な処理を実現しているとのこと。
Nightingaleの推奨ハードウェア環境は、NVIDIAのGPUを搭載した環境、あるいはApple Silicon(M1/M2/M3チップ等)を搭載したmacOS環境。特定のGPUを搭載していない一般的なPC(CPUのみ)でも動作は可能ですが、処理速度は大幅に低下するそうで、1曲あたりの解析時間は推奨ハードウェア環境であれば2分から5分程度、CPUのみで処理を行う場合は10分から20分ほど。
NightingaleはGPL-3.0ライセンスのもとでオープンソースで開発されており、ソースコードはGitHubで公開されています。
rzru/nightingale: Machine learning powered Karaoke app (with scores!)
https://github.com/rzru/nightingale

元記事を読む