音楽サブスクはどのように空間オーディオを提供しているのか
はじめに
最近、特に Amazon Music や Apple Music が空間オーディオを提供するようになってから、Dolby Atmos や 360 Reality Audio などを利用した楽曲が注目されている。
だが、それらはストリーミングサービスというクローズドな環境で提供される上に、Dolby Atmos に関しては Dolby のプロプライエタリなフォーマットを使用している。
そのため、それらのフォーマットで音楽制作する方法や再生する方法については様々なメディアで解説されているが、制作された音源がどのようにエンコードされ、視聴者のもとへ届けられ、そしてデコードされるかの「間」の部分に関しては、あまり知られていない。
この記事では、音楽サブスクを対象に、今まであまり触れられてこなかった空間オーディオの中間部分について解析し、解説していこうと思う。
サンレコのコラムで当記事が紹介されました。このコラムへの監修もしています。
なお、「配信サービスと採用コーデックの一覧」の表で、Amazon Music の AV アンプ / サウンドバーのところが「ソフトウェア」となっていますが、正しくは「ハードウェア」です。(元の表では正しく記載していたのですが…)
条件を細分化し、最新動向も反映した表を以下に記載します。(色々表記を変えています)
プラット フォーム |
iPhone / iPad | Android 端末 | ||||||
---|---|---|---|---|---|---|---|---|
DD+ JOC | 対応 | 非対応 | 対応 | 対応 | 非対応 | |||
AC-4 IMS | 非対応 | 非対応 | 対応 | 非対応 | 非対応 | |||
出力先 | 空間オーディオ対応 内蔵スピーカー |
空間オーディオ 対応ヘッドホン |
空間オーディオ 非対応ヘッドホン |
– | – | – | – | |
その他条件 | – | 通信速度:高 | 通信速度:低 | 空間オーディオ: 常にオン |
– | – | – | – |
Amazon Music |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (端末側) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
Apple Music |
DD+ JOC Apple Renderer (端末側) |
DD+ JOC Apple Renderer (端末側) |
AAC 2.0ch *1 ダウンミックス Apple Renderer (端末側) |
AAC 2.0ch バイノーラル Dolby Renderer? (サーバー側) |
– | DD+ JOC Dolby Renderer (端末側) |
DD+ JOC Dolby Renderer (端末側) |
– |
TIDAL | AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (端末側) |
不明 | 不明 |
*1 「ステレオを空間化」のアップミキサー (ScottySTFTUpmixer) にて、5.1ch にアップミックス (マトリックスデコード?) してから、Apple Renderer でバーチャライズを行っています。
プラット フォーム |
Amazon Fire TV | Apple TV | Android TV Google TV |
|||
---|---|---|---|---|---|---|
DD+ JOC | 対応 | 対応 | 対応 | 対応 | ||
Dolby MAT 2.0 | 対応 | 非対応 | 対応 | 非対応 | ||
出力先 | AV アンプ サウンドバー |
AV アンプ サウンドバー |
空間オーディオ 対応ヘッドホン |
AV アンプ サウンドバー |
AV アンプ サウンドバー |
|
出力設定 | サラウンド音響 「自動選択」 |
サラウンド音響 「Dolby Digital Plus」 |
サラウンド音響 「自動選択」または 「Dolby Digital Plus」 |
フォーマットを変更「オフ」 ドルビーアトモス「オン」 |
空間オーディオ 「固定」または 「ヘッドトラッキング」 |
形式の選択 「自動」または 「手動」にて 「ドルビー アトモス / ドルビー デジタル プラス」を有効化 |
Amazon Music |
DD+ JOC Dolby MAT 2.0 |
DD+ JOC Bitstream |
DD+ JOC Bitstream |
– | – | – |
Apple Music |
– | – | – | DD+ JOC Dolby MAT 2.0 |
DD+ JOC Apple Renderer (端末側) |
– |
TIDAL | – | – | – | DD+ JOC Dolby MAT 2.0 |
不明 | DD+ JOC Bitstream |
配信システム
プロトコル
Apple Music では Apple が提唱する HLS (HTTP Live Streaming) が使用されている。一方 Amazon Music では MPEG-DASH (Dynamic Adaptive Streaming over HTTP) が用いられている。MPEG-DASH は単に DASH と呼ばれることも多いため、この記事でも以後 DASH と呼ぶことにする。HLS も DASH も、その名の通り HTTP を用いてメディアファイルをストリーミング配信する規格である。
両技術とも、メディアファイルは一定時間ごとに分割されており、分割された一つ一つのパーツをセグメント、あるいはチャンクと言う。分割することによってファイル全体のダウンロードが完了するのを待つことなく再生を開始することができるし、途中から再生する場合にファイルを冒頭から取得してくる必要もない (もちろんヘッダー情報等は必要ではあるが)。さらに、ネットワークの速度や安定性などに応じて再生中にシームレスにビットレートを切り替える「アダプティブビットレート」も行うことができる。
DASH は HLS よりも新しい規格であるが、DASH 登場以前は Apple の HLS の他にも Microsoft の SS (Smooth Streaming) や Adobe の HDS (HTTP Dynamic Streaming) など、同様のストリーミング規格がいくつか存在していた。DASH はこれらの独自規格をまとめるべく策定された規格であり、ISO/IEC 23009-1 として国際標準となっている。そのため、HLS と DASH は細かな違いはあるものの、大枠はほぼ同じである。
マニフェストファイル
Apple Music で使用される HLS では、1 つのメディアにつき 2 つのマニフェストファイルを用いて再生を制御している。1 つはマスタープレイリストやマスターマニフェストなどと呼ばれるもので、もう 1 つはインデックスファイルと呼ばれるものである。
マスタープレイリストは、名前に「マスター」とあるように、一つ一つのコンテンツ (作品) ごとの各メディアファイル (ステレオの低ビットレート版と高ビットレート版、Dolby Atmos の低ビットレート版と高ビットレート版などなど…) を取りまとめるものであり、「プレイリスト」とあるように各メディアファイルの情報 (コーデック、ビットレート、サンプリング周波数、量子化ビット数、インデックスファイルの URL など) が M3U プレイリスト形式で記述されている。
一方のインデックスファイルは各メディアファイルごとに存在し、メディアファイルの URL、セグメントの再生順、各セグメントの秒数などが記されている。
HLS の再生手順は以下の通り。
- クライアント側の再生ソフトが、再生するコンテンツのマスタープレイリストをサーバーから取得する。
- 再生機器 (あるいは再生ソフト) が対応しているコーデック、ユーザーの画質/音質設定、ネットワーク状況などをもとに、マスタープレイリストから最適なフォーマットを決定する。
- 再生したいメディアファイルのインデックスファイルの URL をマスタープレイリストから読み取り、インデックスファイルを取得する。
- インデックスファイルに従い、メディアファイルを取得して再生を行う。
一方 Amazon Music の DASH では、MPD (Media Presentation Description) というマニフェストファイルが使用される。MPD は HLS のマスタープレイリストとインデックスファイルを 1 つにまとめたようなもので、XML 形式で記述されている。
音源の仕様 (最終確認: 2024/11/04)
マニフェストファイルに記載されているメディアファイルの情報を見やすい形にまとめた。詳細に関しては、後で詳しく解説するため、今はすべて理解する必要はない。
ファイル名サフィックス、オブジェクト数、ビットレート以外の項目は、マニフェストファイルの値そのままを記載しているため、一部わかりにくい表記が存在する。
ちなみに、Amazon Music では項目名が “audioSamplingRate” “bitDepth” といった一見奇妙な書き方がされているが、これは lowerCamelCase という記法である。Apple Music の “SAMPLE-RATE” や “BIT-DEPTH” といった記法は、UPPER-KEBAB-CASE や SCREAMING-KEBAB-CASE などと呼ばれる。
なお、Apple Music Classical は、あくまで UI をクラシックに最適化したアプリであり、音源などは Apple Music のものをそのまま使用している。
Amazon Music – ステレオ
SD
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | ビット レート (kbps) |
||
---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
|||
SD_LOW | Low | 1000 | 3 | opus | 48000 | 48 |
SD_MEDIUM | Medium | 1000 | 2 | opus | 48000 | 192 |
SD_HIGH | High | 1000 | 1 | opus | 48000 | 320 |
44.1kHz ではなく 48kHz なのは Opus の仕様。
HD
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | |||
---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
bit Depth |
||
HD_44 | HD44 | 2000 | 4 | flac | 44100 | 16 |
HD_48 | HD48 | 2000 | 3 | flac | 48000 | 16 |
HD_96 | HD96 | 2000 | 2 | flac | 96000 | 16 |
ロスレスのうち、16bit のものはサンプリング周波数に関わらず HD 扱いされる。88.2kHz の音源は 48kHz へ、176.4kHz の音源は 96kHz へ、それぞれダウンコンバートされる。192kHz / 16bit は未発見。
ULTRA HD
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | |||
---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
bit Depth |
||
UHD_44 | UHD44 | 2000 | 0 | flac | 44100 | 24 |
UHD_48 | UHD48 | 2000 | 3 | flac | 48000 | 24 |
UHD_96 | UHD96 | 2000 | 2 | flac | 96000 | 24 |
UHD_192 | UHD192 | 2000 | 1 | flac | 192000 | 24 |
ロスレスのうち、24bit のものはサンプリング周波数に関わらず ULTRA HD 扱いされる。88.2kHz の音源は 48kHz へ、176.4kHz の音源は 96kHz へ、それぞれダウンコンバートされる。
Apple Music – ステレオ
ロッシー
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | ビット レート (kbps) |
---|---|---|
CODECS | ||
audio-HE-stereo-64 | mp4a.40.5 | 64 |
audio-stereo-128 | mp4a.40.2 | 128 |
audio-stereo-256 | mp4a.40.2 | 256 |
- mp4a.40.5 = MPEG-4 HE-AAC v1
- mp4a.40.2 = MPEG-4 AAC LC
ロスレス
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | |
---|---|---|---|
CODECS | SAMPLE -RATE |
BIT- DEPTH |
|
audio-alac-stereo-44100-16 | alac | 44100 | 16 |
audio-alac-stereo-44100-24 | alac | 44100 | 24 |
audio-alac-stereo-48000-16 | alac | 48000 | 16 |
audio-alac-stereo-48000-24 | alac | 48000 | 24 |
ロスレスのうち、48kHz 以下のものは量子化ビット数に関わらずハイレゾ扱いされない。
ハイレゾロスレス
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | |
---|---|---|---|
CODECS | SAMPLE -RATE |
BIT- DEPTH |
|
audio-alac-stereo-88200-24 | alac | 88200 | 24 |
audio-alac-stereo-96000-16 | alac | 96000 | 16 |
audio-alac-stereo-96000-24 | alac | 96000 | 24 |
audio-alac-stereo-176400-24 | alac | 176400 | 24 |
audio-alac-stereo-192000-24 | alac | 192000 | 24 |
ロスレスのうち、88.2kHz 以上のものは量子化ビット数に関わらずハイレゾ扱いされる。96kHz 以外の 16bit 音源は未発見。
Amazon Music – 空間オーディオ
Dolby Atmos (Dolby Digital Plus JOC / ホームシアター用)
URL ql パラメーター | ファイル名 サフィックス |
AdaptationSet | Representation | Channel Configuration |
EC3_ Extension Complexity Index |
EC3_ Extension Type |
ビット レート (kbps) |
||
---|---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
||||||
SPATIAL_ATMOS_LOW | (不明) | 3000 | 3 | ec-3 | 48000 | 6 | 256 | ||
SPATIAL_ATMOS_MEDIUM | (不明) | 3000 | 2 | ec-3 | 48000 | 6 | 16 | JOC | 448 |
SPATIAL_ATMOS_HIGH | (不明) | 3000 | 1 | ec-3 | 48000 | 6 | 16 | JOC | 768 |
ec-3 は Dolby Digital Plus (Enhanced AC-3) のこと。量子化ビット数の記載はないが、恐らくすべて 16bit だと思われる。一番上のものは 6ch (5.1ch 構成) ダウンミックス。
Dolby Atmos (Dolby AC-4 IMS / モバイル機器用)
URL ql パラメーター | ファイル名 サフィックス |
AdaptationSet | Representation | Channel Configuration |
virtualized_ content |
ビット レート (kbps) |
||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
|||||
SPATIAL_ATMOS_LOW | 3D_Datmos_Low | 2500 | 2 | ac-4.02.02.00 | 48000 | 2 | 1 | 112 |
SPATIAL_ATMOS_MEDIUM | 3D_Datmos_Med | 2500 | 1 | ac-4.02.02.00 | 48000 | 2 | 1 | 256 |
ac-4.02.02.00 は Dolby AC-4 というコーデックの、Immersive Stereo (IMS) というフォーマットのことである。
360 Reality Audio
mha1
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | オブジェクト数 | ビット レート (kbps) |
|||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
使用 | 最大 | |||
SPATIAL_RA360_L0 | 3D_S360RA_L0 | 3000 | 4 | mha1.0x0c | 48000 | 5 | 5 | 320 |
SPATIAL_RA360_L1 | 3D_S360RA_L1 | 3000 | 3 | mha1.0x0d | 48000 | 10 | 10 | 640 |
SPATIAL_RA360_L2 | 3D_S360RA_L2 | 3000 | 2 | mha1.0x0d | 48000 | 13 | 16 | 1024 |
SPATIAL_RA360_L3 | 3D_S360RA_L3 | 3000 | 1 | mha1.0x0e | 48000 | 17 | 24 | 1536 |
mhm1
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | オブジェクト数 | ビット レート (kbps) |
|||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
使用 | 最大 | |||
SPATIAL_RA360_L0 | 3D_S360RA_L0 | 3500 | 4 | mhm1.0x0c | 48000 | 5 | 5 | 320 |
SPATIAL_RA360_L1 | 3D_S360RA_L1 | 3500 | 3 | mhm1.0x0d | 48000 | 10 | 10 | 640 |
SPATIAL_RA360_L2 | 3D_S360RA_L2 | 3500 | 2 | mhm1.0x0d | 48000 | 13 | 16 | 1024 |
SPATIAL_RA360_L3 | 3D_S360RA_L3 | 3500 | 1 | mhm1.0x0e | 48000 | 17 | 24 | 1536 |
量子化ビット数の記載はないが、360 Reality Audio の仕様的に、恐らくすべて 24bit だと思われる。
- mha1 = MPEG-H 3D Audio、単一ストリーム
- mhm1 = MPEG-H 3D Audio、単一ストリーム、MPEG-H Audio Stream (MHAS) でカプセル化
- 0x0c = Low Complexity Profile Level 2
- 0x0d = Low Complexity Profile Level 3
- 0x0e = Low Complexity Profile Level 4
Apple Music – 空間オーディオ
Dolby Audio
字面が似ていて紛らわしいが、Dolby Atmos ではなく Dolby Audio。Apple Music では 5.1ch (6ch 表記) や 7.1ch (8ch 表記) の音源のことを指している。
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-ac3-448 | ac-3 | 6 | 448 |
audio-ec3-1448 | ec-3 | 8 | 448 |
ac-3 は Dolby Digital (AC-3) 、ec-3 は Dolby Digital Plus (Enhanced AC-3) のこと。
Dolby Atmos (Dolby Digital Plus JOC)
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-atmos-2448 | ec-3 | 16/JOC | 448 |
audio-atmos-2768 | ec-3 | 16/JOC | 768 |
サンプリング周波数と量子化ビット数の記載はないが、恐らくすべて 48kHz / 16bit だと思われる。Apple Music は 現状 Dolby AC-4 IMS は非採用。
2.0ch ダウンミックス
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-HE-stereo-64-downmix | mp4a.40.5 | 2/-/DOWNMIX | 64 |
audio-stereo-128-downmix | mp4a.40.2 | 2/-/DOWNMIX | 128 |
audio-stereo-256-downmix | mp4a.40.2 | 2/-/DOWNMIX | 256 |
バイノーラル
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-HE-stereo-64-binaural | mp4a.40.5 | 2/-/BINAURAL | 64 |
audio-stereo-128-binaural | mp4a.40.2 | 2/-/BINAURAL | 128 |
audio-stereo-256-binaural | mp4a.40.2 | 2/-/BINAURAL | 256 |
セグメントとコンテナ
インデックスファイルや MPD を見てみると、Apple Music のロスレスや空間オーディオの楽曲は約 15 秒ごと (ロッシーは不明)、Amazon Music の楽曲は約 10 秒ごとのセグメントに分割されている。
分割された音声は、両サービスとも単一のファイルでセグメント化されたデータを扱うことが可能な fMP4 (fragmented MP4) コンテナに格納されている。
DRM
Amazon Music の MPD には、DRM として Microsoft PlayReady を使用していることが明記されている。一方 Apple Music は何を使用しているのかは分からないが、Apple は独自で FairPlay という DRM 技術を持っているので、恐らくこれを使用しているものと思われる。
Dolby Audio
Dolby Audio とは
Apple Music の空間オーディオと言えば Dolby Atmos だけだと思われがちだが、ごく少数ながらも 5.1ch や 7.1ch で配信されているものもある。「ドルビーオーディオ」と表示されている楽曲がそれである。
ただし、ステレオ版しか配信していないのになぜか Dolby Audio ロゴが表示されるものもあるため、注意が必要だ (詳細は後述)。
なお、Apple Music にて Dolby Audio で配信されている楽曲は、確認した限りAmazon Music ではステレオまたは 360 Reality Audio での配信となっていた。Amazon Music は Dolby Atmos の楽曲を 5.1ch ダウンミックスで配信していたりはするが、どうやらもともと 5.1ch の楽曲はステレオでしか配信していないようだ。
逆に、Apple Music はまだ 360 Reality Audio に対応していないので、Amazon Music には 360 Reality Audio を、Apple Music にはその 5.1ch ダウンミックスを納品する、という例もあるようだ。
すべての 360 Reality Audio の楽曲がそうなっているというわけではなく、むしろ Amazon Music では 360 Reality Audio、Apple Music ではステレオのみ、という場合のほうが多い。
Dolby Audio とは、Dolby Atmos 関連や Dolby Voice 関連以外のほぼすべての Dolby の音響技術を総称したブランドである。
Dolby の音響技術があまりにも多くなったので、Dolby Atmos に対応する製品には Dolby Atmos のロゴのみを、Dolby Atmos には対応しないが Dolby Audio に含まれる音響技術のいずれかに対応する場合は Dolby Audio のロゴのみを付与するように定められた。
Apple Music だけでなく、非 Dolby Atmos の Dolby Digital (Plus) や Dolby TrueHD を採用する BD (BDMV) や UHD BD 等においても、ロゴはそれぞれのコーデックのロゴではなく Dolby Audio ロゴを表示するよう定められた。
ただし Dolby Atmos 採用作品の場合は、Dolby Atmos 非対応環境で視聴した場合は 5.1ch 〜 7.1ch ダウンミックスになってしまう (理由は後述) ためか、あるいは BDMV や UHD BD のDolby TrueHD (Dolby Atmos のコーデックとして使用されている) には互換用の Dolby Digital (AC3 Core などと呼ばれる) が付属しているためか、Dolby Atmos ロゴと Dolby Audio ロゴの両方が表示されることもあるが、このあたりはメーカーによる。
Dolby Audio と Dolby Atmos の違いについて「Dolby Audio は 5.1ch や 7.1ch 等で、Dolby Atmos は天井からも音が鳴らせるもの」や「Dolby Audio はスマホや PC の高音質化技術で、Dolby Atmos は映画館等で使われるサラウンド技術」などと言われることもあるが、それらはごく一部分に過ぎない。Dolby Atmos と Dolby Audio の違いは「Dolby Atmos 関連の音響技術か、そうでないか」である。
長々と書いたが、Apple Music に限って言えば、Dolby Audio は 5.1ch や 7.1ch のサラウンド音声という認識で構わない。
Dolby Audio のコーデック
Apple Music の Dolby Audio
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-ac3-448 | ac-3 | 6 | 448 |
audio-ec3-1448 | ec-3 | 8 | 448 |
Apple Music のDolby Audio で使用されるコーデックは、5.1ch は ac-3
、7.1ch は ec-3
となっている。
AC-3 とは Audio Code number 3 の略で、Dolby の3番目の音声符号化技術である Dolby Digital のことを指す。AC-3 は技術的な名称、Dolby Digital はマーケティング用の名称、という立ち位置になっている。
Dolby Digital はロッシー圧縮のコーデックで、最大 5.1ch、48kHz / 16bit、640kbps まで対応している。
EC-3 は E-AC-3 / Enhanced AC-3 の略で、マーケティング用の名称は Dolby Digital Plus。Dolby Digital Plus は Dolby Digital よりも圧縮効率が向上し、対応チャンネル数も増加したロッシー圧縮のコーデックで、最大 15.1ch、48kHz / 20bit、6144kbps まで対応している。後述の Joint Object Coding (JOC) を使用することで、Dolby Atmos にも対応可能。
Dolby Digital Plus は、 単体で再生可能な領域である Independent Substream (IS) と、IS と組み合わせて再生する拡張領域の Dependent Substream (DS) とがある。IS は 5.1ch までの対応となっており、DS は 7.1ch や Dolby Atmos を格納する際の、追加データの格納用に使用される。
Dolby Digital Plus に 7.1ch 音声を格納する場合でも、IS には 7.1ch を 5.1ch にダウンミックスしたものが入っている。DS には 7.1ch 音声がそのまま入っているわけではなく、フロント L/R/C は IS のものを使い回して、7.1ch 用のサラウンド Lss/Rss とサラウンドバック Lrs/Rrs の合計 4.0ch 分の音声が入っている。
そのため、Dolby Digital Plus の 7.1ch は、実際のデータとしては IS 5.1ch + DS 4.0ch の、合計 9.1ch 分の音声が入っている。7.1ch で再生する場合、IS の サラウンド Ls/Rs は無視される。5.1ch で再生する場合、DS は全て無視される。
このような仕様になっているのは、7.1ch 音声だけ格納して、5.1ch 再生時は係数で機械的にダウンミックスとするよりも、5.1ch は 5.1ch で用意したほうが、より製作者の意図を再現しやすいといった背景がある。
また、Dolby Digital Plus は EX フラグにも対応しているため、IS は Surround EX を利用した 6.1ch (マトリックス) 音声とすることも可能となっている。(実際、そのような音源も複数存在を確認している)
Dolby Digital は 48kHz / 16bit まで、Dolby Digital Plus は 48kHz / 20bit までしか対応してないため、Apple 基準のハイレゾ (88.2kHz 以上) には対応していない。そしてどちらもロッシーコーデックである。(アルバムページに「ロスレス」と「Dolby Atmos」のロゴが共存している場合、それは単にステレオ版がロスレスで提供されているというだけである)
Dolby TrueHD を使用すれば、Dolby Audio 音源を最大 192kHz / 24bit のハイレゾロスレスで提供できるのだが、現状 iPhone にも iPad にも Apple TV にも Android 端末にも Dolby TrueHD デコーダーは載っていないため、すぐには難しいだろう。
iPhone XR / XSシリーズがアップデートで Dolby Atmos に対応したときのように、Apple がその気になれば Apple 製品にはデコーダーが載ることがあるのかもしれないが…。
なお、Dolby Atmos に対応している Android 端末であれば Dolby Digital デコーダーや Dolby Digital Plus デコーダーは必ず載っているのだが、現在 Android 版 Apple Music は Dolby Atmos に対応した 3.6.0 以来、執筆時点で最新の 4.6.0 でも未だに Dolby Audio 非対応となっている。
Dolby Atmos のストリーミング設定やダウンロード設定をオンにしても、Dolby Audio で配信されている楽曲はステレオ版しか降ってこない。アルバム詳細ページ等に Dolby Audio のロゴも表示されない。今後のアップデートでの改善に期待したい。
Dolby Audio の謎
Apple Music の Dolby Audio には色々謎がある。
① Dolby Atmos で配信されているものの、一時的に Dolby Audio 表記になるパターン
再生直後は Dolby Audio 表記になり、何度か再生し直したり、時間をおいて再生し直しているうちに Dolby Atmos 表記になるパターン。現状 iOS / iPadOS 版でのみ確認している。
このパターンの奇妙な点は、マスタープレイリストを確認しても、Dolby Atmos で配信されている楽曲は Dolby Audio では配信されていないというところだ。にも関わらず、アプリ上では Dolby Audio のロゴが表示されている。
状況的に考えて、これは後述する 2.0ch ダウンミックス版を 5.1ch アップミックスしているか、バイノーラル版を再生している際に表示されるものではないかと思われるのだが、iPadOS 16 の iPad mini (第 6 世代) では再現しなかった。iOS / iPadOS 15 時代の仕様なのか、また別の条件があるのか…
② Dolby Audio 表記があるものの、実際にはステレオでしか再生されないパターン
アルバムには Dolby Audio 表記があるものの、再生時にはステレオ版でしか再生されないというパターン。こちらも現状 iOS / iPadOS 版でのみ確認している。サントラを中心に目撃例が増えている。
これは単に Dolby Audio よりもロスレスのほうが優先されてしまっている、という話ではなく、そもそもマスタープレイリストを見てもステレオ版しか存在していないといったもの。単なる表示バグなのではないかと思われる。
③ 海外では Dolby Audio で配信されているものの、日本ではステレオ版しか配信されていないパターン
「この曲が Dolby Audio で配信されている」という情報の中には Dolby Atmos のことを Dolby Audio と表記していたり、パターン①の状態だったりすることもあるのだが、そもそも日本では Dolby Audio でも Dolby Atmos でも提供されておらず、マスタープレイリストにもステレオ版しか載っていない、といったもの。
特定の楽曲が一部の国では配信されていないということはたまにあるのだが、空間オーディオ版が一部の国に限られているのは謎である。
Dolby Atmos
まずはじめに断っておくが、Dolby Atmos 自体はコーデックではない。Dolby Atmos は Dolby Digital / Digital Plus や Dolby TrueHD 等の進化版ではなく、5.1ch や 7.1ch の進化版のようなものだと捉えていただきたい。
Dolby Atmos は、7.1ch (Dolby Surround 7.1 の配置) にトップ (天井) チャンネルをステレオで追加した、計 7.1.2ch のチャンネルベースの音声トラック (これをベッドと呼ぶ) をベースに、最大 118 個の音声オブジェクトを配置することができる、イマーシブサウンドのフォーマットである。Dolby Atmos だけでなく DTS:X や 360 Reality Audio に関しても、これらはあくまでイマーシブサウンドのフォーマット名であり、コーデックの名称ではない。
*イマーシブサウンド: 音で前後左右を取り囲むサラウンドに加え、上下方向の音も再現できる没入型 (= immersive) の立体音響のこと。ただし Dolby Atmos は下方向の表現はできない。
補足
細かいことを言えば、チャンネルベースオーディオ自体スピーカー配置で定義される位置情報を持つ静的な音声オブジェクトの集合体であるとも言えるのだが、ここでは一般的な定義として、制作時には OAMD (Object Audio Metadata) を用いて音声オブジェクトの位置を規格の範囲内で (例: Dolby Atmos は水平方向と上方向の再現は可能だが下方向は不可) 自由に指定でき、再生時にはメタデータとスピーカー構成をもとに OAR (Object Audio Renderer) が音声オブジェクトのレンダリングを行うものを、オブジェクトオーディオと呼ぶことにしている。
Dolby Atmos でミキシングされた音声がどのコーデックで届けられるかは用途により異なる。
映画館のデジタル上映用の素材 (DCP) では非圧縮のリニア PCM で記録される。一方家庭用 Dolby Atmos においては、BD (BDMV) や UHD BD 等では主にロスレス圧縮の Dolby TrueHD が、ストリーミングでは主にロッシー圧縮の Dolby Digital Plus (Enhanced AC-3) や Dolby AC-4 が、テレビ放送等では主にロッシー圧縮の Dolby AC-4 が使用されている。
なお、Dolby Atmos Music は単なるブランドで、技術やコーデック自体は映画で用いられる Dolby Atmos をそのまま音楽に流用しているだけのため、音声の仕様は映画に使用する場合でも音楽に使用する場合でも変わらない。
Apple Music の Dolby Atmos は、コーデックとして Dolby Digital Plus (Enhanced AC-3) のみ使用されている。一方 Amazon Music では、Echo Studio やサウンドバー等では Dolby Digital Plus (Enhanced AC-3) が、スマホやタブレットではその後継の Dolby AC-4 が使用されている。
Dolby Atmos は Dolby TrueHD を使用することで、最大 48kHz / 24bit のロスレスで提供できる (96kHz 以上は不可なので Apple 基準でのハイレゾは現状非対応) のだが、Dolby TrueHD デコーダーを搭載した スマホやタブレットは現状存在してしない。
Dolby Atmos のマスターファイルは 96kHz で記録できますが、現状 Dolby Atmos を 96kHz で提供する方法はありません。Blu-ray 向けの Dolby TrueHD と、ストリーミング向けの Dolby Digital Plus は、どちらも 48kHz しか対応していないからです。
While you can record Dolby Atmos Master Files in 96K, there is currently no way to dritribute Dolby Atmos in 96k. Because both Dolby TrueHD (Blu Ray) and Dolby Digital Plus (Streaming) only support 48k.
96K を自分なりに翻訳
Dolby Atmos (Dolby Digital Plus JOC)
Dolby Digital Plus をコンテナにした Dolby Atmos は以下のようにいくつか呼称が存在している。
- Dolby Atmos in Dolby Digital Plus (略称: Dolby Atmos in Digital Plus / Dolby Atmos in DD+ / Atmos in DD+)
- Dolby Digital Plus with Dolby Atmos (略称: Dolby Digital Plus with Atmos / DD+ with Dolby Atmos / DD+ with Atmos)
- Dolby Digital Plus JOC (略称: DD+ JOC / DD+JOC)
- Enhanced AC-3 with Joint Object Coding (略称: E-AC-3 with JOC / E-AC-3 JOC / EAC3 JOC / EAC3-JOC / EAC3_JOC / EC3_JOC / ec+3 などなど…)
この記事では以降 Dolby Digital Plus JOC と呼ぶことにする。
Amazon Music の Dolby Atmos (Dolby Digital Plus JOC)
Echo Studio やサウンドバー等に対してのみ、このフォーマットで提供している。スマホやタブレットに対しては、後述する Dolby AC-4 IMS というフォーマットで提供している。
5.1ch にダウンミックスしたものも配信されているが、おそらくネットワークの品質が悪いときに利用されるのだろう。
URL ql パラメーター | ファイル名 サフィックス |
AdaptationSet | Representation | Channel Configuration |
EC3_ Extension Complexity Index |
EC3_ Extension Type |
ビット レート (kbps) |
||
---|---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
||||||
SPATIAL_ATMOS_LOW | (不明) | 3000 | 3 | ec-3 | 48000 | 6 | 256 | ||
SPATIAL_ATMOS_MEDIUM | (不明) | 3000 | 2 | ec-3 | 48000 | 6 | 16 | JOC | 448 |
SPATIAL_ATMOS_HIGH | (不明) | 3000 | 1 | ec-3 | 48000 | 6 | 16 | JOC | 768 |
Apple Music の Dolby Atmos (Dolby Digital Plus JOC)
Dolby Atmos 音声を提供する全てのプラットフォーム (iOS、iPadOS、macOS、tvOS、Android) に対して、原則このフォーマットで提供している。
ただし、iPhone / iPad に空間オーディオ非対応のイヤホン / ヘッドホンを接続したときに再生されるのは、バイノーラル版である。また、空間オーディオ対応の AirPods シリーズであっても、通信環境が悪い場合は 2.0ch ダウンミックス版を 5.1ch アップミックス再生している。(後述)
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-atmos-2448 | ec-3 | 16/JOC | 448 |
audio-atmos-2768 | ec-3 | 16/JOC | 768 |
Spatial Coding
Apple Music と Amazon Music のトラック数表記に共通で入っている “16” という数字は、家庭用 Dolby Atmos における Spatial Coding によるものである。
Dolby Atmos は 7.1.2ch のベッドと最大 118 個のオブジェクトの、合計 128 トラックを使用できる。DCP は基本的に HDD ごと映画館に納品されるため、容量に余裕がありリニア PCM で記録できている。
一方、家庭だと Dolby TrueHD や Dolby Digital Plus 等で圧縮したとしても容量は 7.1ch 等に比べて数段跳ね上がるし、家庭用機器で 128 トラックの音声を処理するのも DSP 等の性能的に厳しいところがある。
そこで、Amazon Music や Apple Music で使用される Dolby Digital Plus JOC 及び、BD (BDMV) や UHD BD で使用される Dolby TrueHD with Dolby Atmos (MLP FBA 16-ch) では、Spatial Coding という処理が行われる。なお、この処理は後述する Amazon Music の Dolby AC-4 IMS では使用されない。
Spatial Coding は、空間的に近い位置にあるベッドとオブジェクトを 11 / 13 / 15 のいずれかのグループ (これを element と呼ぶ) にクラスタリングする技術である。element の数をいくつにするかは、音声にどれだけビットレートを割けるかによる。詳細は こちら
Spatial Coding によってクラスタリングされた各 element もまた、OAMD (Object Audio Metadata) を持つオブジェクトオーディオである。なお、LFE (Low Frequency Effect) と呼ばれる低音専用チャンネルだけはクラスタリングされず、チャンネルベースのまま保持されている。そのため、Spatial Coding 後のトラック数は 11 / 13 / 15obj (elements) + 1ch (LFE) で、合計 12 / 14 / 16 トラックとなる。Amazon Music や Apple Music の 16 という数字は、ここに由来する。
Spatial Coding は端的に言うとオブジェクトベースのダウンミックスとも取れるが、Dolby 曰く「何も失われない」そうだ。正直この辺りは MQA の「ロスレス」のような若干の胡散臭さも感じられる。(位置情報はともかく、特定の音が完全に消えてしまうことはない、という意味…?)
家庭用のDolby Atmos Homeにおいても「失うものは何一つ無く、この128オブジェクトを再現できる」と説明。
立体音響の「Dolby Atmos」今秋ついに家庭へ。各社AVアンプを体験、モバイル展開も – AV Watch
Spatial Coding が施された Dolby Atmos 音源は、LFE を無視すれば完全なオブジェクトベースオーディオにも思えるが、後で紹介する Joint Object Coding により、結局はチャンネルベースオーディオとのハイブリッドとなっている。
element 数ごとに音声のビットレートの下限が定められている。両サービスともに Dolby Atmos (Dolby Digital Plus JOC) の下限が 448kbps となっているのは、16 elements の場合のビットレートの下限が 448kbps だからだ。
Spatial Coding で使用される elements の数は、エンコード時のビットレートによって決定されます。 384kbps では 12 elements、448kbps 以上では 16 elements が使用されます。
The number of elements used by spatial coding is determined by the bit rate of the encode. A bit rate of 384kbps uses 12 elements, while bit rates of 448kbps and above use 16 elements.
Appendix C – Dolby Atmos Delivery Codecs – Dolby Professional Support Learning を自分なりに翻訳
上記はあくまで下限値を示したものと思われ、実際には 448kbps 以上でも 12 / 14 elements の音源も存在する。
一方上限が両サービスとも 768kbps となっているのはあくまで Amazon や Apple による制約であり、Dolby Digital Plus JOC 自体は大元の Dolby Digital Plus の上限である 6144kbps まで使用できる。
The operating range has been increased by allowing data rates spanning 32 kbps – 6.144 Mbps.
[PDF] Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System
6144kbps もあれば、ロスレスの Dolby TrueHD による Dolby Atmos (7000 ~ 9000kbps 程度) が見えてくるため、流石に上限まで使うサービスは出てこないとは思うが、Amazon Music や Apple Music より高いビットレートで Dolby Digital Plus 音声を配信するサービスは存在する。
Live ExtremeでDolby Atmosを配信する場合の技術仕様は以下の通りです。
Dolby Atmos配信を徹底解説!(後編)|KORG Live Extreme
- コーデック: Dolby Digital Plus
- サンプルレート: 48kHz
- ビットレート: 384, 448, 576, 640, 768, 1024 kbps
- チャンネル数 : 最大16/JOC
- 配信方式: 疑似ライブ配信 (リニア配信), オンデマンド配信
画質・音質のスペック (規格)
画質・音質のスペック (規格) を教えてください – よくあるご質問 (FAQ)
- 音質 イマーシブオーディオ ドルビーアトモス 7.1.4 · 1.024 kbit/s · E-AC-3 JOC (ドルビーデジタルプラス)
AFLSは『ドルビーデジタルプラス(E-AC3)』を使用しています。
AFLSについて | AFLS
ビットレートを『960kbps』に設定し、音の臨場感をお届けします。
(AFLS は Dolby Atmos ではなく Dolby Audio 5.1ch)
ちなみに、Netflix の Dolby Atmos (Dolby Digital Plus JOC) は、Amazon Music や Apple Music と同じビットレートとなっている。
Netflixメンバーの視聴体験
ほとんどの5.1またはドルビーアトモス対応のテレビデバイスは、より良い音を受信できます。 デバイスと利用可能な帯域幅によって、受信ビットレートは異なります:
スタジオ音質のサウンドを、Netflixに – About Netflix
- 5.1: 192 kbps (良い) から640 kbps (鮮やか/知覚的に透明) まで
- ドルビーアトモス: 448 kbpsから768 kbpsまで (ドルビーアトモスはプレミアムプランに加入しているNetflixメンバーのみご利用いただけます)
なお、Apple 製品で 2048kbps 以上の Dolby Digital Plus 音声を再生すると、挙動が怪しくなるという問題があったりする。
Joint Object Coding
一方フォーマット名やトラック数表記にある “JOC” とは、Joint Object Coding の略である。
Dolby Digital Plus JOC では、Dolby Atmos 非対応の Dolby Digital Plus 対応機器とも互換性を保つため、Dolby Atmos を 5.1ch 〜 7.1ch にレンダリングしたものをコアとして持っている。そして、Dolby Digital Plus のビットストリームの拡張領域に、Dolby Atmos 用の差分データが記録されている。
コア部分のチャンネル数は 5.1ch にするか 7.1ch にするか、はたまた 6.1ch の Surround EX にするかは自由だが、Apple Music では検証した限りどれも 7.1ch で、Amazon Music ではどれも 5.1ch のようである。
Dolby Atmos 対応機器では、コアと差分データを合体させることで Dolby Atmos の音の再構築が可能となる。これが Joint Object Coding である。
一方、Dolby Atmos 非対応の Dolby Digital Plus 対応機器では、差分データを無視しコア部分のみを再生することで、5.1ch ~ 7.1ch での再生が行える。
なお、コア音声にはベッドの天井成分や音声オブジェクトの音を 5.1ch 〜 7.1ch にレンダリング (ダウンミックス) したもの含まれているので、合体前に差分音声の逆相で打ち消す必要がある。
逆相は予め差分データに含まれているのか、それとも再生時に差分データを 5.1ch 〜 7.1ch デコードして位相反転してるのかまでは情報がなく分からないが、後者は手間なのでおそらく前者だと思われる。
AVS Forum の The official Dolby Atmos thread (home theater version) ではコア音声はコア音声で、Dolby Atmos 音声はコア音声とは独立して、それぞれ個別に持っているのではないか、と主張する人もいるが、容量がもったいないし、そもそも “Joint” Object Coding という名称なので、恐らくそれはないと思われる。(真相不明)
Joint Object Coding などの詳細については、Dolby 公式サイトで詳しく解説されている。
Appendix C – Dolby Atmos Delivery Codecs – Dolby Professional Support Learning
上記の記事を含む一連の解説記事を読むと、Dolby Atmos に対する理解が深まるかもしれない。
Dolby Atmos Music Training – Dolby Professional Support Learning
上記のサイトは現在なぜか消されており、Wayback Machine には残っているが、全てのページが残っているかは不明。念のため、ほぼ同内容の解説記事 (こちらも公式サイトからは消えている) の Wayback Machine のリンクも貼っておく。
Dolby Atmos Post Production Learning – Dolby Professional Support Learning
英語が苦手な方や、「Dolby なんちゃら」がどれだけあるのかを知りたい方にはこの本もおすすめ。個人的にはオブジェクトオーディオの説明が分かりやすく書かれているように感じられた。(ただし筆者の Dolby Japan と本国の Dolby Laboratories とで言ってることが違っている箇所もあるので、あくまで入門時の参考程度に…)
ドルビーの魔法 カセットテープからDOLBY ATMOSまでの歩みをたどる | 電子書籍とプリントオンデマンド(POD) | NextPublishing(ネクストパブリッシング)
Joint Object Coding や Spatial Coding については、Dolby があまり情報を公開していない (ライセンスビジネスだしそれはそう) ので、正直まだ分かっていないことも多い。なので、現状はあまり深く考えずに「こんなものがあるんだなぁ」という認識で構わないと思う。
なお Dolby Digital Plus JOC は、上記の他にもオブジェクトなしの 5.1.4ch や 7.1.4ch などの CBI (Channel Based Immersive) や、5.1ch + 1 element の 7 トラック音声なども対応しているようだが、これらは Dolby の テスト用音源 ぐらいでしか見かけず、詳細不明。(後者は Dolby 自身 “specially-designed Dolby Atmos content” と呼んでいる)
Dolby Atmos (Dolby AC-4 IMS)
一方 Amazon Music でスマホやタブレット向けに Dolby Atmos を提供する際には、Dolby AC-4 IMS というフォーマットが使用される。
Amazon Music の Dolby Atmos (Dolby AC-4 IMS)
URL ql パラメーター | ファイル名 サフィックス |
AdaptationSet | Representation | Channel Configuration |
virtualized_ content |
ビット レート (kbps) |
||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
|||||
SPATIAL_ATMOS_LOW | 3D_Datmos_Low | 2500 | 2 | ac-4.02.02.00 | 48000 | 2 | 1 | 112 |
SPATIAL_ATMOS_MEDIUM | 3D_Datmos_Med | 2500 | 1 | ac-4.02.02.00 | 48000 | 2 | 1 | 256 |
Dolby AC-4 IMS は、Dolby Digital (AC-3) や Dolby Digital Plus (Enhanced AC-3) の後継となる Dolby AC-4 というコーデックにおける、IMS (Immersive Stereo) というフォーマットのことである。”AC-4 IMS” や “AC4-IMS” などと略されることもある。
主にスマホやタブレットのの内蔵ステレオスピーカーや、ステレオイヤホン / ヘッドホンなどで再生することを目的としている。
IMS では、5.1ch や Dolby Atmos などのマルチチャンネル音声を独自の処理 (詳細不明、マトリックスエンコードの亜種?) で専用の 2.0ch ステレオ音声に変換し、制御用のメタデータと一緒に伝送することにより、ビットレートを減らせるというものである。Dolby AC-4 IMS ではその仕組み上、Spatial Coding も Joint Object Coding も行われない。
Dolby AC-4 IMS はDolby Digital Plus JOC と比較すると、以下のようなメリットがある。
- ステレオ音声+メタデータなので、サイズが小さい
- そもそも Dolby AC-4 自体、Dolby Digital Plus や MP3、AAC などと比べて圧縮効率が高い
- ある程度事前処理されているので処理が軽い (Dolby 曰く Dolby Digital Plus JOC 比で 3 ~ 4 倍)
- Dolby Atmos の制作ツールではヘッドホンでのバイノーラル再生用の調整が可能なのだが、Dolby AC-4 IMS ではこの調整を反映することができる。
もちろん、逆に Dolby Digital Plus JOC にもメリットもある。
- 対応端末が多い (現状 iPhone や iPad は AC-4 IMS どころか、そもそも AC-4 自体に対応していない。とは言え Android 端末は 2018 年以降に出た Dolby Atmos 対応機種なら大抵 AC-4 に対応しているので、Apple が怠慢なだけとも…)
- AV アンプやサウンドバーなどに対し、HDMI 等で マルチチャンネル出力が可能 (そもそも今のほとんどの AV アンプやサウンドバーは AC-4 自体に対応していないし、対応したとしても IMS はホームシアター用ではない)
バイノーラル再生時に独自の音場エフェクトを掛けることが可能(→ 実は可能かもしれない。詳細は後ほど。)
このあたりは一長一短という感じだ。
特に、バイノーラルメタデータをサポートしたフォーマットは現状 Dolby AC-4 IMS しかないにも関わらず、Apple Music では Dolby Digital Plus JOC のみを使用している上、Apple は iPhone や iPad などで Dolby Digital Plus JOC を独自の “Spartial Audio” レンダラーでヘッドホン再生を行っているため、世界中のミキシングエンジニアの間で「iPhone と AirPods で Apple Music の Dolby Atmos を聴いたら思ってたのと違う!」という騒ぎが起きている。(詳細 → Why Your Atmos Mix Will Sound Different On Apple Music | Production Expert)
Logic Pro のヘッドホン再生では Dolby Renderer と Apple Renderer が用意されているが、このApple Renderer が Apple の空間オーディオを再現するものである。Dolby Renderer は IMS のヘッドホンモード同様、バイノーラルのメタデータが活かされる。
勘違いされがちなのだが、Dolby Atmos のマスターファイルから IMS にエンコードされる際にはバイノーラルメタデータも使用されるが、ここで生成される 2.0ch 音声自体はまだバイノーラル音声 (ヘッドホン用にバーチャライズした音声) ではない。IMS はあくまで中間フォーマットでしかない。
一般的なバイノーラル音声や HPL (Head Phone Listening)、DTS Headphone:X、Dolby Headphone、THX Spatial Audio などでの処理済み音声に関しては、エンコード時点ですでにヘッドホン用の処理が施されているため、スピーカー再生には向かないし、ヘッドトラッキングや HRTF のパーソナライズのような後処理も行えない。
一方 IMS は Dolby Atmos からのエンコード段階では特定の再生環境向けの処理は行わず、再生機器側にて、再生機器の状態に応じて (ヘッドホンで再生するのか内蔵スピーカーで再生するのか、そもそも Dolby Atmos で聴きたいのかステレオで聴きたいのか、によって) 処理を変化させることができる。
更に、IMS はヘッドトラッキングも行える上に、おそらく 2.0ch 以上の構成にも展開可能となっている点が、他のフォーマットに対する大きなアドバンテージとなっている。(HRTF のパーソナライズは不明)
Galaxy Buds Pro 及び Galaxy Buds2 にて、360 Audio (with Dolby Head Tracking) 機能を使用することによって、Dolby AC-4 IMS の音声をヘッドトラッキングができることを確認済み。
また、Dolby AC-4 IMS の 2.0ch 以上の構成への展開に関しては、Lenovo Tab P11 Pro (2nd Gen) にて確認済み。
このタブレットは 4 つのスピーカーを搭載しているが、その構成はよくある 2way ではなく、音の方向によって使用するスピーカーを制御している。タブレットの現在の向きに基づき、フロントは下側、フロントワイドは上下両方でやや下寄り、サラウンド ~ サラウンドバックとトップは上から、LFEは両方、といった調子だ。
(そのためか、スピーカー使用時は常時 Dolby の好音質化機能が働いており、2.0ch 音声はアップミックスされた上でスピーカーの割り振りがなされていている。)
そして、このタブレットで Dolby AC-4 IMS の音源を再生すると、上側のスピーカーと下側のスピーカーとで、それぞれ別の音が鳴っていることが確認できた。
ということは、Lenovo Tab P11 Pro (2nd Gen) が Dolby AC-4 IMS のスピーカー用処理済みの音声を誤ってアップミックスでもしていない限り、このフォーマットはただのバーチャライズ前提のものではなく、2.0ch 以上の環境にも展開可能なものということになる。
恐らく Dolby AC-4 IMS は、かつての Dolby Stereo / Dolby Surround や Dolby Pro Logic II 等のような、マトリックスエンコード / デコードの仕組みの延長線上にあるものだと思われる。
Dolby AC-4 IMS には様々なメリットがあり、まさにモバイル機器向けといったフォーマットであるにも関わらず、Apple Music が頑なにそれを採用しない理由は、恐らく独自でバーチャライズの処理をしたいからではないだろうかと推察される。 → 以前はそう考えていたが、Dolby AC-4 IMS はヘッドトラッキング可能な上に、2.0ch 以上の構成にも展開可能なことが分かった今、独自のバーチャライズ処理もある程度は可能なのではないかと考えられるので、なぜ採用しないのかよく分からない (制御用メタデータがある分、自由度は低いかもしれないが…)。
なお、Dolby AC-4 を使用した Dolby Atmos のフォーマットは、IMS 以外にも A-JOC (Advanced Joint Object Coding) というものも存在するが、現状配信サービス等での使用例は見かけない。Dolby AC-4 A-JOC は Dolby Digital Plus JOC の Dolby AC-4 版だと思われるが、配信サービス側としてはおそらく AV アンプやサウンドバー側の対応待ちなのだろう。
また、Dolby AC-4 は 5.1.4ch 等、CBI (Channel Based Immersive) と呼ばれるチャンネルベースのイマーシブサウンドにも対応しており、一部の国ではテレビ放送で使用されている。該当の国においては、 STB が Dolby AC-4 に対応していたりする。
Apple Music の 2.0ch ダウンミックス
Apple Music の空間オーディオには、オリジナルのステレオミックス版とは別で、2.0ch ダウンミックス版が存在している。
EXT-X-STREAM-INF:AUDIO EXT-X-MEDIA:GROUP-ID |
EXT-X-STREAM-INF | EXT-X-MEDIA | ビット レート (kbps) |
---|---|---|---|
CODECS | CHANNELS |
||
audio-HE-stereo-64-downmix | mp4a.40.5 | 2/-/DOWNMIX | 64 |
audio-stereo-128-downmix | mp4a.40.2 | 2/-/DOWNMIX | 128 |
audio-stereo-256-downmix | mp4a.40.2 | 2/-/DOWNMIX | 256 |
iPhone / iPad と空間オーディオ対応の AirPods シリーズを使用中、通信環境が悪い時に空間オーディオをストリーミング再生しようとするとこれが選択され、自動で「ステレオを空間化」機能が有効になり 5.1ch にアップミックスされて再生される。(Mac や Apple TV は不明)
なお、Android 版はこのような処理はなく、空間オーディオを有効にしていても、通信環境が悪い場合はバイノーラル版にすらならず、ステレオミックスが再生される。
この時、iOS / iPadOS 16 では、再生画面には Dolby Atmos や Dolby Audio のロゴが表示されるが、コントロールセンターの AirPods の音声ステータスは「ステレオ」になっている。「ステレオ」表示ではあるが、通常のステレオ音声再生時とは違って、右下のボタンは「ステレオを空間化」ではなく「空間オーディオ」になっている。
バイノーラル版を再生するのではなく、わざわざダウンミックス版をアップミックスしているのは、恐らくヘッドトラッキングや HRTF のパーソナライズのためなのだろう。
この処理については Apple 自身が動画で説明しているので、日本語字幕を抜粋して引用しておく。(なお、筆者にて句読点を追加している)
ステレオソースをアップミックスして、5.1チャンネルを再現する技術も提供しています。
(略)
また、この処理を暗黙のうちに行うことで、空間音声の採用や提供をより魅力的なものにします。
今現在、マルチチャンネル音声を配信することで、メディアの映像品質が損なわれることを心配される方もいるでしょう。
マルチチャンネルオーディオは現在提供されているステレオのAACレンディションよりも、はるかに高ビットレートです。
ネットワークの帯域が限られている中で、この2つを両立させるにはどうすればいいのでしょうか。これは本当に困ったことです。
この問題を解決するために、ユーザーの帯域に合わせて空間的なオーディオ体験を実現しました。
帯域が不足して高品質な映像を提供できない場合、音声はシームレスに劣化し、アップミックスされたステレオ音声になりますが、空間処理は変わりません。移行前に提供されていたヘッドトラッキングは維持されます。
その後、帯域が確実に回復すると、フルマルチチャンネルの空間処理が復活します。
Immerse your app in Spatial Audio – WWDC21 – Videos – Apple Developer
ステレオを空間化の詳細については以下の記事にて。
なぜ Apple Music ではアップミックスの際にオリジナルのステレオ版を使用しないのかは不明だが、恐らくステレオと空間オーディオとが切り替わった際に違和感を与えないようにするためだろうと思われる。
Apple の解説では映像作品の話を例にして音量にのみ言及しているが、音楽に関しては映像作品以上にステレオと空間オーディオとで演出が異なる可能性がある。
このようなアダプティブ空間オーディオ体験では、ステレオとマルチチャンネルの間で音量レベルを正規化することが、これまで以上に重要になります。
さらに、Dynamic Range Control (DRC) や dialnorm のメタデータを、適宜メディアエンコーディングに付与してください。
Immerse your app in Spatial Audio – WWDC21 – Videos – Apple Developer
もしかすると、このダウンミックスは「ステレオを空間化」で復元しやすいよう、マトリックスエンコードの処理がされている可能性もある。
正直、このような処理をするぐらいなら Dolby AC-4 IMS を使用してほしいものである。
360 Reality Audio
360 Reality Audio (サンロクマル・リアリティオーディオ / 360RA) は、ソニーのオブジェクトベースのイマーシブサウンドのフォーマット (というよりも制作から配信までのソリューション?) である。
Dolby Atmos と比べると、「上方向だけでなく下方向からの音も表現できる」「チャンネルベースの音声トラックを使用しない (LFE もない)、完全なオブジェクトベースオーディオ」といった特徴を持つ。
Amazon Music は 360 Reality Audio を採用しているが、Apple Music では今の所採用されていない。Apple Music は特に Dolby Atmos にこだわっているわけではなく、今後も対応フォーマットの拡充を進めていく予定らしい。
360 Reality Audio も Dolby Atmos 同様それ自体はコーデックではなく、コーデックとしては MPEG-H 3D Audio を使用している。MPEG-H 3D Audio は、MPEG-H Audio と呼ばれることもある。
MPEG-H 3D Audio を使用したフォーマットとしては、360 Reality Audio 以外にも THX Spatial Audio などがある。
Amazon Music の 360 Reality Audio
mha1
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | オブジェクト数 | ビット レート (kbps) |
|||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
使用 | 最大 | |||
SPATIAL_RA360_L0 | 3D_S360RA_L0 | 3000 | 4 | mha1.0x0c | 48000 | 5 | 5 | 320 |
SPATIAL_RA360_L1 | 3D_S360RA_L1 | 3000 | 3 | mha1.0x0d | 48000 | 10 | 10 | 640 |
SPATIAL_RA360_L2 | 3D_S360RA_L2 | 3000 | 2 | mha1.0x0d | 48000 | 13 | 16 | 1024 |
SPATIAL_RA360_L3 | 3D_S360RA_L3 | 3000 | 1 | mha1.0x0e | 48000 | 17 | 24 | 1536 |
mhm1
URL ql パラメーター |
ファイル名 サフィックス |
AdaptationSet | Representation | オブジェクト数 | ビット レート (kbps) |
|||
---|---|---|---|---|---|---|---|---|
selection Priority |
quality Ranking |
codecs | audio Sampling Rate |
使用 | 最大 | |||
SPATIAL_RA360_L0 | 3D_S360RA_L0 | 3500 | 4 | mhm1.0x0c | 48000 | 5 | 5 | 320 |
SPATIAL_RA360_L1 | 3D_S360RA_L1 | 3500 | 3 | mhm1.0x0d | 48000 | 10 | 10 | 640 |
SPATIAL_RA360_L2 | 3D_S360RA_L2 | 3500 | 2 | mhm1.0x0d | 48000 | 13 | 16 | 1024 |
SPATIAL_RA360_L3 | 3D_S360RA_L3 | 3500 | 1 | mhm1.0x0e | 48000 | 17 | 24 | 1536 |
mha1 と mhm1 は単一ストリームの MPEG-H 3D Audio を指す。これらのうち、mhm1 は MPEG-H Audio Stream (MHAS) でカプセル化されている。
MIMETYPE_AUDIO_MPEGH_MHA1
MIME type for MPEG-H Audio single stream
Constant Value: “audio/mha1”MIMETYPE_AUDIO_MPEGH_MHM1
MediaFormat | Android Developers
MIME type for MPEG-H Audio single stream, encapsulated in MHAS
Constant Value: “audio/mhm1”
MPEG-H 3D Audio において、
- 0x0b = Low Complexity Profile Level 1
- 0x0c = Low Complexity Profile Level 2
- 0x0d = Low Complexity Profile Level 3
- 0x0e = Low Complexity Profile Level 4
を指す。(頭の 0x は「これは 16 進数です」という意味)
If the MHAConfigurationBox() is present, the MPEG-H Profile-Level Indicator
ATSC Standard: A/342:2021 Part 3, MPEG-H Systemmpegh3daProfileLevelIndication
in theMHADecoderConfigurationRecord()
shall be set to “0x0B”, “0x0C”, or “0x0D” for MPEG-H Audio Low Complexity Profile Level 1, Level 2, or Level 3, respectively.
MIMETYPE_AUDIO_MPEGH_LC_L3
MIME type for MPEG-H Low Complexity (LC) L3 audio stream. Uses the scheme defined by RFC 6381 with mpegh3daProfileLevelIndication for LC profile/L3 (0xD) from ISO/IEC 23008-3.
Constant Value: “audio/mhm1.0d”
MIMETYPE_AUDIO_MPEGH_LC_L4
MIME type for MPEG-H Low Complexity (LC) L4 audio stream. Uses the scheme defined by RFC 6381 with mpegh3daProfileLevelIndication for LC profile/L4 (0xE) from ISO/IEC 23008-3.
Constant Value: “audio/mhm1.0e”
MediaFormat | Android Developers
MPEG-H 3D Audio でエンコードされた 360 Reality Audio 音源のことは、360 Reality Audio Music Format と呼ぶ。360 Reality Audio Music Format は 3 つのレベル (と規格外のレベル 1 つ) が定義されている。
最大オブジェクト数24個/平均ビット・レート1.5MbpsのLevel 3をはじめ、16個/1MbpsのLevel 2、10個/640kbpsのLevel 1、そして360 Reality Audio Music Format外だが5個/320kbpsのLevel 0.5。
360 Reality Audioの仕組みとコンテンツ制作の方法 – サンレコ 〜音楽制作と音響のすべてを届けるメディア
なお、Amazon Music の 360 Reality Audio の音声ファイルの中身を MediaInfo で見てみると、Level 2 では 13 オブジェクト、Level 3 では 17 オブジェクトしか使っていないように見受けられる。が、あくまでファイルのメタデータ上の話で、実際のところは不明。
Level 0
音声
ID : 1
形式 : MPEG-H 3D Audio
形式のプロファイル : LC@L2, BL@L2
コーデック ID : enca / mhm1
長さ : 5分 5秒
ビットレート : 335 Kbps
チャンネル : 8 チャンネル (7.1)
チャンネルの配置 : L R C LFE Ls Rs Lw Rw
サンプルレート : 48.0 KHz
フレームレート : 46.875 fps (1024 SPF)
ストリームのサイズ : 12.2 MiB (98%)
エンコード日 : 2022-10-23 20:59:59 UTC
タグ付け日 : 2022-10-23 20:59:59 UTC
Encryption : Encrypted
プログラム ラウドネス : -9.00 LKFS
Signal group #1 : 5 objects
種類 : Object
Number of objects : 5 objects
コーデック構成ボックス : mhaC
Level 1
音声
ID : 1
形式 : MPEG-H 3D Audio
形式のプロファイル : LC@L3, BL@L3
コーデック ID : enca / mhm1
長さ : 5分 5秒
ビットレート : 669 Kbps
チャンネル : 12 チャンネル (7.1.4)
チャンネルの配置 : L R C LFE Lb Rb Lss Rss Tfl Tfr Tbl Tbr
サンプルレート : 48.0 KHz
フレームレート : 46.875 fps (1024 SPF)
ストリームのサイズ : 24.4 MiB (99%)
エンコード日 : 2022-10-23 20:59:59 UTC
タグ付け日 : 2022-10-23 20:59:59 UTC
Encryption : Encrypted
プログラム ラウドネス : -8.25 LKFS
Signal group #1 : 10 objects
種類 : Object
Number of objects : 10 objects
コーデック構成ボックス : mhaC
Level 2
音声
ID : 1
形式 : MPEG-H 3D Audio
形式のプロファイル : LC@L3, BL@L3
コーデック ID : enca / mhm1
長さ : 5分 5秒
ビットレート : 1,070 Kbps
チャンネル : 12 チャンネル (7.1.4)
チャンネルの配置 : L R C LFE Lb Rb Lss Rss Tfl Tfr Tbl Tbr
サンプルレート : 48.0 KHz
フレームレート : 46.875 fps (1024 SPF)
ストリームのサイズ : 39.0 MiB (99%)
エンコード日 : 2022-10-23 20:59:59 UTC
タグ付け日 : 2022-10-23 20:59:59 UTC
Encryption : Encrypted
プログラム ラウドネス : -8.25 LKFS
Signal group #1 : 13 objects
種類 : Object
Number of objects : 13 objects
コーデック構成ボックス : mhaC
Level 3
音声
ID : 1
形式 : MPEG-H 3D Audio
形式のプロファイル : LC@L4, BL@L3
コーデック ID : enca / mhm1
長さ : 5分 5秒
ビットレート : 1,604 Kbps
チャンネル : 24 チャンネル (22.2)
チャンネルの配置 : Lw Rw C LFE Lb Rb L R Cb LFE2 Lss Rss Tfl Tfr Tfc Tc Tbl Tbr Tsl Tsr Tbc Bfc Bfl Bfr
サンプルレート : 48.0 KHz
フレームレート : 46.875 fps (1024 SPF)
ストリームのサイズ : 58.5 MiB (100%)
エンコード日 : 2022-10-23 20:59:59 UTC
タグ付け日 : 2022-10-23 20:59:59 UTC
Encryption : Encrypted
プログラム ラウドネス : -8.75 LKFS
Signal group #1 : 17 objects
種類 : Object
Number of objects : 17 objects
コーデック構成ボックス : mhaC
Amazon Music においては、360 Reality Audio Music Format のレベルは URL の ql パラメーターや、ファイル名のサフィックス (接尾語) として記載されている。L0 とはオブジェクト数的に Level 0.5 のことを指しているのだろう。
なお、このレベルは 360 Reality Audio におけるグレードを表すためのものであり、MPEG-H 3D Audio のレベルとは異なる。
空間オーディオを聴けるスマホやタブレット
冒頭の表を再掲する。
プラット フォーム |
iPhone / iPad | Android 端末 | ||||||
---|---|---|---|---|---|---|---|---|
DD+ JOC | 対応 | 非対応 | 対応 | 対応 | 非対応 | |||
AC-4 IMS | 非対応 | 非対応 | 対応 | 非対応 | 非対応 | |||
出力先 | 空間オーディオ対応 内蔵スピーカー |
空間オーディオ 対応ヘッドホン |
空間オーディオ 非対応ヘッドホン |
– | – | – | – | |
その他条件 | – | 通信速度:高 | 通信速度:低 | 空間オーディオ: 常にオン |
– | – | – | – |
Amazon Music |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (端末側) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
Apple Music |
DD+ JOC Apple Renderer (端末側) |
DD+ JOC Apple Renderer (端末側) |
AAC 2.0ch *1 ダウンミックス Apple Renderer (端末側) |
AAC 2.0ch バイノーラル Dolby Renderer? (サーバー側) |
– | DD+ JOC Dolby Renderer (端末側) |
DD+ JOC Dolby Renderer (端末側) |
– |
TIDAL | AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (アプリ内) |
AC-4 IMS Dolby Renderer (端末側) |
不明 | 不明 |
*1 「ステレオを空間化」のアップミキサー (ScottySTFTUpmixer) にて、5.1ch にアップミックス (マトリックスデコード?) してから、Apple Renderer でバーチャライズ。
Amazon Music
2024/6/15 現在、Amazon Music は以下のようになっている。
- Dolby Atmos
- Dolby AC-4 IMS に対応している Android 端末: 端末側で処理
- Dolby AC-4 IMS 非対応の Android 端末や、iPhone / iPad: アプリ内で処理
- 360 Reality Audio
- 360 Reality Audio 対応端末: アプリ内で処理 (→ 個人最適化やヘッドトラッキングは不可)
- 360 Reality Audio 非対応端末: アプリ内で処理
なお、以前は Dolby Atmos も、対応端末でもアプリ内で処理される仕様だったが、2024年5月末リリースの 24.9.0 より上記の仕様となった。
要は、Amazon Music アプリの最新バージョンさえインストールできれば、どんな機種でも空間オーディオを聴くことができる。ただし、その仕様により、以下のような問題が発生している。
Apple Music
一方 Apple Music では、Dolby Digital Plus JOC を端末の Dolby Atmos デコーダーに処理させているため、Dolby Digital Plus 非対応端末では Dolby Atmos の設定項目が現れない。
なお、先程「Dolby Digital Plus JOC は、Dolby Atmos 非対応の Dolby Digital Plus 対応機器とも互換性がある」と述べたが、この仕様を利用しているのは iOS / iPadOS 版のみで、Android 版は端末が Dolby Digital Plus JOC に対応していないと、Dolby Atmos / Dolby Audio 音声を聴くことはできない。
実際、以下に示す様々な Dolby Audio 対応 (= Dolby Digital / Dolby Digital Plus 対応だが Dolby Digital Plus JOC は非対応) 機種で検証したところ、空間オーディオの設定は現れなかった。
- arrows NX F-01K (Android 9)
- Lenovo Tab M8 HD (2nd Gen) (Android 10)
- Lenovo Tab K10 (Android 11 ~ 12)
- Pixel 6 (Android 13 ~ 14)
- Pixel 8 Pro (Android 14)
- Pixel 9 Pro XL (Android 14 ~ 15)
逆に、Dolby Atmos 対応の Android に対して Dolby Audio 音声は一応提供されているものの、提供されるのは 7.1ch 音声のみで、5.1ch 音声は提供されない (2.0ch 音声の提供になる) という、謎の状態となっている。
なお、iOS / iPadOS 版は再生画面用に「Dolby Audio」のロゴも用意されているが、Android 版は Dolby Audio を再生しても、再生画面のロゴは「Dolby Atmos」となる。
こんにちは、私は台湾のネチズンです。この文章は Google 翻訳を通じて日本語に翻訳されました。
空間オーディオに関する多くのコンテンツを企画・公開していただき、大変感謝しており、感心しております。
お聞きしたいのですが、Apple Music で Dolby Atmos の曲を再生するために SONY Xperia 5 IV を使用しているのですが、携帯電話自体の Dolby Sound 機能がオンになっていない場合、Dolby Atmos は正しくデコードできますか?
はい、正しく再生できます。 、しかし、私にはそれをオンにするのは違うように思えます。ドルビーアトモスという言葉はまだApple Musicに表示されていますが、ドルビーをオンにしない限り、携帯電話のステータス表示には「ドルビーアトモス」ではなく「通常」のみが表示されます。
私は Xperia 1 IV ユーザーですが、Xperia 5 IV も恐らく同じ挙動だと思われるので、その前提で解説します。
結論から言いますと、Android 13 の場合、Dolby Atmos 再生時に Dolby Sound をオンにする必要はありません。
Android 12 の頃は、Dolby Sound がオンでもオフでも、Dolby Atmos を再生すると「Dolby Atmos」と表示されていたと記憶していますが、Android 13 では Dolby Sound がオンのときのみ「Dolby Atmos」表示、オフのときは「ノーマル」表示になるよう変更されました。
ですが、この「ノーマル」表示になっているとき (Dolby Sound がオフのとき) でも、バーチャライザー (Dolby Surround Virtualizer) のような Dolby Atmos の再生に必要最低限な機能は暗黙的に適用され、ダウンミックスになることはありません。
Dolby Sound をオンにすることで有効になるのは、必ずしも必要ではない音質/音量改善機能です。
なお、この挙動はあくまで Xperia 1 IV の例であり、他の機種では異なる場合がありますのでご注意ください。