音楽サブスクはどのように空間オーディオを提供しているのか

最終更新日

はじめに

最近、特に Amazon Music や Apple Music が空間オーディオを提供するようになってから、Dolby Atmos や 360 Reality Audio などを利用した楽曲が注目されている。

だが、それらはストリーミングサービスというクローズドな環境で提供される上に、Dolby Atmos に関しては Dolby のプロプライエタリなフォーマットを使用している。

そのため、それらのフォーマットで音楽制作する方法や再生する方法については様々なメディアで解説されているが、制作された音源がどのようにエンコードされ、視聴者のもとへ届けられ、そしてデコードされるかの「間」の部分に関しては、あまり知られていない。

この記事では、音楽サブスクを対象に、今まであまり触れられてこなかった空間オーディオの中間部分について解析し、解説していこうと思う。

サンレコのコラムで当記事が紹介されました。このコラムへの監修もしています。

コーデックから知るDolby Atmos再生環境 〜【第21回】DIYで造るイマーシブ・スタジオ 古賀健一 – サンレコ 〜音楽制作と音響のすべてを届けるメディア

なお、「配信サービスと採用コーデックの一覧」の表で、Amazon Music の AV アンプ / サウンドバーのところが「ソフトウェア」となっていますが、正しくは「ハードウェア」です。(元の表では正しく記載していたのですが…)

また、このコラムが出て 1 ヶ月もしないうちに、TIDAL が iPhone / iPad にも Dolby Atmos を提供するようになりました [詳細]。Dolby Atmos を再生しても、コントロールセンターの AirPods の音声ステータスは「ステレオ」表示になるようなので [参考1] [参考2]、挙動的にはおそらく TIDAL のアプリ内でデコード & バーチャライズ処理をしている (表で言うところの「ソフトウェア」に該当) と思われます。この挙動が正しいとすると、あえてこのような処理にしているということは、使用されているフォーマットは Dolby AC-4 IMS だと思われます。

配信システム

プロトコル

Apple Music では Apple が提唱する HLS (HTTP Live Streaming) が使用されている。一方 Amazon Music では MPEG-DASH (Dynamic Adaptive Streaming over HTTP) が用いられている。MPEG-DASH は単に DASH と呼ばれることも多いため、この記事でも以後 DASH と呼ぶことにする。HLS も DASH も、その名の通り HTTP を用いてメディアファイルをストリーミング配信する規格である。

両技術とも、メディアファイルは一定時間ごとに分割されており、分割された一つ一つのパーツをセグメント、あるいはチャンクと言う。分割することによってファイル全体のダウンロードが完了するのを待つことなく再生を開始することができるし、途中から再生する場合にファイルを冒頭から取得してくる必要もない (もちろんヘッダー情報等は必要ではあるが)。さらに、ネットワークの速度や安定性などに応じて再生中にシームレスにビットレートを切り替える「アダプティブビットレート」も行うことができる。

DASH は HLS よりも新しい規格であるが、DASH 登場以前は Apple の HLS の他にも Microsoft の SS (Smooth Streaming) や Adobe の HDS (HTTP Dynamic Streaming) など、同様のストリーミング規格がいくつか存在していた。DASH はこれらの独自規格をまとめるべく策定された規格であり、ISO/IEC 23009-1 として国際標準となっている。そのため、HLS と DASH は細かな違いはあるものの、大枠はほぼ同じである。

マニフェストファイル

Apple Music で使用される HLS では、1 つのメディアにつき 2 つのマニフェストファイルを用いて再生を制御している。1 つはマスタープレイリストやマスターマニフェストなどと呼ばれるもので、もう 1 つはインデックスファイルと呼ばれるものである。

マスタープレイリストは、名前に「マスター」とあるように、一つ一つのコンテンツ (作品) ごとの各メディアファイル (ステレオの低ビットレート版と高ビットレート版、Dolby Atmos の低ビットレート版と高ビットレート版などなど…) を取りまとめるものであり、「プレイリスト」とあるように各メディアファイルの情報 (コーデック、ビットレート、サンプリング周波数、量子化ビット数、インデックスファイルの URL など) が M3U プレイリスト形式で記述されている。

一方のインデックスファイルは各メディアファイルごとに存在し、メディアファイルの URL、セグメントの再生順、各セグメントの秒数などが記されている。

HLS の再生手順は以下の通り。

  1. クライアント側の再生ソフトが、再生するコンテンツのマスタープレイリストをサーバーから取得する。
  2. 再生機器 (あるいは再生ソフト) が対応しているコーデック、ユーザーの画質/音質設定、ネットワーク状況などをもとに、マスタープレイリストから最適なフォーマットを決定する。
  3. 再生したいメディアファイルのインデックスファイルの URL をマスタープレイリストから読み取り、インデックスファイルを取得する。
  4. インデックスファイルに従い、メディアファイルを取得して再生を行う。

一方 Amazon Music の DASH では、MPD (Media Presentation Description) というマニフェストファイルが使用される。MPD は HLS のマスタープレイリストとインデックスファイルを 1 つにまとめたようなもので、XML 形式で記述されている。

音源の仕様 (最終確認: 2024/03/21)

マニフェストファイルに記載されているメディアファイルの情報を見やすい形にまとめた。

ファイル名サフィックス、オブジェクト数、ビットレート以外の項目は、マニフェストファイルの値そのままを記載しているため、一部わかりにくい表記が存在する。詳細に関しては、後で詳しく解説するため、今はすべて理解する必要はない。

ちなみに、Amazon Music では項目名が “audioSamplingRate” “bitDepth” といった一見奇妙な書き方がされているが、これは lowerCamelCase という記法である。Apple Music の “SAMPLE-RATE” や “BIT-DEPTH” といった記法は、UPPER-KEBAB-CASE や SCREAMING-KEBAB-CASE などと呼ばれる。

なお、Apple Music Classical は、あくまで UI をクラシックに最適化したアプリであり、音源などは Apple Music のものをそのまま使用している。

Amazon Music – ステレオ

SD

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
SD_LOW Low 1000 3 opus 48000 48
SD_MEDIUM Medium 1000 2 opus 48000 192
SD_HIGH High 1000 1 opus 48000 320

44.1kHz ではなく 48kHz なのは Opus の仕様

HD

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
bit
Depth
HD_44 HD44 2000 4 flac 44100 16
HD_48 HD48 2000 3 flac 48000 16
HD_96 HD96 2000 2 flac 96000 16

ロスレスのうち、16bit のものはサンプリング周波数に関わらず HD 扱いされる。88.2kHz の音源は 48kHz へ、176.4kHz の音源は 96kHz へ、それぞれダウンコンバートされる。192kHz / 16bit は未発見。

ULTRA HD

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
bit
Depth
UHD_44 UHD44 2000 0 flac 44100 24
UHD_48 UHD48 2000 3 flac 48000 24
UHD_96 UHD96 2000 2 flac 96000 24
UHD_192 UHD192 2000 1 flac 192000 24

ロスレスのうち、24bit のものはサンプリング周波数に関わらず ULTRA HD 扱いされる。88.2kHz の音源は 48kHz へ、176.4kHz の音源は 96kHz へ、それぞれダウンコンバートされる。

Apple Music – ステレオ

ロッシー

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF ビット
レート
(kbps)
CODECS
audio-HE-stereo-64 mp4a.40.5 64
audio-stereo-128 mp4a.40.2 128
audio-stereo-256 mp4a.40.2 256
  • mp4a.40.5 = MPEG-4 HE-AAC v1
  • mp4a.40.2 = MPEG-4 AAC LC

ロスレス

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA
CODECS SAMPLE
-RATE
BIT-
DEPTH
audio-alac-stereo-44100-16 alac 44100 16
audio-alac-stereo-44100-24 alac 44100 24
audio-alac-stereo-48000-16 alac 48000 16
audio-alac-stereo-48000-24 alac 48000 24

ロスレスのうち、48kHz 以下のものは量子化ビット数に関わらずハイレゾ扱いされない。

ハイレゾロスレス

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA
CODECS SAMPLE
-RATE
BIT-
DEPTH
audio-alac-stereo-88200-24 alac 88200 24
audio-alac-stereo-96000-16 alac 96000 16
audio-alac-stereo-96000-24 alac 96000 24
audio-alac-stereo-176400-24 alac 176400 24
audio-alac-stereo-192000-24 alac 192000 24

ロスレスのうち、88.2kHz 以上のものは量子化ビット数に関わらずハイレゾ扱いされる。96kHz 以外の 16bit 音源は未発見。

Amazon Music – 空間オーディオ

Dolby Atmos (Dolby Digital Plus JOC / ホームシアター用)

URL ql パラメーター ファイル名
サフィックス
AdaptationSet Representation Channel
Configuration
EC3_
Extension
Complexity
Index
EC3_
Extension
Type
ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
SPATIAL_ATMOS_LOW (不明) 3000 3 ec-3 48000 6 256
SPATIAL_ATMOS_MEDIUM (不明) 3000 2 ec-3 48000 6 16 JOC 448
SPATIAL_ATMOS_HIGH (不明) 3000 1 ec-3 48000 6 16 JOC 768

ec-3 は Dolby Digital Plus (Enhanced AC-3) のこと。量子化ビット数の記載はないが、恐らくすべて 16bit だと思われる。なお、一番上のものは 5.1ch ダウンミックス。

Dolby Atmos (Dolby AC-4 IMS / モバイル機器用)

URL ql パラメーター ファイル名
サフィックス
AdaptationSet Representation Channel
Configuration
virtualized_
content
ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
SPATIAL_ATMOS_LOW 3D_Datmos_Low 2500 2 ac-4.02.02.00 48000 2 1 112
SPATIAL_ATMOS_MEDIUM 3D_Datmos_Med 2500 1 ac-4.02.02.00 48000 2 1 256

ac-4.02.02.00 は Dolby AC-4 というコーデックの、Immersive Stereo (IMS) というフォーマットのことである。

360 Reality Audio

mha1

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation オブジェクト数 ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
使用 最大
SPATIAL_RA360_L0 3D_S360RA_L0 3000 4 mha1.0x0c 48000 5 5 320
SPATIAL_RA360_L1 3D_S360RA_L1 3000 3 mha1.0x0d 48000 10 10 640
SPATIAL_RA360_L2 3D_S360RA_L2 3000 2 mha1.0x0d 48000 13 16 1024
SPATIAL_RA360_L3 3D_S360RA_L3 3000 1 mha1.0x0e 48000 17 24 1536

mhm1

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation オブジェクト数 ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
使用 最大
SPATIAL_RA360_L0 3D_S360RA_L0 3500 4 mhm1.0x0c 48000 5 5 320
SPATIAL_RA360_L1 3D_S360RA_L1 3500 3 mhm1.0x0d 48000 10 10 640
SPATIAL_RA360_L2 3D_S360RA_L2 3500 2 mhm1.0x0d 48000 13 16 1024
SPATIAL_RA360_L3 3D_S360RA_L3 3500 1 mhm1.0x0e 48000 17 24 1536

量子化ビット数の記載はないが、360 Reality Audio の仕様的に、恐らくすべて 24bit だと思われる。

  • mha1 = MPEG-H 3D Audio、単一ストリーム
  • mhm1 = MPEG-H 3D Audio、単一ストリーム、MPEG-H Audio Stream (MHAS) でカプセル化
  • 0x0c = Low Complexity Profile Level 2
  • 0x0d = Low Complexity Profile Level 3
  • 0x0e = Low Complexity Profile Level 4

Apple Music – 空間オーディオ

Dolby Audio

字面が似ていて紛らわしいが、Dolby Atmos ではなく Dolby Audio。Apple Music では 5.1ch や 7.1ch の音源のことを指している。

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-ac3-448 ac-3 6 448

ac-3 は Dolby Digital (AC-3) のこと。Apple Music の Dolby Audio の説明的には 7.1ch も受け入れているようだが、現状 7.1ch の楽曲は未発見のため詳細不明。

Dolby Atmos (Dolby Digital Plus JOC)

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-atmos-2448 ec-3 16/JOC 448
audio-atmos-2768 ec-3 16/JOC 768

サンプリング周波数と量子化ビット数の記載はないが、恐らくすべて 48kHz / 16bit だと思われる。Apple Music は 現状 Dolby AC-4 IMS は非採用。

2.0ch ダウンミックス

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-HE-stereo-64-downmix mp4a.40.5 2/-/DOWNMIX 64
audio-stereo-128-downmix mp4a.40.2 2/-/DOWNMIX 128
audio-stereo-256-downmix mp4a.40.2 2/-/DOWNMIX 256

iPhone / iPad と、空間オーディオ対応のイヤホン / ヘッドホンの組み合わせで、通信速度が遅い状況で再生した際に使用される。自動的に「ステレオを空間化」機能が有効になり、5.0ch にアップミックスされる。

バイノーラル

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-HE-stereo-64-binaural mp4a.40.5 2/-/BINAURAL 64
audio-stereo-128-binaural mp4a.40.2 2/-/BINAURAL 128
audio-stereo-256-binaural mp4a.40.2 2/-/BINAURAL 256

iPhone / iPad と、空間オーディオ非対応のイヤホン / ヘッドホンの組み合わせで再生した際に使用される。

セグメントとコンテナ

インデックスファイルや MPD を見てみると、Apple Music のロスレスや空間オーディオの楽曲は約 15 秒ごと (ロッシーは不明)、Amazon Music の楽曲は約 10 秒ごとのセグメントに分割されている。

分割された音声は、両サービスとも単一のファイルでセグメント化されたデータを扱うことが可能な fMP4 (fragmented MP4) コンテナに格納されている。

DRM

Amazon Music の MPD には、DRM として Microsoft PlayReady を使用していることが明記されている。一方 Apple Music は何を使用しているのかは分からないが、Apple は独自で FairPlay という DRM 技術を持っているので、恐らくこれを使用しているものと思われる。

Dolby Audio

Dolby Audio とは

Apple Music の空間オーディオと言えば Dolby Atmos だけだと思われがちだが、ごく少数ながらも 5.1ch や 7.1ch で配信されているものもある。「ドルビーオーディオ」と表示されている楽曲がそれである。

ドルビーオーディオは、ドルビー5.1および7.1を含むサラウンドサウンド形式です。

ただし、ステレオ版しか配信していないのになぜか Dolby Audio ロゴが表示されるものもあるため、注意が必要だ (詳細は後述)。

なお、Apple Music にて Dolby Audio で配信されている楽曲は、確認した限りAmazon Music ではステレオまたは 360 Reality Audio での配信となっていた。Amazon Music は Dolby Atmos の楽曲を 5.1ch ダウンミックスで配信していたりはするが、どうやらもともと 5.1ch の楽曲はステレオでしか配信していないようだ。

逆に、Apple Music はまだ 360 Reality Audio に対応していないので、Amazon Music には 360 Reality Audio を、Apple Music にはその 5.1ch ダウンミックスを納品する、という例もあるようだ。

すべての 360 Reality Audio の楽曲がそうなっているというわけではなく、むしろ Amazon Music では 360 Reality Audio、Apple Music ではステレオのみ、という場合のほうが多い。


Dolby Audio とは、Dolby Atmos 関連や Dolby Voice 関連以外のほぼすべての Dolby の音響技術を総称したブランドである。

Dolby の音響技術があまりにも多くなったので、Dolby Atmos に対応する製品には Dolby Atmos のロゴのみを、Dolby Atmos には対応しないが Dolby Audio に含まれる音響技術のいずれかに対応する場合は Dolby Audio のロゴのみを付与するように定められた。

Apple Music だけでなく、非 Dolby Atmos の Dolby Digital (Plus) や Dolby TrueHD を採用する BD (BDMV) や UHD BD 等においても、ロゴはそれぞれのコーデックのロゴではなく Dolby Audio ロゴを表示するよう定められた。

1. DTS-HD MA (96kHz/24bit) 2chステレオ
2. DTS-HD MA (48kHz/24bit) 5.1chサラウンド
3. Dolby ATMOS

ただし Dolby Atmos 採用作品の場合は、Dolby Atmos 非対応環境で視聴した場合は 5.1ch 〜 7.1ch ダウンミックスになってしまう (理由は後述) ためか、あるいは BDMV や UHD BD のDolby TrueHD (Dolby Atmos のコーデックとして使用されている) には互換用の Dolby Digital (AC3 Core などと呼ばれる) が付属しているためか、Dolby Atmos ロゴと Dolby Audio ロゴの両方が表示されることもあるが、このあたりはメーカーによる。

Dolby Audio と Dolby Atmos の違いについて「Dolby Audio は 5.1ch や 7.1ch 等で、Dolby Atmos は天井からも音が鳴らせるもの」や「Dolby Audio はスマホや PC の高音質化技術で、Dolby Atmos は映画館等で使われるサラウンド技術」などと言われることもあるが、それらはごく一部分に過ぎない。Dolby Atmos と Dolby Audio の違いは「Dolby Atmos 関連の音響技術か、そうでないか」である。

長々と書いたが、Apple Music に限って言えば、Dolby Audio は 5.1ch や 7.1ch のサラウンド音声という認識で構わない。

Dolby Audio のコーデック

Apple Music の Dolby Audio

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-ac3-448 ac-3 6 448

Apple Music にて 5.1ch で配信されている楽曲は、マスタープレイリストを参照するとコーデックは ac-3 となっている。

AC-3 とは Audio Code number 3 の略で、Dolby の3番目の音声符号化技術である Dolby Digital のことを指す。AC-3 は技術的な名称、Dolby Digital はマーケティング用の名称、という立ち位置になっている。

Dolby Digital はロッシー圧縮のコーデックで、最大 5.1ch、48kHz / 16bit、640kbps まで対応している。Apple Music の Dolby Digital は 448kbps となっているが、これはちょうど DVD-Video における Dolby Digital 音声の制限と一致している。

ディスクの物理的な容量やアプリケーションフォーマットの仕様に縛られる円盤メディアと違って、ネット配信では 448kbps に制限する理由も特になく、640kbps 程度なら問題なくストリーミングできるはずなのだが…。

Dolby Digital (AC-3) には後継規格の Dolby Digital Plus (Enhanced AC-3) が存在している。Dolby Digital Plus は、基本的には (*) Dolby Digital よりも圧縮効率がよく高音質なためか、Netflix や Amazon Prime Video などの大手動画ストリーミングサービスの 5.1ch 音声では専ら Dolby Digital Plus が用いられている。

* 少なくともネット配信においては BDMV のように Dolby Digital Plus の Independent Substream を Dolby Digital にする理由も特に無く、5.1ch でもちゃんと Dolby Digital Plus になっているはずなので

てっきり Apple Music も 5.1ch は Dolby Digital Plus で配信しているものだと思っていたので、Dolby Digital だと分かったときは驚いた。

Apple Music 上の説明では 7.1ch の音源が存在することも示唆されているが、現状そのような楽曲は発見できていない。もし存在するとすれば、Dolby Digital は規格上 5.1ch までしか対応していないこと、及び Dolby AC-4 や Dolby TrueHD は iPhone や iPad などが対応していないことから、おそらく Dolby Digital Plus で配信されるものと思われる。

Dolby Atmos and Dolby Audio playback supports Dolby Digital Plus JOC, Dolby Digital Plus, Dolby Digital.

Dolby Audio Apple iOS Device Support Dolby Developer | Dolby Developer

Dolby Digital は 48kHz / 16bit まで、Dolby Digital Plus は 48kHz / 20bit までしか対応してないため、Apple 基準のハイレゾ (88.2kHz 以上) には対応していない。そしてどちらもロッシーコーデックである。(アルバムページに「ロスレス」と「Dolby Atmos」のロゴが共存している場合、それは単にステレオ版がロスレスで提供されているというだけである)

Dolby TrueHD を使用すれば、Dolby Audio 音源を最大 192kHz / 24bit のハイレゾロスレスで提供できるのだが、現状 iPhone にも iPad にも Apple TV にも Android 端末にも Dolby TrueHD デコーダーは載っていないため、すぐには難しいだろう。

iPhone XR / XSシリーズがアップデートで Dolby Atmos に対応したときのように、Apple がその気になれば Apple 製品にはデコーダーが載ることがあるのかもしれないが…。


なお、Dolby Atmos に対応している Android 端末であれば Dolby Digital デコーダーや Dolby Digital Plus デコーダーは必ず載っているのだが、現在 Android 版 Apple Music は Dolby Atmos に対応した 3.6.0 以来、執筆時点で最新の 4.6.0 でも未だに Dolby Audio 非対応となっている。

Dolby Atmos のストリーミング設定やダウンロード設定をオンにしても、Dolby Audio で配信されている楽曲はステレオ版しか降ってこない。アルバム詳細ページ等に Dolby Audio のロゴも表示されない。今後のアップデートでの改善に期待したい。

Dolby Audio の謎

Apple Music の Dolby Audio には色々謎がある。Apple Music の Dolby Audio、特に 7.1ch 音源のコーデックやビットレートについて知りたいのだが、Apple Music にはただでさえ Dolby Audio コンテンツが少ない上に、偽 Dolby Audio も多く、混沌としている。

① Dolby Atmos で配信されているものの、一時的に Dolby Audio 表記になるパターン

再生直後は Dolby Audio 表記になり、何度か再生し直したり、時間をおいて再生し直しているうちに Dolby Atmos 表記になるパターン。現状 iOS / iPadOS 版でのみ確認している。

このパターンの奇妙な点は、マスタープレイリストを確認しても、Dolby Atmos で配信されている楽曲は Dolby Audio では配信されていないというところだ。にも関わらず、アプリ上では Dolby Audio のロゴが表示されている。

状況的に考えて、これは後述する 2.0ch ダウンミックス版を 5.1ch アップミックスしているか、バイノーラル版を再生している際に表示されるものではないかと思われるのだが、iPadOS 16 の iPad mini (第 6 世代) では再現しなかった。iOS / iPadOS 15 時代の仕様なのか、また別の条件があるのか…


② Dolby Audio 表記があるものの、実際にはステレオでしか再生されないパターン

アルバムには Dolby Audio 表記があるものの、再生時にはステレオ版でしか再生されないというパターン。こちらも現状 iOS / iPadOS 版でのみ確認している。サントラを中心に目撃例が増えている。

これは単に Dolby Audio よりもロスレスのほうが優先されてしまっている、という話ではなく、そもそもマスタープレイリストを見てもステレオ版しか存在していないといったもの。単なる表示バグなのではないかと思われる。

③ 海外では Dolby Audio で配信されているものの、日本ではステレオ版しか配信されていないパターン

「この曲が Dolby Audio で配信されている」という情報の中には Dolby Atmos のことを Dolby Audio と表記していたり、パターン①の状態だったりすることもあるのだが、そもそも日本では Dolby Audio でも Dolby Atmos でも提供されておらず、マスタープレイリストにもステレオ版しか載っていない、といったもの。

特定の楽曲が一部の国では配信されていないということはたまにあるのだが、空間オーディオ版が一部の国に限られているのは謎である。

Dolby Atmos

ドルビーアトモスは、サウンドが頭上を含むあらゆる方向から流れ、臨場感あふれるオーディオ体験を実現します。

まずはじめに断っておくが、Dolby Atmos 自体はコーデックではない。Dolby Atmos は Dolby Digital / Digital Plus や Dolby TrueHD 等の進化版ではなく、5.1ch や 7.1ch の進化版のようなものだと捉えていただきたい。

Dolby Atmos は、7.1ch (Dolby Surround 7.1 の配置) にトップ (天井) チャンネルをステレオで追加した、計 7.1.2ch のチャンネルベースの音声トラック (これをベッドと呼ぶ) をベースに、最大 118 個の音声オブジェクトを配置することができる、イマーシブサウンドのフォーマットである。Dolby Atmos だけでなく DTS:X や 360 Reality Audio に関しても、これらはあくまでイマーシブサウンドのフォーマット名であり、コーデックの名称ではない。

*イマーシブサウンド: 音で前後左右を取り囲むサラウンドに加え、上下方向の音も再現できる没入型 (= immersive) の立体音響のこと。ただし Dolby Atmos は下方向の表現はできない。

補足

細かいことを言えば、チャンネルベースオーディオ自体スピーカー配置で定義される位置情報を持つ静的な音声オブジェクトの集合体であるとも言えるのだが、ここでは一般的な定義として、制作時には OAMD (Object Audio Metadata) を用いて音声オブジェクトの位置を規格の範囲内で (例: Dolby Atmos は水平方向と上方向の再現は可能だが下方向は不可) 自由に指定でき、再生時にはメタデータとスピーカー構成をもとに OAR (Object Audio Renderer) が音声オブジェクトのレンダリングを行うものを、オブジェクトオーディオと呼ぶことにしている。


Dolby Atmos でミキシングされた音声がどのコーデックで届けられるかは用途により異なる。

映画館のデジタル上映用の素材 (DCP) では非圧縮のリニア PCM で記録される。一方家庭用 Dolby Atmos においては、BD (BDMV) や UHD BD 等では主にロスレス圧縮の Dolby TrueHD が、ストリーミングでは主にロッシー圧縮の Dolby Digital Plus (Enhanced AC-3) や Dolby AC-4 が、テレビ放送等では主にロッシー圧縮の Dolby AC-4 が使用されている。

なお、Dolby Atmos Music は単なるブランドで、技術やコーデック自体は映画で用いられる Dolby Atmos をそのまま音楽に流用しているだけのため、音声の仕様は映画に使用する場合でも音楽に使用する場合でも変わらない。

Apple Music の Dolby Atmos は、コーデックとして Dolby Digital Plus (Enhanced AC-3) のみ使用されている。一方 Amazon Music では、Echo Studio やサウンドバー等では Dolby Digital Plus (Enhanced AC-3) が、スマホやタブレットではその後継の Dolby AC-4 が使用されている。

Dolby Atmos は Dolby TrueHD を使用することで、最大 48kHz / 24bit のロスレスで提供できる (96kHz 以上は不可なので Apple 基準でのハイレゾは現状非対応) のだが、Dolby TrueHD デコーダーを搭載した スマホやタブレットは現状存在してしない。

Dolby Atmos のマスターファイルは 96kHz で記録できますが、現状 Dolby Atmos を 96kHz で提供する方法はありません。Blu-ray 向けの Dolby TrueHD と、ストリーミング向けの Dolby Digital Plus は、どちらも 48kHz しか対応していないからです。

While you can record Dolby Atmos Master Files in 96K, there is currently no way to dritribute Dolby Atmos in 96k. Because both Dolby TrueHD (Blu Ray) and Dolby Digital Plus (Streaming) only support 48k.

96K を自分なりに翻訳

Dolby Atmos (Dolby Digital Plus JOC)

Dolby Digital Plus をコンテナにした Dolby Atmos は以下のようにいくつか呼称が存在している。

  • Dolby Atmos in Dolby Digital Plus (略称: Dolby Atmos in Digital Plus / Dolby Atmos in DD+ / Atmos in DD+)
  • Dolby Digital Plus with Dolby Atmos (略称: Dolby Digital Plus with Atmos / DD+ with Dolby Atmos / DD+ with Atmos)
  • Dolby Digital Plus JOC (略称: DD+ JOC / DD+JOC)
  • Enhanced AC-3 with Joint Object Coding (略称: E-AC-3 with JOC / E-AC-3 JOC / EAC3 JOC / EAC3-JOC / EAC3_JOC / EC3_JOC / ec+3 などなど…)

この記事では以降 Dolby Digital Plus JOC と呼ぶことにする。

Amazon Music の Dolby Atmos (Dolby Digital Plus JOC)

Echo Studio やサウンドバー等に対してのみ、このフォーマットで提供している。スマホやタブレットに対しては、後述する Dolby AC-4 IMS というフォーマットで提供している。

5.1ch にダウンミックスしたものも配信されているが、おそらくネットワークの品質が悪いときに利用されるのだろう。

URL ql パラメーター ファイル名
サフィックス
AdaptationSet Representation Channel
Configuration
EC3_
Extension
Complexity
Index
EC3_
Extension
Type
ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
SPATIAL_ATMOS_LOW (不明) 3000 3 ec-3 48000 6 256
SPATIAL_ATMOS_MEDIUM (不明) 3000 2 ec-3 48000 6 16 JOC 448
SPATIAL_ATMOS_HIGH (不明) 3000 1 ec-3 48000 6 16 JOC 768

Apple Music の Dolby Atmos (Dolby Digital Plus JOC)

Dolby Atmos 音声を提供する全てのプラットフォーム (iOS、iPadOS、macOS、tvOS、Android) に対して、原則このフォーマットで提供している。

ただし、iPhone / iPad に空間オーディオ非対応のイヤホン / ヘッドホンを接続したときに再生されるのは、バイノーラル版である。また、空間オーディオ対応の AirPods シリーズであっても、通信環境が悪い場合は 2.0ch ダウンミックス版を 5.1ch アップミックス再生している。(後述)

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-atmos-2448 ec-3 16/JOC 448
audio-atmos-2768 ec-3 16/JOC 768

Spatial Coding

Apple Music と Amazon Music のトラック数表記に共通で入っている “16” という数字は、家庭用 Dolby Atmos における Spatial Coding によるものである。

Dolby Atmos は 7.1.2ch のベッドと最大 118 個のオブジェクトの、合計 128 トラックを使用できる。DCP は基本的に HDD ごと映画館に納品されるため、容量に余裕がありリニア PCM で記録できている。

一方、家庭だと Dolby TrueHD や Dolby Digital Plus 等で圧縮したとしても容量は 7.1ch 等に比べて数段跳ね上がるし、家庭用機器で 128 トラックの音声を処理するのも DSP 等の性能的に厳しいところがある。

そこで、Amazon Music や Apple Music で使用される Dolby Digital Plus JOC 及び、BD (BDMV) や UHD BD で使用される Dolby TrueHD with Dolby Atmos (MLP FBA 16-ch) では、Spatial Coding という処理が行われる。なお、この処理は後述する Amazon Music の Dolby AC-4 IMS では使用されない。

Spatial Coding は、空間的に近い位置にあるベッドとオブジェクトを 11 / 13 / 15 のいずれかのグループ (これを element と呼ぶ) にクラスタリングする技術である。element の数をいくつにするかは、音声にどれだけビットレートを割けるかによる。詳細は こちら

Spatial Coding によってクラスタリングされた各 element もまた、OAMD (Object Audio Metadata) を持つオブジェクトオーディオである。なお、LFE (Low Frequency Effect) と呼ばれる低音専用チャンネルだけはクラスタリングされず、チャンネルベースのまま保持されている。そのため、Spatial Coding 後のトラック数は 11 / 13 / 15obj (elements) + 1ch (LFE) で、合計 12 / 14 / 16 トラックとなる。Amazon Music や Apple Music の 16 という数字は、ここに由来する。

Spatial Coding は端的に言うとオブジェクトベースのダウンミックスとも取れるが、Dolby 曰く「何も失われない」そうだ。正直この辺りは MQA の「ロスレス」のような若干の胡散臭さも感じられる。(位置情報はともかく、特定の音が完全に消えてしまうことはない、という意味…?)

家庭用のDolby Atmos Homeにおいても「失うものは何一つ無く、この128オブジェクトを再現できる」と説明。

立体音響の「Dolby Atmos」今秋ついに家庭へ。各社AVアンプを体験、モバイル展開も – AV Watch

Spatial Coding が施された Dolby Atmos 音源は、LFE を無視すれば完全なオブジェクトベースオーディオにも思えるが、後で紹介する Joint Object Coding により、結局はチャンネルベースオーディオとのハイブリッドとなっている。

element 数ごとに音声のビットレートの下限が定められている。両サービスともに Dolby Atmos (Dolby Digital Plus JOC) の下限が 448kbps となっているのは、16 elements の場合のビットレートの下限が 448kbps だからだ。

Spatial Coding で使用される elements の数は、エンコード時のビットレートによって決定されます。 384kbps では 12 elements、448kbps 以上では 16 elements が使用されます。

The number of elements used by spatial coding is determined by the bit rate of the encode. A bit rate of 384kbps uses 12 elements, while bit rates of 448kbps and above use 16 elements.

Appendix C – Dolby Atmos Delivery Codecs – Dolby Professional Support Learning を自分なりに翻訳

上記はあくまで下限値を示したものと思われ、実際には 448kbps 以上でも 12 / 14 elements の音源も存在する。

一方上限が両サービスとも 768kbps となっているのはあくまで Amazon や Apple による制約であり、Dolby Digital Plus JOC 自体は大元の Dolby Digital Plus の上限である 6144kbps まで使用できる。

The operating range has been increased by allowing data rates spanning 32 kbps – 6.144 Mbps.

[PDF] Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System

6144kbps もあれば、ロスレスの Dolby TrueHD による Dolby Atmos (7000 ~ 9000kbps 程度) が見えてくるため、流石に上限まで使うサービスは出てこないとは思うが、Amazon Music や Apple Music より高いビットレートで Dolby Digital Plus 音声を配信するサービスは存在する。

Live ExtremeでDolby Atmosを配信する場合の技術仕様は以下の通りです。

  • コーデック: Dolby Digital Plus
  • サンプルレート: 48kHz
  • ビットレート: 384, 448, 576, 640, 768, 1024 kbps
  • チャンネル数 : 最大16/JOC
  • 配信方式: 疑似ライブ配信 (リニア配信), オンデマンド配信
Dolby Atmos配信を徹底解説!(後編)|KORG Live Extreme

画質・音質のスペック (規格)

  • 音質 イマーシブオーディオ ドルビーアトモス 7.1.4 · 1.024 kbit/s · E-AC-3 JOC (ドルビーデジタルプラス)
画質・音質のスペック (規格) を教えてください – よくあるご質問 (FAQ)

AFLSは『ドルビーデジタルプラス(E-AC3)』を使用しています。
ビットレートを『960kbps』に設定し、音の臨場感をお届けします。

AFLSについて | AFLS

(AFLS は Dolby Atmos ではなく Dolby Audio 5.1ch)

ちなみに、Netflix の Dolby Atmos (Dolby Digital Plus JOC) は、Amazon Music や Apple Music と同じビットレートとなっている。

Netflixメンバーの視聴体験

ほとんどの5.1またはドルビーアトモス対応のテレビデバイスは、より良い音を受信できます。 デバイスと利用可能な帯域幅によって、受信ビットレートは異なります:

  • 5.1: 192 kbps (良い) から640 kbps (鮮やか/知覚的に透明) まで
  • ドルビーアトモス: 448 kbpsから768 kbpsまで (ドルビーアトモスはプレミアムプランに加入しているNetflixメンバーのみご利用いただけます)
スタジオ音質のサウンドを、Netflixに – About Netflix

なお、Apple 製品で 2048kbps 以上の Dolby Digital Plus 音声を再生すると、挙動が怪しくなるという問題があったりする。

Joint Object Coding

一方フォーマット名やトラック数表記にある “JOC” とは、Joint Object Coding の略である。

Dolby Digital Plus JOC では、Dolby Atmos 非対応の Dolby Digital Plus 対応機器とも互換性を保つため、Dolby Atmos を 5.1ch 〜 7.1ch にレンダリングしたものをコアとして持っている。そして、Dolby Digital Plus のビットストリームの拡張領域に、Dolby Atmos 用の差分データが記録されている。

コア部分のチャンネル数は 5.1ch にするか 7.1ch にするか、はたまた 6.1ch の Surround EX にするかは自由だが、Apple Music では検証した限りどれも 7.1ch で、Amazon Music ではどれも 5.1ch のようである。

Dolby Atmos 対応機器では、コアと差分データを合体させることで Dolby Atmos の音の再構築が可能となる。これが Joint Object Coding である。

一方、Dolby Atmos 非対応の Dolby Digital Plus 対応機器では、差分データを無視しコア部分のみを再生することで、5.1ch ~ 7.1ch での再生が行える。

なお、コア音声にはベッドの天井成分や音声オブジェクトの音を 5.1ch 〜 7.1ch にレンダリング (ダウンミックス) したもの含まれているので、合体前に差分音声の逆相で打ち消す必要がある。

逆相は予め差分データに含まれているのか、それとも再生時に差分データを 5.1ch 〜 7.1ch デコードして位相反転してるのかまでは情報がなく分からないが、後者は手間なのでおそらく前者だと思われる。

AVS Forum の The official Dolby Atmos thread (home theater version) ではコア音声はコア音声で、Dolby Atmos 音声はコア音声とは独立して、それぞれ個別に持っているのではないか、と主張する人もいるが、容量がもったいないし、そもそも “Joint” Object Coding という名称なので、恐らくそれはないと思われる。(真相不明)


Joint Object Coding などの詳細については、Dolby 公式サイトで詳しく解説されている。
Appendix C – Dolby Atmos Delivery Codecs – Dolby Professional Support Learning

上記の記事を含む一連の解説記事を読むと、Dolby Atmos に対する理解が深まるかもしれない。
Dolby Atmos Music Training – Dolby Professional Support Learning

上記のサイトは現在なぜか消されており、Wayback Machine には残っているが、全てのページが残っているかは不明。念のため、ほぼ同内容の解説記事 (こちらも公式サイトからは消えている) の Wayback Machine のリンクも貼っておく。
Dolby Atmos Post Production Learning – Dolby Professional Support Learning

英語が苦手な方や、「Dolby なんちゃら」がどれだけあるのかを知りたい方にはこの本もおすすめ。個人的にはオブジェクトオーディオの説明が分かりやすく書かれているように感じられた。(ただし筆者の Dolby Japan と本国の Dolby Laboratories とで言ってることが違っている箇所もあるので、あくまで入門時の参考程度に…)
ドルビーの魔法 カセットテープからDOLBY ATMOSまでの歩みをたどる | 電子書籍とプリントオンデマンド(POD) | NextPublishing(ネクストパブリッシング)

Joint Object Coding や Spatial Coding については、Dolby があまり情報を公開していない (ライセンスビジネスだしそれはそう) ので、正直まだ分かっていないことも多い。なので、現状はあまり深く考えずに「こんなものがあるんだなぁ」という認識で構わないと思う。

なお Dolby Digital Plus JOC は、上記の他にもオブジェクトなしの 5.1.4ch や 7.1.4ch などの CBI (Channel Based Immersive) や、5.1ch + 1 element の 7 トラック音声なども対応しているようだが、これらは Dolby の テスト用音源 ぐらいでしか見かけず、詳細不明。(後者は Dolby 自身 “specially-designed Dolby Atmos content” と呼んでいる)

Dolby Atmos (Dolby AC-4 IMS)

一方 Amazon Music でスマホやタブレット向けに Dolby Atmos を提供する際には、Dolby AC-4 IMS というフォーマットが使用される。

Amazon Music の Dolby Atmos (Dolby AC-4 IMS)

URL ql パラメーター ファイル名
サフィックス
AdaptationSet Representation Channel
Configuration
virtualized_
content
ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
SPATIAL_ATMOS_LOW 3D_Datmos_Low 2500 2 ac-4.02.02.00 48000 2 1 112
SPATIAL_ATMOS_MEDIUM 3D_Datmos_Med 2500 1 ac-4.02.02.00 48000 2 1 256

Dolby AC-4 IMS は、Dolby Digital (AC-3) や Dolby Digital Plus (Enhanced AC-3) の後継となる Dolby AC-4 というコーデックにおける、IMS (Immersive Stereo) というフォーマットのことである。”AC-4 IMS” や “AC4-IMS” などと略されることもある。

主にスマホやタブレットのの内蔵ステレオスピーカーや、ステレオイヤホン / ヘッドホンなどで再生することを目的としている。

IMS では、5.1ch や Dolby Atmos などのマルチチャンネル音声を独自の処理 (詳細不明、マトリックスエンコードの亜種?) で専用の 2.0ch ステレオ音声に変換し、制御用のメタデータと一緒に伝送することにより、ビットレートを減らせるというものである。Dolby AC-4 IMS ではその仕組み上、Spatial Coding も Joint Object Coding も行われない。

The basic principle of IMS
[PDF] Dolby AC-4 Audio Delivery for Next Generation Entertainment Services

Dolby AC-4 IMS はDolby Digital Plus JOC と比較すると、以下のようなメリットがある。

  • ステレオ音声+メタデータなので、サイズが小さい
  • そもそも Dolby AC-4 自体、Dolby Digital Plus や MP3、AAC などと比べて圧縮効率が高い
  • ある程度事前処理されているので処理が軽い (Dolby 曰く Dolby Digital Plus JOC 比で 3 ~ 4 倍)
  • Dolby Atmos の制作ツールではヘッドホンでのバイノーラル再生用の調整が可能なのだが、Dolby AC-4 IMS ではこの調整を反映することができる。

もちろん、逆に Dolby Digital Plus JOC にもメリットもある。

  • 対応端末が多い (現状 iPhone や iPad は AC-4 IMS どころか、そもそも AC-4 自体に対応していない。とは言え Android 端末は 2018 年以降に出た Dolby Atmos 対応機種なら大抵 AC-4 に対応しているので、Apple が怠慢なだけとも…)
  • AV アンプやサウンドバーなどに対し、HDMI 等で マルチチャンネル出力が可能 (そもそも今のほとんどの AV アンプやサウンドバーは AC-4 自体に対応していないし、対応したとしても IMS はホームシアター用ではない)
  • バイノーラル再生時に独自の音場エフェクトを掛けることが可能 (→ 実は可能かもしれない。詳細は後ほど。)

このあたりは一長一短という感じだ。

特に、バイノーラルメタデータをサポートしたフォーマットは現状 Dolby AC-4 IMS しかないにも関わらず、Apple Music では Dolby Digital Plus JOC のみを使用している上、Apple は iPhone や iPad などで Dolby Digital Plus JOC を独自の “Spartial Audio” レンダラーでヘッドホン再生を行っているため、世界中のミキシングエンジニアの間で「iPhone と AirPods で Apple Music の Dolby Atmos を聴いたら思ってたのと違う!」という騒ぎが起きている。(詳細 → Why Your Atmos Mix Will Sound Different On Apple Music | Production Expert)

Logic Pro のヘッドホン再生では Dolby Renderer と Apple Renderer が用意されているが、このApple Renderer が Apple の空間オーディオを再現するものである。Dolby Renderer は IMS のヘッドホンモード同様、バイノーラルのメタデータが活かされる。

勘違いされがちなのだが、Dolby Atmos のマスターファイルから IMS にエンコードされる際にはバイノーラルメタデータも使用されるが、ここで生成される 2.0ch 音声自体はまだバイノーラル音声 (ヘッドホン用にバーチャライズした音声) ではない。IMS はあくまで中間フォーマットでしかない。

一般的なバイノーラル音声や HPL (Head Phone Listening)、DTS Headphone:X、Dolby Headphone、THX Spatial Audio などでの処理済み音声に関しては、エンコード時点ですでにヘッドホン用の処理が施されているため、スピーカー再生には向かないし、ヘッドトラッキングや HRTF のパーソナライズのような後処理も行えない。

一方 IMS は Dolby Atmos からのエンコード段階では特定の再生環境向けの処理は行わず、再生機器側にて、再生機器の状態に応じて (ヘッドホンで再生するのか内蔵スピーカーで再生するのか、そもそも Dolby Atmos で聴きたいのかステレオで聴きたいのか、によって) 処理を変化させることができる。

更に、IMS はヘッドトラッキングも行える上に、おそらく 2.0ch 以上の構成にも展開可能となっている点が、他のフォーマットに対する大きなアドバンテージとなっている。(HRTF のパーソナライズは不明)

Galaxy Buds Pro 及び Galaxy Buds2 にて、360 Audio (with Dolby Head Tracking) 機能を使用することによって、Dolby AC-4 IMS の音声をヘッドトラッキングができることを確認済み。

また、Dolby AC-4 IMS の 2.0ch 以上の構成への展開に関しては、Lenovo Tab P11 Pro (2nd Gen) にて確認済み。

このタブレットは 4 つのスピーカーを搭載しているが、その構成はよくある 2way ではなく、音の方向によって使用するスピーカーを制御している。タブレットの現在の向きに基づき、フロントは下側、フロントワイドは上下両方でやや下寄り、サラウンド ~ サラウンドバックとトップは上から、LFEは両方、といった調子だ。

(そのためか、スピーカー使用時は常時 Dolby の好音質化機能が働いており、2.0ch 音声はアップミックスされた上でスピーカーの割り振りがなされていている。)

そして、このタブレットで Dolby AC-4 IMS の音源を再生すると、上側のスピーカーと下側のスピーカーとで、それぞれ別の音が鳴っていることが確認できた。

ということは、Lenovo Tab P11 Pro (2nd Gen) が Dolby AC-4 IMS のスピーカー用処理済みの音声を誤ってアップミックスでもしていない限り、このフォーマットはただのバーチャライズ前提のものではなく、2.0ch 以上の環境にも展開可能なものということになる。

恐らく Dolby AC-4 IMS は、かつての Dolby Stereo / Dolby Surround や Dolby Pro Logic II 等のような、マトリックスエンコード / デコードの仕組みの延長線上にあるものだと思われる。

Dolby AC-4 IMS には様々なメリットがあり、まさにモバイル機器向けといったフォーマットであるにも関わらず、Apple Music が頑なにそれを採用しない理由は、恐らく独自でバーチャライズの処理をしたいからではないだろうかと推察される。 → 以前はそう考えていたが、Dolby AC-4 IMS はヘッドトラッキング可能な上に、2.0ch 以上の構成にも展開可能なことが分かった今、独自のバーチャライズ処理もある程度は可能なのではないかと考えられるので、なぜ採用しないのかよく分からない (制御用メタデータがある分、自由度は低いかもしれないが…)。

なお、Dolby AC-4 を使用した Dolby Atmos のフォーマットは、IMS 以外にも A-JOC (Advanced Joint Object Coding) というものも存在するが、現状配信サービス等での使用例は見かけない。Dolby AC-4 A-JOC は Dolby Digital Plus JOC の Dolby AC-4 版だと思われるが、配信サービス側としてはおそらく AV アンプやサウンドバー側の対応待ちなのだろう。

また、Dolby AC-4 は 5.1.4ch 等、CBI (Channel Based Immersive) と呼ばれるチャンネルベースのイマーシブサウンドにも対応しており、一部の国ではテレビ放送で使用されている。該当の国においては、 STB が Dolby AC-4 に対応していたりする。

Apple Music の 2.0ch ダウンミックス

Apple Music の空間オーディオには、オリジナルのステレオミックス版とは別で、2.0ch ダウンミックス版が存在している。

EXT-X-STREAM-INF:AUDIO
EXT-X-MEDIA:GROUP-ID
EXT-X-STREAM-INF EXT-X-MEDIA ビット
レート
(kbps)
CODECS CHANNELS
audio-HE-stereo-64-downmix mp4a.40.5 2/-/DOWNMIX 64
audio-stereo-128-downmix mp4a.40.2 2/-/DOWNMIX 128
audio-stereo-256-downmix mp4a.40.2 2/-/DOWNMIX 256

iPhone / iPad と空間オーディオ対応の AirPods シリーズを使用中、通信環境が悪い時に空間オーディオをストリーミング再生しようとするとこれが選択され、自動で「ステレオを空間化」機能が有効になり 5.1ch にアップミックスされて再生される。(Mac や Apple TV は不明)

なお、Android 版はこのような処理はなく、空間オーディオを有効にしていても、通信環境が悪い場合はバイノーラル版にすらならず、ステレオミックスが再生される。

この時、iOS / iPadOS 16 では、再生画面には Dolby Atmos や Dolby Audio のロゴが表示されるが、コントロールセンターの AirPods の音声ステータスは「ステレオ」になっている。「ステレオ」表示ではあるが、通常のステレオ音声再生時とは違って、右下のボタンは「ステレオを空間化」ではなく「空間オーディオ」になっている。

バイノーラル版を再生するのではなく、わざわざダウンミックス版をアップミックスしているのは、恐らくヘッドトラッキングや HRTF のパーソナライズのためなのだろう。

この処理については Apple 自身が動画で説明しているので、日本語字幕を抜粋して引用しておく。(なお、筆者にて句読点を追加している)

ステレオソースをアップミックスして、5.1チャンネルを再現する技術も提供しています。

(略)

また、この処理を暗黙のうちに行うことで、空間音声の採用や提供をより魅力的なものにします。

今現在、マルチチャンネル音声を配信することで、メディアの映像品質が損なわれることを心配される方もいるでしょう。

マルチチャンネルオーディオは現在提供されているステレオのAACレンディションよりも、はるかに高ビットレートです。

ネットワークの帯域が限られている中で、この2つを両立させるにはどうすればいいのでしょうか。これは本当に困ったことです。

この問題を解決するために、ユーザーの帯域に合わせて空間的なオーディオ体験を実現しました。

帯域が不足して高品質な映像を提供できない場合、音声はシームレスに劣化し、アップミックスされたステレオ音声になりますが、空間処理は変わりません。移行前に提供されていたヘッドトラッキングは維持されます。

その後、帯域が確実に回復すると、フルマルチチャンネルの空間処理が復活します。

Immerse your app in Spatial Audio – WWDC21 – Videos – Apple Developer

ステレオを空間化の詳細については以下の記事にて。

なぜ Apple Music ではアップミックスの際にオリジナルのステレオ版を使用しないのかは不明だが、恐らくステレオと空間オーディオとが切り替わった際に違和感を与えないようにするためだろうと思われる。

Apple の解説では映像作品の話を例にして音量にのみ言及しているが、音楽に関しては映像作品以上にステレオと空間オーディオとで演出が異なる可能性がある。

このようなアダプティブ空間オーディオ体験では、ステレオとマルチチャンネルの間で音量レベルを正規化することが、これまで以上に重要になります。

さらに、Dynamic Range Control (DRC) や dialnorm のメタデータを、適宜メディアエンコーディングに付与してください。

Immerse your app in Spatial Audio – WWDC21 – Videos – Apple Developer

もしかすると、このダウンミックスは「ステレオを空間化」で復元しやすいよう、マトリックスエンコードの処理がされている可能性もある。

正直、このような処理をするぐらいなら Dolby AC-4 IMS を使用してほしいものである。

360 Reality Audio

360 Reality Audio (サンロクマル・リアリティオーディオ / 360RA) は、ソニーのオブジェクトベースのイマーシブサウンドのフォーマット (というよりも制作から配信までのソリューション?) である。

Dolby Atmos と比べると、「上方向だけでなく下方向からの音も表現できる」「チャンネルベースの音声トラックを使用しない (LFE もない)、完全なオブジェクトベースオーディオ」といった特徴を持つ。

Amazon Music は 360 Reality Audio を採用しているが、Apple Music では今の所採用されていない。Apple Music は特に Dolby Atmos にこだわっているわけではなく、今後も対応フォーマットの拡充を進めていく予定らしい。

360 Reality Audio も Dolby Atmos 同様それ自体はコーデックではなく、コーデックとしては MPEG-H 3D Audio を使用している。MPEG-H 3D Audio は、MPEG-H Audio と呼ばれることもある。

MPEG-H 3D Audio を使用したフォーマットとしては、360 Reality Audio 以外にも THX Spatial Audio などがある。

Amazon Music の 360 Reality Audio

mha1

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation オブジェクト数 ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
使用 最大
SPATIAL_RA360_L0 3D_S360RA_L0 3000 4 mha1.0x0c 48000 5 5 320
SPATIAL_RA360_L1 3D_S360RA_L1 3000 3 mha1.0x0d 48000 10 10 640
SPATIAL_RA360_L2 3D_S360RA_L2 3000 2 mha1.0x0d 48000 13 16 1024
SPATIAL_RA360_L3 3D_S360RA_L3 3000 1 mha1.0x0e 48000 17 24 1536

mhm1

URL ql
パラメーター
ファイル名
サフィックス
AdaptationSet Representation オブジェクト数 ビット
レート
(kbps)
selection
Priority
quality
Ranking
codecs audio
Sampling
Rate
使用 最大
SPATIAL_RA360_L0 3D_S360RA_L0 3500 4 mhm1.0x0c 48000 5 5 320
SPATIAL_RA360_L1 3D_S360RA_L1 3500 3 mhm1.0x0d 48000 10 10 640
SPATIAL_RA360_L2 3D_S360RA_L2 3500 2 mhm1.0x0d 48000 13 16 1024
SPATIAL_RA360_L3 3D_S360RA_L3 3500 1 mhm1.0x0e 48000 17 24 1536

mha1 と mhm1 は単一ストリームの MPEG-H 3D Audio を指す。これらのうち、mhm1 は MPEG-H Audio Stream (MHAS) でカプセル化されている。

MIMETYPE_AUDIO_MPEGH_MHA1
MIME type for MPEG-H Audio single stream
Constant Value: “audio/mha1”

MIMETYPE_AUDIO_MPEGH_MHM1
MIME type for MPEG-H Audio single stream, encapsulated in MHAS
Constant Value: “audio/mhm1”

MediaFormat  |  Android Developers

MPEG-H 3D Audio において、

  • 0x0b = Low Complexity Profile Level 1
  • 0x0c = Low Complexity Profile Level 2
  • 0x0d = Low Complexity Profile Level 3
  • 0x0e = Low Complexity Profile Level 4

を指す。(頭の 0x は「これは 16 進数です」という意味)

If the MHAConfigurationBox() is present, the MPEG-H Profile-Level Indicator mpegh3daProfileLevelIndication in the MHADecoderConfigurationRecord() shall be set to “0x0B”, “0x0C”, or “0x0D” for MPEG-H Audio Low Complexity Profile Level 1, Level 2, or Level 3, respectively.

ATSC Standard: A/342:2021 Part 3, MPEG-H System

MIMETYPE_AUDIO_MPEGH_LC_L3

MIME type for MPEG-H Low Complexity (LC) L3 audio stream. Uses the scheme defined by RFC 6381 with mpegh3daProfileLevelIndication for LC profile/L3 (0xD) from ISO/IEC 23008-3.

Constant Value: “audio/mhm1.0d”

MIMETYPE_AUDIO_MPEGH_LC_L4

MIME type for MPEG-H Low Complexity (LC) L4 audio stream. Uses the scheme defined by RFC 6381 with mpegh3daProfileLevelIndication for LC profile/L4 (0xE) from ISO/IEC 23008-3.

Constant Value: “audio/mhm1.0e”

MediaFormat  |  Android Developers

MPEG-H 3D Audio でエンコードされた 360 Reality Audio 音源のことは、360 Reality Audio Music Format と呼ぶ。360 Reality Audio Music Format は 3 つのレベル (と規格外のレベル 1 つ) が定義されている。

最大オブジェクト数24個/平均ビット・レート1.5MbpsのLevel 3をはじめ、16個/1MbpsのLevel 2、10個/640kbpsのLevel 1、そして360 Reality Audio Music Format外だが5個/320kbpsのLevel 0.5。

360 Reality Audioの仕組みとコンテンツ制作の方法 – サンレコ 〜音楽制作と音響のすべてを届けるメディア

なお、Amazon Music の 360 Reality Audio の音声ファイルの中身を見てみると、Level 2 では 13 オブジェクト、Level 3 では 17 オブジェクトしか使っていないように見受けられる。が、あくまでファイルのメタデータ上の話で、実際のところは不明。

Level 0

Audio
ID                      : 1
Format                  : MPEG-H 3D Audio
Format profile          : LC@L2
Codec ID                : enca / mha1
Duration                : 5 min 5 s
Bit rate                : 333 kb/s
Channel(s)              : 8 channels (7.1)
Channel layout          : L R C LFE Ls Rs Lw Rw
Sampling rate           : 48.0 kHz
Frame rate              : 46.875 FPS (1024 SPF)
Stream size             : 12.2 MiB (98%)
Encoded date            : 2022-10-23 20:59:55 UTC
Tagged date             : 2022-10-23 20:59:55 UTC
Encryption              : Encrypted
Signal group #1         : 5 objects
 Type                   : Object
 Number of objects      : 5 objects
Codec configuration box : mhaC

Level 1

Audio
ID                      : 1
Format                  : MPEG-H 3D Audio
Format profile          : LC@L3
Codec ID                : enca / mha1
Duration                : 5 min 5 s
Bit rate                : 667 kb/s
Channel(s)              : 12 channels (7.1.4)
Channel layout          : L R C LFE Lb Rb Lss Rss Tfl Tfr Tbl Tbr
Sampling rate           : 48.0 kHz
Frame rate              : 46.875 FPS (1024 SPF)
Stream size             : 24.3 MiB (99%)
Encoded date            : 2022-10-23 20:59:55 UTC
Tagged date             : 2022-10-23 20:59:55 UTC
Encryption              : Encrypted
Signal group #1         : 10 objects
 Type                   : Object
 Number of objects      : 10 objects
Codec configuration box : mhaC

Level 2

Audio
ID                      : 1
Format                  : MPEG-H 3D Audio
Format profile          : LC@L3
Codec ID                : enca / mha1
Duration                : 5 min 5 s
Bit rate                : 1 067 kb/s
Channel(s)              : 12 channels (7.1.4)
Channel layout          : L R C LFE Lb Rb Lss Rss Tfl Tfr Tbl Tbr
Sampling rate           : 48.0 kHz
Frame rate              : 46.875 FPS (1024 SPF)
Stream size             : 38.9 MiB (99%)
Encoded date            : 2022-10-23 20:59:55 UTC
Tagged date             : 2022-10-23 20:59:55 UTC
Encryption              : Encrypted
Signal group #1         : 13 objects
 Type                   : Object
 Number of objects      : 13 objects
Codec configuration box : mhaC

Level 3

Audio
ID                      : 1
Format                  : MPEG-H 3D Audio
Format profile          : LC@L4
Codec ID                : enca / mha1
Duration                : 5 min 5 s
Bit rate                : 1 601 kb/s
Channel(s)              : 24 channels (22.2)
Channel layout          : Lw Rw C LFE Lb Rb L R Cb LFE2 Lss Rss Tfl Tfr Tfc Tc Tbl Tbr Tsl Tsr Tbc Bfc Bfl Bfr
Sampling rate           : 48.0 kHz
Frame rate              : 46.875 FPS (1024 SPF)
Stream size             : 58.4 MiB (100%)
Encoded date            : 2022-10-23 20:59:55 UTC
Tagged date             : 2022-10-23 20:59:55 UTC
Encryption              : Encrypted
Signal group #1         : 17 objects
 Type                   : Object
 Number of objects      : 17 objects
Codec configuration box : mhaC

Amazon Music においては、360 Reality Audio Music Format のレベルは URL の ql パラメーターや、ファイル名のサフィックス (接尾語) として記載されている。L0 とはオブジェクト数的に Level 0.5 のことを指しているのだろう。

なお、このレベルは 360 Reality Audio におけるグレードを表すためのものであり、MPEG-H 3D Audio のレベルとは異なる。

Amazon Music や Apple Music の空間オーディオを聴けるスマホやタブレット

Amazon Music では、端末が Dolby Atmos や 360 Reality Audio に対応しているかどうかに関わらずそれらの音源を提供している。

そのため、Amazon Music アプリの最新バージョンさえインストールできれば、どんな機種でも空間オーディオを聴くことができる。ただし、その仕様により、以下のような問題が発生している。

一方 Apple Music では、Dolby Digital Plus JOC を端末の Dolby Atmos デコーダーに処理させているため、Dolby Atmos 非対応端末では Dolby Atmos の設定項目が現れない。

先程「Dolby Digital Plus JOC は、Dolby Atmos 非対応の Dolby Digital Plus 対応機器とも互換性がある」と述べたが、この仕様を利用しているのは iOS / iPadOS 版のみで、Android 版は端末が Dolby Digital Plus JOC に対応していないと、Dolby Atmos / Dolby Audio 音声を聴くことはできない。

実際、Dolby Audio 対応 (= Dolby Digital / Dolby Digital Plus 対応だが Dolby Digital Plus JOC は非対応) の arrows NX F-01K (Android 9)、Lenovo Tab M8 HD (2nd Gen) (Android 10)、Lenovo Tab K10 (Android 11 ~ 12)、Pixel 6 (Android 13 ~ 14 Beta) で検証したところ、空間オーディオの設定は現れなかった。

なお、現状 Android 版 Apple Music は、Dolby Atmos 対応機器であってもなぜか Dolby Audio 音声は聴くことができない。


井戸水

ガジェットやオーディオビジュアルが好きな人。モバイル機器における空間オーディオなどを調査しています。

5件のフィードバック

  1. こんにちは、私は台湾のネチズンです。この文章は Google 翻訳を通じて日本語に翻訳されました。
    空間オーディオに関する多くのコンテンツを企画・公開していただき、大変感謝しており、感心しております。
    お聞きしたいのですが、Apple Music で Dolby Atmos の曲を再生するために SONY Xperia 5 IV を使用しているのですが、携帯電話自体の Dolby Sound 機能がオンになっていない場合、Dolby Atmos は正しくデコードできますか?
    はい、正しく再生できます。 、しかし、私にはそれをオンにするのは違うように思えます。ドルビーアトモスという言葉はまだApple Musicに表示されていますが、ドルビーをオンにしない限り、携帯電話のステータス表示には「ドルビーアトモス」ではなく「通常」のみが表示されます。

    • 私は Xperia 1 IV ユーザーですが、Xperia 5 IV も恐らく同じ挙動だと思われるので、その前提で解説します。
      結論から言いますと、Android 13 の場合、Dolby Atmos 再生時に Dolby Sound をオンにする必要はありません。

      Android 12 の頃は、Dolby Sound がオンでもオフでも、Dolby Atmos を再生すると「Dolby Atmos」と表示されていたと記憶していますが、Android 13 では Dolby Sound がオンのときのみ「Dolby Atmos」表示、オフのときは「ノーマル」表示になるよう変更されました。
      ですが、この「ノーマル」表示になっているとき (Dolby Sound がオフのとき) でも、バーチャライザー (Dolby Surround Virtualizer) のような Dolby Atmos の再生に必要最低限な機能は暗黙的に適用され、ダウンミックスになることはありません。
      Dolby Sound をオンにすることで有効になるのは、必ずしも必要ではない音質/音量改善機能です。

      なお、この挙動はあくまで Xperia 1 IV の例であり、他の機種では異なる場合がありますのでご注意ください。

コメントを残す…