音楽の立体音響=高音質化と呼んで良いの?

GIZMODO

「食べ慣れた味」と「珍しい味」が、似て非なるように。

2021年6月、Appleが空間オーディオ機能をリリースし、ソニーは今年はじめ頃に360 Reality Audioのライセンス提供を開始しました。近頃のオーディオ界隈では、空間立体3Dといったワードがトレンドになっています。

本当にやたらと聞くようになったこれらの言葉。字面の通り音楽が立体的に聞こえるという技術ですが、言葉だけではピンと来ないですよね。でも、聞いてみると「今までの聞こえ方と明らかに違う!」とわかるほどに、違いはあるんです。音が面ではなく、奥行きや上下、前後感を持って感じられるといいますか。

…でもこの立体音響ってヤツ、果たして音質に寄与するものなのか? いつも聞いてる音楽が立体音響になることで、高音質になったと表現して良いのか

この記事はそこんところを考えてみたもので、結論から言うと、これまでのリニア(直線的)な高音質競争とは異なる評価軸がひとつ生まれたんじゃあないか、というお話です。それこそデジカメやテレビの高画素化競争が頭打ちになったように。

立体音響って?

僕が立体音響という言葉を初めて知ったのは、2010年頃のニコニコ動画でした。「ホロフォニクス」と呼ばれる技術を使った音楽動画があり、ヘッドホンでその音を聞くと、脳の裏側を撫でられているような感覚になって、べらぼうに感動したのを覚えています。あのピンク・フロイドも活用した技術だとか。

立体音響録音技術 ホロフォニクス

ホロフォニクスそのものは立体音響技術の商標のひとつ。立体音響に関する技術は類似したものが多く、例えばASMRでおなじみのバイノーラル録音も立体音響ですし、『フォートナイト』の3Dオーディオ、映画音響のDolby Atmosもそう。それぞれ定義は違えど、立体音響でくくれます。サラウンド方式、空間的音響方式、バイノーラル式など、方式も違ったりします。

立体音響の歴史は1931年のステレオ録音の登場からたどっても良いですが、1881年にオペラ座で公開された世界初の2ch音響システムから紐解いても面白いしれません。しかし、現代的な意味として用いられている「多チャンネルでの立体的オーディオ体験」という意味でなら、一般人が試聴できる環境はそう多くありません。それこそ多数のスピーカーを配置したホームシアターや映画館で味わえるものが主流。2010年代でも、ネットにアップされているものは技術的評価の一環というか、スゴイ系コンテンツとして受け入れられていたように思います。しかし、近年これが変わってきました。

[embedded content]
VIdeo: Top Bucket/YouTube

例えばサウンドバー。映画でよく用いられているオーディオフォーマット、Dolby Atmosを再現できるサウンドバーが多数登場しています。複数スピーカーによるサラウンドを再現するという意味で、バーチャル3Dサラウンドとも呼ばれています。JBLSONOSゼンハイザーなども、バーチャル3Dサラウンドに対応したサウンドバーをリリースしています。特にゼンハイザーの立体感は驚異的でしたね。

ヘッドホンやイヤホンにおいては以前からサラウンドに対応したものがありました。空間を鳴らすスピーカーより、直接耳に音をお届けする方が技術的には作りやすいのかもしれません(頭部伝達関数とかインパルスレスポンスとか)。7.1chのゲーミングヘッドホンなんかもいっぱい出てますし、信仰心が試されるAirPods MAXもそう。

閑話休題:部屋のカタチや家具で聞こえ方が変わる?

スピーカーから出た音は部屋の壁や天井に反射、あるいは布や家具に吸収されています。こうなると正しい音が聞こえないため、室内音響測定によって部屋の響き方を測定し、スピーカーを補正することがあります。不要な共振があったり低音が減衰されていたりすると、聞こえ方にムラができてしまうんですね。こうした技術は音楽制作やホームシアターでは一般的ですが、立体音響においても応用されています。すなわち、部屋の反響を利用して音を立体的に聞かせているんです。

img_003
ソニーのサウンドバー「HT-A7000」の立体音響イメージ。

反射を使うことで、自分の後ろや上からも音が聞こえてくる。どれくらいの音波が反響しているか、壁までの距離はどれくらいか、そうした測定波をマイクで拾って解析し、リスニングポジションで上手く交差するよう、チューニングしてくれるわけです。すごく賢いよね!

意図があってのことなのかどうか

立体音響は、確かに「ハッとする」技術です。でも、立体的な音=高音質と評価して良いのか? 聞き慣れていない刺激に興奮してるだけではないか? あるいは、立体的な音>平面的な音と序列化してしまって良いのか?

ヘッドホンやイヤホンを評価するときには、音場、解像感、臨場感、定位感、粒立ちといった言葉がよく使われます。良い再生機器は音の位置がわかるとも言いますね。オーケストラを聞けばヴァイオリンは端手前、管楽器はやや奥、低音は右から反響を通してホール全体といった具合に。

オーケストラの場合は、ホール天井から吊るしたマイクで実際のコンサートの様子を収録することもあります。この場合、再生側には「いかにホールと同じ聞こえ方にできるか(疑似体験性)」が求められます。ホールのマイクは演奏者の音だけでなく、ホール全体の残響感や音の返りも録音しており、これが無二のライブ感に繋がるわけです。名高いコンサートホールは残響感も素晴らしく、そうした特定のホールの残響感をDAW(音楽制作ソフト)上で再現するものもあります。収録の場合もガンガンマイクを立てるので、空間で収録しまくりです。

[embedded content]
Video: Joint Research Project with UdK & NUA/YouTube

ということは、オーケストラ音源の場合は立体的に収録しているから立体的に聞いたほうがソレっぽい

では、一般的なポップスや電子音楽の場合は? 例えば3ピースバンドでギター、ドラム、ベースとトラックがあって、パートごとにライン録りした音には空間的な響きは含まれませんよね(空間系エフェクターは使わないとして)。多くの場合、各楽器はパートごとに録音してミックスダウン時に調整しますが、マイクではなくライン録りした方が余計な響きが入らず調整しやすい音になります。仮に空間的な響きが欲しい場合でも、残響感というのは部屋のかたちで大きく変わるため、なかなか狙いの響きにはならぬものです。宅録ならなおさらですよ。

そも、ミックスにおいては奥行きや立体感の表現はとても、と〜っても、大事になってくる要素。リバーブで響き、コンプで距離感、EQで分離感などなど…。果てなきミックス作業を経て音源は完成するわけですが、そうして作られた空間感は、いわばバーチャルです。

[embedded content]
Video: Paul The Trombonist/YouTube

うろ覚えですが、YMOの高橋幸宏さんが「最近の音源は綺麗すぎる、空間の響きごと録れてないからグルーヴがない」的なことを言っていたような気がします。間違えてたらごめんなさい。例えばギター演奏を録音するときも、マイクで録れば壁や他楽器の共振がかぶってきます。これはノイズでもあるけれどグルーヴでもある。一部のソフトウェア音源はこうしたかぶりすら調整できたりします。

マイクで録れば、それは楽器が鳴らしている時空間を記録した立体的な音源であり、音源を立体化≒空間としての音に戻す意味がある。そのスタジオならではの鳴り方も味わえる。でも、もともとが空間単位で収録していない音源を立体音響として蘇らせるのは、なんか意図が違くない?と、僕は思ってしまうのです。

3D映画で例えてみましょう。あれは専用のメガネをかけることでスクリーンから飛び出るような映像を視聴できますよね。しかし、そのために制作側は立体映画前提での撮影が必要になります(2D→3D化された映画もあるけど、視差が撮影できるわけではない)。もし普通に撮影した映画を、映画館側が独自に立体化させたら、それって映画製作側の意図と違う体験になってしまうんでないかい?

閑話休題:正しい音ってどこにある?

音楽制作において、ギターやボーカル、ベースなど、個別に収録したトラックをひとつにまとめる作業をミックスダウンといいます。ミックスは恐ろしく奥が深く、正解がない作業です。理由はいくつかあります。

・作る人によって好みが異なる

・なんか上手くまとまらない

・結局、試聴する機器によって聞こえ方が変わる

・結局、最適解がない

mixdemo

プロの場合は納期や再生環境を考えての作業になりますが、アマチュアの場合はもうほんと終わりなき旅です。昔、タモリ倶楽部でミキシングに挑戦する回があったんですが、例えばギタリストならギターの音が大きくなるし、若い人ならドンシャリ気味に、70年代育ちの人ならこもり気味のサウンドになったりと、違いがハッキリ出るのがミックスです。しかも苦心して仕上げたミックスも、AirPodsで聞くのかJBLのスピーカーで聞くのかで変わってくる。最終的には色んな再生デバイスでチェックはしますが、それでもリスナーが聞く音を完全にコントロールはできません。現代のリファレンスならAirPodsが最大公約数でしょうね。

立体的でないことは、劣っていることなのか

3D映画や立体写真は古くは19世紀頃から試みられてきました。われわれ人間が暮らす三次元軸上で創作物に相対したいという憧れは、こんにちのVR空間に続いているように感じます。一方で音楽鑑賞においての三次元化、立体化とはなんぞやって話ですが、ミックス時に音源をバーチャルな空間に立体配置し、音の鳴る位置の前後感や上下感によって立体感を作る方法もあります(Dolby Atmos用音源など、オブジェクトベースとも呼ぶ)。

現状はほとんどの音源が立体音響ありきのミックスではありません。そこがソニーの360 Reality Audioは画期的で、製作時から音源の位置、距離、角度などを空間上に配置し、過去の音源であっても360 Reality Audio化が容易なフォーマットになっています(マルチトラックかステムデータが必要)。一方でAppleの空間オーディオは…どんな理屈なんでしょ。Dolby Atmosの技術を応用してるならオブジェクトベース?

spatialaudio

なんせどんな方式であっても、サービス側とスピーカー側が対応していれば立体音響化した音源を再生してくれます。それが制作意図に相応しいかどうかはミックスの例でも話したように、そもそも音楽を制作意図通りに届けることは困難なため、原音主義に極振りした人でないかぎりは無視するものとします。させてください。

僕が「それどうなん?」と思うのは、立体音響と普段のリスニングとを比較して、直線的な優劣をつけてしまうことです。そこの違いって点数的な優劣ではなく、いわばフォームチェンジ的な違いじゃあないの? V2アサルトもV2バスターも両方良い、大トロと中トロはそもそも脂身が好きかどうかで変わってくる。そういう横軸的な違いが、立体音響なのでは?

だって、ステレオやサラウンドが登場した時に、モノラルがダメになったわけじゃあないじゃないですか。モノラルのラジカセで聞くウォーミーでストレートな音は、臨場感たっぷりのスピーカーに劣るってわけではないじゃないですか。同じ理屈ならどうして解像感バリバリの写真をあえてフィルムっぽくデチューンするんだ!?

[embedded content]

立体感の有無を解像度の多寡のように判断するのは違うと思う、そう言いたいのです。デジタル音源の解像性は突き詰めればリアルアコースティックに迫るけれど、低ビットレートな音源や音楽が悪い音楽ではないってのは、ファミコンの音楽がいまだ愛されていることからも明らかですよね。

立体音響は「第4の味覚」に近い?

今回、こうして立体音響について考えた時、何か近いものはないかなと考えていたら、料理漫画『鉄鍋のジャン』に出てくる黄蘭青(こう らんせい)が近いかも、と。中華料理の天才料理である黄は、料理の三大要素である五味、香り、美観にプラスして、第4の要素「食感」をコントロールできる才能がありました。彼は第4の要素をマスターしている、だから勝てない。そんな超理屈で、主人公ジャンを追い詰めました。

すなわち、今までに無かった評価軸を生み出したのです。食感=立体音響とするなら、今まではビットレートやサンプリング周波数で競っていた高音質の競争に、立体音響という新たな評価軸がやってきたことで、オーディオの製品の戦い方がガラっと変わったのです。

黄の食感を操る料理を見てジャンが独自の食感を編み出したように、Appleやソニーといった各メーカーが立体音響という新たな聴覚体験を生み出したことで、他メーカーも自分たちなりの立体音響でユーザーに驚きを与えはじめています。今はマイナーな立体音響も、ユーザーが望めばメインストリームになっていくかもしれない。立体音響と呼称すると色々ややこしいのはすでに話しましたが、だからこそ空間オーディオとか360とか3Dサラウンドとか、独自な言い回しにしてるのかもですね。それがまーたややこしいんだけども。

思えば、高音質=限りなくアコースティックに近いという、写実的な解像性能への挑戦はどのジャンルでも頭打ちになっているのも事実。3万円近いイヤホンは全部音が良いし、そこを音の好みで選ばせるよりも、立体音響によってもうひとつ違う聞き方できると言われたほうが、なんだかアリな気もしてくる。立体音響リスニングが新しい体験であることには違いないし、個人の体験を重視する今の世の中を鑑みれば、なるべくしてなった進化なのかも。

とはいえ、音が立体的に聞こえる=高音質という図式にザワっとしてしまうのは、凝り固まった原理主義思想なのか…。でも量販店でソニーの「SRS-RA3000」を試聴したら違いには驚いたし…いや、そも違うことがイコール聞きやすいかどうかは別だしどんなコンテンツを試聴するかで立体化の必要性見直したいし、うぅぅむ…。

みんなは立体音響、どう思う?

タイトルとURLをコピーしました