Audio Engineering Society Convention Paper / Presented at the 127th Convention / 2009年10月9日-12日 / New York, NY, USA

音楽ジャンルの違いにおける mp3 圧縮の主観評価

原題: Subjective evaluation of mp3 compression for different musical genres

Amandine Pras, Rachel Zimmerman, Daniel Levitin, Catherine Guastavino
1. Centre for Interdisciplinary Research in Music Media and Technology, Multimodal Interaction Laboratory, McGill University, Montréal, Québec, H3A 1EA, Canada
amandine.pras@mcgill.ca, catherine.guastavino@mcgill.ca
2. Centre for Interdisciplinary Research in Music Media and Technology, Department of Psychology, McGill University, Montréal, Québec, H3A 1B1, Canada
rachel.zimmerman@mail.mcgill.ca, daniel.levitin@mcgill.ca

本論文は AES 第127回大会で発表されたコンベンション論文であり、提出抄録と拡張要旨にもとづいて、少なくとも2名の適格な匿名査読者による査読を経て採択された。

この大会論文は著者による事前原稿をもとに、編集・訂正・査読委員会による再考慮なしに複製されたものであり、AES は内容に責任を負わない。追加論文は Audio Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA への送金付き請求、または www.aes.org から入手できる。

抄録. mp3 圧縮はデジタル音楽ファイルのサイズを減らすために広く用いられているが、特に低ビットレートでは可聴な人工物をいくつも導入する可能性がある。そこで本研究では、リスナーが CD 品質をさまざまなビットレートの mp3 ファイル（96 kb/s から 320 kb/s）より好むかどうか、またその選好が音楽ジャンルの影響を受けるかどうかを調べた。

訓練を受けた 13 名の聴取者が、CD 品質と圧縮ファイルを判定する A/B 比較課題を完了した。その結果、すべての音楽ジャンルにおいて、リスナーは 192 kb/s までの mp3 ファイルよりも CD 品質を有意に好んだ。

さらに、専門性（サウンドエンジニア対ミュージシャン）と音楽ジャンル（電気楽器系音楽対アコースティック音楽）に有意な効果が認められた。

1. 序論

Motion Picture Experts Group（MPEG）は、デジタル音楽ファイルのサイズを減らすための非可逆オーディオ標準として、1991 年に coder-decoder（「codec」）音声ファイル形式 mp3 を設計した。1991 年当時、インターネット接続を持つ人は少なく、接続していても典型的には 5kB/s のダイヤルアップ回線であった。記録可能なコンパクトディスクは多くのハイエンド録音スタジオでさえまだ利用できなかった。そのため当時は、ファイルサイズを縮小すること自体が特に重要だった。mp3 圧縮は必要な保存容量を減らす一方で、音声ファイルの音質低下という代償を伴う可能性がある。こうした制約はその後緩和されたものの、多くの人はいまでも音楽のすべてを圧縮形式で聴いている。さらに、オンライン小売業者はインターネット経由で圧縮音楽を買うよう人々を促している一方、音楽制作のマスタリングは依然として CD 品質、あるいはそれ以上の品質で行われている。

mp3 に符号化する際、ユーザーはビットレート（kbits/s 単位）を選択する。これは圧縮率、ひいては符号化ファイルのサイズを決定する。符号化過程ではまず音声内容が 32 の周波数サブバンドに分解され、人間の聴覚周波数応答、周波数マスキング、時間マスキングなどの心理音響機構にもとづく知覚モデル [6] に従って処理される。次に各サブバンドは、利用可能なビット数（ビットレート）とそのサブバンドの音声内容に応じて決まるビット割当てで符号化される [1]。この技術は理論上、高周波数分解能の誤差や量子化誤差に由来する雑音を導入する。知覚符号化器が導入する可聴人工物について、Brandenburg [1] は「信号は歪んで聞こえるかもしれないが、それは高調波歪のようなものではなく、ノイジーで、[...] 粗い」と述べている。

これまでの研究では、mp3 を含むさまざまな音声圧縮アルゴリズム同士の比較が行われてきた [7]。しかし、CD 品質と mp3 圧縮の知覚差には限られた注意しか払われてこなかった。Ruzanski [4] は、32 から 192 kb/s のビットレート範囲において、クリップのジャンルと、圧縮に対してどの程度耐えられるか、すなわち聴取者の選好に影響が出るまでの許容度との間に有意な相互作用を観察した。さらに Sutherland [8] は、10 年を超える経験を持つ職業サウンドエンジニアと定義された専門聴取者が、非常に高いビットレート（320 kb/s まで）でも圧縮ファイルより CD 品質を有意に好むことを示した。一方 Salimpoor [5] は、平均的な聴取者が CD 品質と区別できたのはきわめて低いビットレート（96 kb/s）の場合だけであることを見いだした。

以上の研究を踏まえて、われわれは、スタジオ経験をもつ訓練済み聴取者、すなわちミュージシャンと経験 10 年未満の若手サウンドエンジニアは、CD 品質ファイルと mp3 圧縮ファイルを弁別でき、CD 品質ファイルをより好む傾向を示すだろうと仮定した。さらに、その結果が音楽ジャンルおよび聴取者の専門性の関数であるかどうかを知りたいと考えた。最後に、訓練済み聴取者が mp3 圧縮によって導入される知覚的音響人工物を同定できるか、またそれらの人工物が音楽ジャンルに依存するかを調べることを目的とした。

2. 方法

2.1. 参加者

訓練を受けた聴取者 13 名（男性 8 名、女性 5 名）が研究に参加し、謝礼として 20 ドルを受け取った。全被験者は標準聴力検査で正常聴力を確認された。参加者の平均年齢は 28 歳（SD = 5.6）で、スタジオ経験年数の平均は 6 年（SD = 5.2）であった。スタジオ聴取に関する専門性の背景はさまざまで、ミュージシャンとして 4 名、サウンドエンジニアとして 8 名（若手プロフェッショナル 3 名と録音修士課程の学生 5 名）、研究者として 1 名であった。

1 名のプロフェッショナル・サウンドエンジニアを除き、参加者全員が平均 15 年（SD = 4.7）の音楽レッスン経験を報告した。この 1 名は音楽訓練を受けていなかった。参加者は自宅または職場で 1 日平均 3 時間（SD = 2.8）音楽を聴くと報告し、聴取ジャンルは広範であった。また、非可逆圧縮形式（mp3 など）で音楽を聴く時間は平均 36%（SD = 23.6）であり、非圧縮または可逆圧縮形式で聴く時間は平均 64% であった。

注1. 共著者のうち 2 名が参加者でもあった。1 名は職業サウンドエンジニア（AP）、もう 1 名は研究科学者（CG）である。

2.2. 音楽抜粋

異なる音楽ジャンルを代表する CD 品質（44.1 KHz, 16 bit）の短い音楽抜粋 5 件を選定した。いずれも 1 つの音楽フレーズで、長さは 5 秒から 11 秒であった。ジャンルは、ポップ、メタルロック、現代音楽、オーケストラ、オペラである（詳細は表1）。

表1. 本研究で用いた 5 つの音楽抜粋の詳細
音楽ジャンル	曲名	作曲者	演奏者（バンド/オーケストラ）	付加情報
ポップ	Irish Green	Bart Moore	Slings & Arrows	Daniel Levitin によるプロデュース
メタルロック	Killing in The Name	Rage Against the Machine	Rage Against the Machine	Garth Richardson によるプロデュース
現代音楽	Diffraction	Yoshihisa Taïra	Quatuor Ixtla	Amandine Pras によるプロデュース
オーケストラ	Symphonie #5	Gustav Malher	Wiener Philharmoniker directed by Pierre Boulez	Deutsche Grammophon
オペラ	Lascia ch'io pianga	George F. Handel	記載なし	Angelo Farina による無響室録音。www.angelofarina.it からダウンロード。

ポップとオペラのクリップは Salimpoor [5] で以前に用いられ、現代音楽のクリップは Sutherland [8] で用いられていた。5 つの CD 品質クリップは、予備聴取テストにおいて参加者 2 名が主観的にラウドネス一致を行った。具体的には、より大きく聞こえるクリップに減衰を加えた。われわれは、Salimpoor [5] および Sutherland [8] の知見と比較可能にするため、L.A.M.E. エンコーダ（lame.sourceforge.net）を用いて 5 つの抜粋を mp3 に符号化した。各抜粋は 96、128、192、256、320 kb/s の 5 つの異なるビットレートで符号化され、各抜粋あたり 6 種類のバージョンが得られた。実験は、5 つの音楽抜粋それぞれについて 6 バージョンの全ペアワイズ組合せに対応する 150 試行から構成された。

2.3. 手続き

各試行で参加者は、必要なだけ両バージョンを聴き、それらのうち好ましい方を二重盲検の A/B 比較課題で選ぶよう求められた。順序効果を打ち消すため、各ペアは提示順を入れ替えたカウンターバランスつきで 2 回提示された。試行間の提示順はランダム化された。実験時間は、途中休憩を含めて参加者あたり 60 分から 90 分であった。

実験は、Centre for Interdisciplinary Research in Music Media and Technology（CIRMMT, Montréal, QC, Canada）の Critical Listening Laboratory で実施した。この部屋は ITU 標準に適合しており、高品質で統制された聴取条件を提供する。刺激は、D/A コンバータ兼モニターコントローラ Grace m906（Grace Design, Boulder, CO, USA）、Classé CA-5200 ステレオアンプ（Classé Audio, Lachine, QC, Canada）、B&W 902D ラウドスピーカー（Bowers & Wilkin, Worthing, West Sussex, England）を通して提示した。

2.4. 質問紙

聴取テスト後、参加者には 3 部構成の質問紙に回答してもらった。第 1 部では、テストをどれほど難しいと感じたか、また同一抜粋の 2 つの異なるバージョンの差をどのように記述するかを尋ねる 2 つの自由記述式質問を実施した。これらの自由回答は constant comparison technique [2] を用いて分析した。

第 2 部では、聴取者が判断に用いた音の基準を調べた。各抜粋について、参加者には 7 つの音響基準の一覧を提示した。すなわち High frequency artifacts、Reverberation artifacts、Dynamic range、Stereo image、General distortion、Background noise、Transient artifacts である。これらの基準は、Sutherland [8] が、聴取テスト後に専門聴取者へ自由記述質問を行い、CD 品質と mp3 を弁別する際に用いた音響基準を収集した研究から導かれた。参加者には、説明やコメント、その他に有用と思われる音響基準の追加も求めた。さらに、そのクリップの音楽ジャンルに馴染みがあるかどうかも尋ねた。質問紙の最後の部分では、人口統計情報、音楽訓練、スタジオ経験、聴取習慣を尋ねた。

3. 結果

3.1. 全体的選好

図1 全参加者・全抜粋を比較ペアごとに集約した結果 — 図1. 全参加者・全音楽抜粋を比較ペアごとに集約した結果。有意な選好は灰色、非有意は白で示す。

全ペアワイズ比較を通して、参加者は 68% の試行でより高品質なバージョンを好んだ。図1は、より高品質なバージョンが選好された割合を比較ペアごとに示したものである。結果は全参加者・全抜粋で集約している。二項検定を用いると、46% から 54% の成績は有意ではなく（p > 0.05）、このことは一方のバージョンが他方より有意に好まれなかったこと、すなわち両者を弁別できなかったことを強く示唆する。54% を超える場合は、参加者が 2 つのバージョンを弁別でき、より高品質な方を好んだことを意味する。46% 未満では、参加者が 2 つのバージョンを弁別でき、しかもより低品質な方を好んだことを示す。

全音楽抜粋を通してみると、参加者は 96 から 192 kbits/s のビットレート範囲において、mp3 ファイルより CD 品質ファイルを有意に好んだ（p < 0.05）。一方、256 および 320 kbits/s の mp3 ファイルと CD 品質ファイルの比較では有意差は認められなかった。異なる圧縮レベルの mp3 同士の比較では、320 と 256 kbits/s の比較を除き、参加者は常により高ビットレートのバージョンを有意に好んだ。この全体結果は、mp3 圧縮が可聴人工物を導入することを示している。

3.2. 音楽ジャンルと専門性の効果

図2 音楽ジャンルと聴取者の専門性別にみた結果分布 — 図2. 音楽ジャンルと聴取者の専門性別にみた結果分布。

次の研究課題は、こうした可聴人工物への感度が音楽ジャンルと聴取者の専門性の関数であるかどうかであった。この仮説を検証するため、より高品質なバージョンが選ばれた回数と、より低品質なバージョンが選ばれた回数の出現頻度に対してカイ二乗統計を用い、選好分布を比較した。その結果、5 つの音楽抜粋間で結果分布に有意差があり（χ²(4)=22.52, p<0.001）、音楽ジャンルが選好に対して高度に有意な効果をもつことが示された。

ただし、ポップとメタルロックの抜粋の結果分布には有意差がなかったため（χ²(1)=0.06, p=0.81, n.s.）、両者を Electric clips として統合した。同様に、現代音楽、オーケストラ、オペラの抜粋の結果分布にも有意差がなかったため（χ²(2)=4.55, p=0.103, n.s.）、これらを Acoustic clips として統合した。最後に、Electric clips と Acoustic clips の結果分布の間には有意差が確認され（χ²(1)=17.22, p<0.001）、以後は両群を分けて結果を示した。

さらに、初期の 4 つの専門性グループ、すなわち musicians、professional sound engineers、sound engineer students、research scientist の間でも、結果分布に有意差が認められた（χ²(3)=53.69, p<0.001）。しかし、professional sound engineers と sound engineering students の間には有意差がなかった（χ²(1)=1.29, p=0.26, n.s.）。また、professional sound engineers、sound engineering students、research scientist の 3 群の間にも有意差はなかった（χ²(2)=2.2, p=0.33, n.s.）一方で、musicians と research scientist の間には有意差があった（χ²(1)=8.8, p<0.01）。そのため、professional sound engineers、sound engineering students、research scientist をまとめて Sound engineers 群とし、もう一方を Musicians 群とした。この 2 群の間では有意差が認められた（χ²(1)=44.27, p<0.001）ので、結果は群別に示す。

図3 ミュージシャンの CD 品質と圧縮水準の選好 — 図3. ミュージシャンにおける、CD 品質と異なる圧縮レベルの選好。

図3は、ミュージシャンが各圧縮レベル（ビットレート）に対して CD 品質ファイルをどの割合で好んだかを示す。

図4 サウンドエンジニアの CD 品質と圧縮水準の選好 — 図4. サウンドエンジニアにおける、CD 品質と異なる圧縮レベルの選好。

図4は、サウンドエンジニアが各圧縮レベル（ビットレート）に対して CD 品質ファイルをどの割合で好んだかを示す。

3.3. 音の判断基準

質問紙第 1 部では、参加者に対し、異なるバージョン間で知覚した差異と、その判断に用いた基準を自由記述で説明するよう求めた。自由記述回答から 34 個の言い回しを抽出し（平均 2.6 個/参加者、SD 1.8）、それらを重複しない 10 カテゴリに割り当てた。このうち 7 カテゴリは、質問紙第 2 部で提示した音響基準に対応していた。すなわち、High frequency artifacts（6 回）、General distortion（5 回）、Spatial artifacts すなわち Reverberation（5 回）、Clarity of the attacks すなわち Transient artifacts（5 回）、Stereo image（4 回）、Dynamic range（2 回）、Background noise（1 回）である。これに加えて、自由記述回答から新たに 3 カテゴリが得られた。すなわち Liveliness（3 回）、Articulation of the musical discourse（2 回）、Bass artifacts（1 回）である。

図5 聴取テスト中の判断基準として報告された音の基準 — 図5. 聴取テスト中に判断に用いたものとして参加者が報告した音の基準。

質問紙第 2 部は、自由記述による理由づけを伴う選択式質問で構成されていた。各クリップについて、参加者には先行研究から導かれた 7 つの音響基準の一覧が提示され、それぞれをそのクリップで用いたかどうか、用いた場合にはどのように、いつ用いたかを答えるよう求めた。図5は、参加者が選択した音響基準総数に対する百分率として回答分布を示す。High frequency artifacts はすべての音楽抜粋で用いられた最頻出基準であり（86%）、Background noise は最も選択率が低かった（28%）。

なお、Background noise はメタルロックのクリップでは一度も選択されなかった。これは、この抜粋の原音（CD 品質）がすでに非常にノイジーであること、おそらくギターアンプとエフェクトに起因することによって説明できる。同様に、Dynamic range はポップのクリップではほとんど選択されなかったが、これはこの音楽抜粋がきわめて強いダイナミック圧縮を受けているように聞こえるためと思われる。これらの結果は、訓練を受けた聴取者が mp3 圧縮によって導入された可聴人工物を同定し、言語化できることを裏づける。ただし、こうした人工物の分布は音楽ジャンル間で有意には変化しなかった（χ²(6)=22.55, p=0.92, n.s., Yates の補正あり）。

3.4. 聴取テストの難しさ

追加の自由記述質問では、参加者に課題をどれほど難しいと感じたかを尋ねた。その結果、3 名は非常に難しいと答え、1 名はそれほど難しくないと答え、9 名は中程度に難しいと答えた。全音楽ジャンルを通して、集中するのが難しかったという報告が 1 件、2 つの劣化ファイルのどちらかを選ぶのが難しかったという報告が 1 件あった。また、2 つのバージョンの差は非常に微妙でありうるという報告が 4 件、Acoustic clips の 2 バージョン、とくに現代音楽とオペラは Electric clips の 2 バージョンより弁別が難しかったという報告が 6 件あった。

事後質問紙では、音楽ジャンルへの親しみも測定した。2 名の参加者は、これらのジャンルをこれまで聴いたことがなかったため Acoustic clips が難しかったと報告したが、全体結果と、馴染みのあるジャンルに限定した結果との間に有意差は認められなかった。ただし、1 名のミュージシャン、すなわち職業ドラマーは、他の 4 つの抜粋に比べて、明瞭なハイハット・ビートを含むポップ抜粋で有意に良い成績を示した（χ²(1)=4.13, p=0.042）。

4. 考察

以上の結果を総合すると、mp3 圧縮は可聴人工物を導入し、それらへの感度は音楽ジャンルと聴取者の専門性の関数として変化することが示された。具体的には、訓練を受けた聴取者は、96 から 192 kbits/s のビットレート範囲で、mp3 圧縮ファイルよりも CD 品質を弁別し、有意に好むことができた。一方、高ビットレートの 256 および 320 kbits/s では、同じ聴取条件下で Sutherland [8] の研究においてより多くのスタジオ経験を持つ専門聴取者が示したような、CD 品質と mp3 の弁別はできなかった。若手サウンドエンジニアと専門家の差は、個々の聴取経験にもとづくクリティカル・リスニング技能の向上によって説明できる。さらに、サウンドエンジニアとミュージシャンは、音楽を聴く際に同じ音響基準へ注意を向けていない可能性がある。サウンドエンジニアは一般的状況で音響人工物を聞き取る訓練を受けている一方、ドラムを含む抜粋で他の 4 抜粋より有意に良い成績を示した職業ドラマーの単一事例は、ミュージシャンが特定状況では音の忠実度により敏感であることを示唆する。将来は、各自の専門楽器を含む抜粋を用いて職業音楽家を検討することで、音声形式が音の忠実度へ与える影響を測定できるだろう。

もう一つ興味深い発見は、mp3 圧縮による人工物が、Acoustic clips よりも Electric clips、すなわち増幅楽器を用いるポップとロックでより聴き取りやすかったことである。これは、一見すると直感に反する。というのも、mp3 圧縮は主としてポピュラー音楽で使われ、クラシック音楽ではそれほど頻繁ではないからである。サウンドエンジニアリングのコミュニティでは、mp3 形式は CD 形式より多くのヘッドルーム、すなわち音声信号のピークレベルと量子化可能な最大レベルとの差を必要とする、と非公式に知られているが、この点を扱った正式研究は確認できなかった。したがって、ジャンル間で異なる結果は、アコースティック音楽より電気楽器系音楽でしばしば強く用いられるダイナミック圧縮によって説明できるかもしれない。

ただし、mp3 圧縮への感度は音楽ジャンルの関数である一方で、mp3 が導入する可聴人工物そのものは音楽ジャンルには依存しない。すべての抜粋において、High frequency artifacts が最も区別しやすい人工物として報告されており、これは高周波数分解能における理論的誤差と一致する。意外なことに、Background noise は最も区別しにくい人工物として報告され、これはダイナミックレンジの大きいアコースティック抜粋においても同様であった。信号強度を符号化するための利用可能ビット数の減少は音声圧縮の主要な技術的帰結であるにもかかわらず、量子化近似によって導入される雑音は、周波数的・時間的・空間的な人工物ほど知覚されやすくはなかった。参加者はダイナミックレンジの知覚変化も報告しており、これは利用可能ビット数の減少によって説明できる。

これらの知見を総合すると、音楽制作のマスタリング工程は、mp3 や他の圧縮形式が一般的に用いられている現状を考慮するよう適応されるべきである。mp3 導入以降、インターネット伝送速度や記憶装置は大きく進歩したにもかかわらず、圧縮形式の使用は近い将来も継続する可能性が高い。この圧縮形式への継続的需要は、大量のデジタル情報をやり取りする際の空間・時間・コストの制約によって支えられている。さらに J. Berger は、若い聴取者が CD 品質より圧縮形式を好んだという非公式研究を報告している [3]。したがって、非可逆圧縮に特化して適応されたマスタリング工程が必要である。

今後の研究では、CD 品質と mp3 圧縮の知覚差に対して聴取条件が与える影響を定量化する方向へ、この研究系列を拡張する予定である。さらに、CD 品質と、それより高品質な形式との知覚差も検討する。

5. 謝辞

ここで報告した研究は、音質知覚に関する FQRSC チーム助成金（研究代表者 I. Fujinaga、共同申請者 CG と DJL）および Grammy Foundation から DJL への助成によって支援された。さらに著者らは、初期稿へのコメントを寄せた Mark Nelson、ならびに Montréal, QC, Canada の Centre for Interdisciplinary Research in Music Media and Technology で実施した実験における技術支援を行った Julien Boissinot、Yves Methot、Harold Kilianski に感謝する。

6. 参考文献

Brandenburg, K. (1999). MP3 と AAC の解説. Paper presented at the 17th International Conference: High-Quality Audio Coding.
Glaser, B. G. (1967). グラウンデッド・セオリーの発見: 質的研究のための戦略 (p. 271). Chicago: Aldine Pub. Co.
Jamieson, A. (2009). iPod 世代は CD よりもやせた音を好む. Retrieved July 31, 2009, from http://www.telegraph.co.uk/technology/apple/4941506/iPod-generation-prefers-tinny-music-to-CD.html.
Ruzanski, E. P. (2006). MP3 符号化が音楽の音に及ぼす効果. Institute of Electrical and Electronics Engineers, 25(2), 43-45.
Salimpoor, V. (2006). 一般的な音声圧縮形式の主観評価. Unpublished manuscript. McGill University.
Shlien, S. (1994). MPEG-1 オーディオ標準ガイド. Institute of Electrical and Electronics Engineers, 40(4), 206-218.
Soulodre, G., Grusec, T., Lavoie, M., & Thibault, L. (1998). 最先端 2 チャンネル音声コーデックの主観評価. Journal of the Audio Engineering Society, 46(3), 164-177.
Sutherland, M. E. (2007). 異なる圧縮形式の評価: アマチュア聴取者から専門聴取者へ. Unpublished manuscript. McGill University.