1 of 57

応用音響学

第8回 音知覚

情報理工学系研究科 システム情報学専攻 講師

齋藤 佑樹

2 of 57

2025年度 応用音響学 講義スケジュール

2

第01回

04/14

猿渡

第02回

04/18

猿渡

第03回

04/25

猿渡

第04回

05/02

猿渡

第05回

05/09

猿渡

第06回

05/16

猿渡

第07回

05/22

齋藤

第08回

06/06

齋藤

06/13

休講

第09回

06/20

齋藤

第10回

06/27

齋藤

第11回

07/04

齋藤

第12回

07/11

齋藤

第13回

07/25

猿渡・齋藤

(試験)

前半

後半

3 of 57

応用音響学 講義の目的

  • 前半 (猿渡先生担当)
    • 音声分析, 音声符号化, 音声認識, 音声合成, 音響信号処理などに関連する基礎知識について講義する. 応用として, 携帯電話やMP3などの音声音楽情報圧縮技術や音声認識技術・音声合成システムなどがある. 統計的信号処理の基礎, スペクトル解析, パターン認識, 確率モデル, 統計学習, 最適解探策などの基本概念とアルゴリズムを理解し, これらの技術の基礎になる知識と概念の習得を目指す.�
  • 後半 (齋藤担当)
    • 人間の持つ音知覚・音生成の生理とそのモデリング方法を理解することを目的とし, 知覚と生成をシステムとして記述するための基礎事項について講義する. 応用として, 聴覚モデリング, 生成モデリング, 音声言語の認識合成, 生体認証などがある. これらを理解することで, 音に関する知覚と生成を工学的に扱うための知識の習得を目指す.

3

4 of 57

ここから本日の内容

5 of 57

音声の聴取から脳内で情報が処理されるまで

5

本講義で学ぶこと: 人間はどのように音を聴くか?

6 of 57

本日の講義内容

  • 人間の聴覚系
  • 音の物理量と心理量
  • 聴覚フィルタ�
  • 頭部伝達関数

6

7 of 57

音の基本的属性と聴覚系

7

  • 音の4要素 (心理量)
    • 高さ: 高低 (高い音 ⇔ 低い音)
    • 大きさ: 大小 (大きい音 ⇔ 小さい音) ≠ 強弱 (関連はする)
    • 音色: 「物理的に異なる二つの音が, たとえ同じ音の大きさ及び高さであっても異なった感じに聞こえるとき, その相違に対応する属性」(JIS)
    • 長さ: 長短 (長い音 ⇔ 短い音) … 除外されて「3要素」とされることも
  • 聴覚系: 音情報の処理システム (感覚器と神経系の総称)
    • 音の物理量から上記の心理量を知覚
    • 心理量の時空間パターンに基づき, 何らかの情報を認識
      • 音源情報, 言語内容

8 of 57

聴覚系の経路

8

聴覚末梢系

(感覚器)

神経系

9 of 57

聴覚末梢系 (外耳中耳内耳)

  • 3つの機構から構成
    • 外耳(音響系),中耳(機械系),内耳(機械・電気系)
    • この3つの機構によって,音響信号を電気信号に変換する

9

音響系

機械系

機械・電気系

音信号

電気信号

10 of 57

外耳の役割: 音を鼓膜に伝え, 振動させる (音響回路)

10

耳たぶ

入り口の

くぼみ

入り口の

出っ張り

いわゆる耳

いわゆる耳の穴�(音響管)

舟状窩 (しゅうじょうか, 耳輪の裏のくぼみ)

11 of 57

耳甲介腔 (窪み) と外耳道 (音響管) 起こる共振

11

成人で平均2.1cm�↓�5kHz前後で�約10倍

成人で約3.5cm.

その4倍の波長で共振が起こる�→ 2.5kHz近傍で約10倍

12 of 57

中耳の役割: 鼓膜の振動を内耳に伝える�(空気-蝸牛内リンパ液のインピーダンス整合)

12

鼻の中の空間へ

人間の骨の中で最小

13 of 57

内耳の役割: 平衡感覚を司る & 周波数分析を行う

13

本講義では省略

約2.8 ~ 3回転する

14 of 57

蝸牛の構造

14

アブミ骨

約3~3.5cm

蝸牛を引き延ばした図

アブミ骨による振動がリンパ液を振動させ,

基底膜もそれに応じて振動する

リンパ液で

満たされている

振動により�基底膜が動く

基底膜が動くと内有毛細胞の毛が揺れ, 神経発火が生じる

聴神経

音信号を電気信号に変換

15 of 57

蝸牛の周波数分析機能

  • 周波数に応じて�振動の減衰速度が異なる
    • 高周波数は早く減衰する�
  • すなわち, 基底膜は�周波数分析機能を持つ
    • 内有毛細胞による神経発火も周波数依存性がある

15

低周波数

高周波数

  • fcf : 特徴周波数
  • A, α, k: パラメータ
  • L: 蝸牛長 [mm]
  • x: 位置 [mm]

16 of 57

聴覚抹消系のしくみ

16

17 of 57

神経系

17

  • 蝸牛神経核 (cochlear nucleus)
    • 蝸牛および聴神経の周波数選択性を反映して,�各周波数に反応するニューロンが�空間的に連続的に配列されている.
  • 上オリーブ複合体 (superior olivary complex)
    • 両耳からの神経が最初に収束する場所
    • 両耳間の時間差や音圧レベル差など,�空間位置に関する手がかりを抽出している.

18 of 57

余談: 難聴 (hearing impairment)

18

  • 定義: 健聴者と比べて聴力が一般に20dB以上低下している状態
    • 伝音性難聴, 感音性難聴, 混合性難聴 (伝音性難聴と感音性難聴の両方)
  • 伝音性 (conductive) 難聴
    • 外耳や中耳の障害 (外耳道, 鼓膜, 耳小骨など) に起因する難聴
    • 物理音響的な音伝搬が十分に機能していない状態�→ 補聴器などで音の強さを増幅させることで補償可能な場合が多い
  • 感音性 (sensorineural) 難聴
    • 内耳もしくは神経系の障害 (加齢性, 騒音性, 突発性など) に起因する難聴
    • リクルートメント現象が起こる
      • 音の強さが弱いときは全く聴こえないが, 少し強くすると急激に大きく聴こえる現象 (強さの弱い子音の聞き間違いなど)
      • 補聴器による強さ増幅では補償できない難聴

19 of 57

本日の講義内容

  • 人間の聴覚系
  • 音の物理量と心理量
  • 聴覚フィルタ�
  • 頭部伝達関数

19

20 of 57

音の基本的属性 (再掲)

20

これらは, 音の物理量とどのように対応しているのか?

  • 音の4要素 (心理量)
    • 高さ: 高低 (高い音 ⇔ 低い音)
    • 大きさ: 大小 (大きい音 ⇔ 小さい音) ≠ 強弱 (関連はする)
    • 音色: 「物理的に異なる二つの音が、たとえ同じ音の大きさ及び高さであっても異なった感じに聞こえるとき、その相違に対応する属性」(JIS)
    • 長さ: 長短 (長い音 ⇔ 短い音) … 除外されて「3要素」とされることも�

21 of 57

心理的な音の高さ

21

心理的な周波数

物理的な周波数

  • 高知覚の直線性 (tone height)
    • 基本周波数 (物理量) に対し, ピッチ (心理量) は単調増加する�
  • 音高知覚の循環性 (tone chroma)
    • 1オクターブ (周波数が2倍 or 1/2倍) だけ離れた音は, �元の音と共通する性質を持つ�
  • 音高の知覚尺度: メルスケール (mel scale)
    • メルスケールが同じなら, �人間が感じる音高の差は同じ

22 of 57

音の物理的な強さ (音圧) と心理的な強さ (ラウドネス)

22

感覚的主観量

(ここではラウドネス)

物理刺激の強さ

(ここでは音圧の二乗)

定量化条件に応じた係数

刺激条件に応じた冪乗数

(ラウドネスの場合は0.3)

  • 音圧 (sound pressure)ラウドネス (loudness) はどう対応する?
    • 尺度構成法に基づく定量化が多い
  • Stevens の冪乗則 (Stevens’ power law)
    • 感覚的主観量は, 物理刺激の強さと冪乗則で結ばれる
    • 多くの主観量について成り立つことが知られ, 音圧とラウドネスでも成立

23 of 57

等ラウドネスレベル曲線

23

  • ラウドネスレベル [phon]
    • 1kHz純音の最小可聴値のラウドネスを基準にしたときの,�ラウドネスの相対値
    • 等ラウドネスレベル曲線: 様々な周波数のラウドネスレベルを結んだ曲線

外耳道での�共振に起因

24 of 57

音色の知覚

24

  • 音色 (tone): 要素が同じ2音を弁別しうる属性
    • 新定義:「音源が何であるか認知するための手がかりとなる特性」
    • 印象的側面 (形容詞で表現) と識別的側面 (楽音の違いなど)
  • 音一般における音色 → 多次元尺度構成法の進展により明らかに
    • 音色表現語のペアと因子分析結果を対応付けた
      • 美的因子: きれいな ⇔ きたない, なめらかな ⇔ ざらざらした
      • 迫力因子: 迫力のある ⇔ 物足りない, 豊かな ⇔ 貧弱な
      • 金属性因子: 鮮やかな ⇔ ぼけた, 鋭い ⇔ 鈍い, 明るい ⇔ くらい
    • 音質 (tone quality) は一次元的 (低い ⇔ 高い) → 音色とは異なる�
  • 音声の場合: 音素, 話者, 感情, etc.
    • つまり, 言語/非言語/パラ言語情報の違いを生み出す要因

25 of 57

音色を決める音の物理的特徴

25

  • 静的音色: 周波数スペクトルが時不変な音
    • スペクトル包絡線の大局的・局所的特徴の違いに起因
    • 位相も音色の違いに寄与するが, 振幅のほうがより支配的
  • 準静的音色: 周波数スペクトルは時不変だが, 波形の包絡線が時変な音
    • 例: うなりと振幅変調 (AM)
    • 変調周波数が5Hz程度 → 音の変動感を知覚�
  • 動的音色: スペクトルも波形包絡も時変な音
    • 例: 楽器音や音声の子音�
  • 準動的音色: 波形包絡は時不変だが, スペクトルが時変な音
    • 例: 変調周波数 (FM), 楽器演奏におけるビブラート

26 of 57

音の心理的な長さ

26

  • Q: 心理的な「音の大きさ」は「音の長さ」に依存する?
    • 瞬間的な物理的大きさにだけ依存? or その長さにも依存? (つまり積分値)
  • A: 500ms以下であれば, 音の長さによって心理的な音の大きさは変化
    • すなわち, 積分値が重要となる
    • 特定の長さ区間においては, 音の長さ × 音の物理的大きさが一定なら,�人間は同程度に当該音を検知できる
      • 例: 50msと100msの純音を用意し, 後者の音圧を前者の半分とする.�このとき, 人間はこれらの音を同時に検知できる.

27 of 57

余談: 腹話術効果 (Ventriloquism effect)

27

  • 知覚される音像位置が映像位置に引っ張られる効果
    • 両耳情報の曖昧さに起因 (視覚・聴覚の相互作用の1つ)

時間的に同期した映像と音像.

ただし, 空間位置は違う

しかし, 受聴者は, 映像と同じ位置から�音がなっているように知覚する

音像が映像に引っ張られる

28 of 57

さらに余談: マガーク効果 (McGurk effect)

28

  • 音韻 A の視覚刺激 + 音韻 B の聴覚刺激 = 音韻 C を知覚
    • 聴覚情報の曖昧さに起因 (視覚・聴覚の相互作用の1つ)�

聴覚情報

視覚情報

29 of 57

さらに余談: マガーク効果 (McGurk effect)

29

音は /pa/ でも, 映像を変えると /ta/ や /ka/ に聴こえる!

30 of 57

本日の講義内容

  • 人間の聴覚系
  • 音の物理量と心理量
  • 聴覚フィルタ�
  • 頭部伝達関数

30

31 of 57

基底膜振動と聴覚フィルタ

31

  • 蝸牛の役割: 基底膜を振動させ, 周波数分析を行う
    • これを計算機的に模擬したい
    • 「基底膜の位置ごとに, 中心周波数と帯域が異なるフィルタが複数ある」�ものとみなす
  • 聴覚フィルタバンク (auditory filterbank)
    • 基底膜振動を近似するフィルタ (聴覚フィルタ: auditory filter) の群

32 of 57

聴覚フィルタバンク (6個の例)

32

(縦軸も横軸も対数であることに注意)

中心周波数

左右非対称

帯域幅

(中心周波数に比例)

中心周波数に関わらず同じ形状を持つ

33 of 57

ノッチ雑音マスキング法 (notched noise masking)

33

  • 聴覚フィルタを計測するための有名な方法 (Patterson により提案)
    • 周波数マスキングを利用�
  • 寄り道: マスキング (ある音で別の音が聴こえにくくなる現象)
    • 周波数マスキング: 大きな/高い 音が 小さな/低い 音をマスク
    • 時間マスキング: 時間的に前の音が直後の音をマスク

周波数

パワー

純音のみが�聴こえる

白色雑音

純音が�聞こえづらくなる

純音が聞こえなくなる

(雑音でマスクされる)

34 of 57

ノッチ雑音マスキング法: 手順

  1. 純音 (プローブ音, フィルタの中心周波数に対応) と�帯域雑音 (マスカ音,フィルタ形状の決定に利用) を用意し, 同時に鳴らす�
  2. プローブ音のみのときに比べ, 帯域雑音を重畳�→ プローブ音の検出閾値 (人間が検出可能な音圧) が上がる�
  3. 雑音の帯域を広げていくと検出閾値が更に上がるが,�ある特定帯域幅を超えると変化しなくなる (聴覚フィルタで打ち消される)�
  4. この時のプローブ音の強さと帯域幅, �雑音レベルを測定する

34

35 of 57

フィルタ形状の推定とガンマチャープフィルタ

35

  • ノッチ雑音マスキング法で得られるもの: フィルタの積分値
    • 積分値からフィルタ形状を推定したい → 以下を最適化�����
  • ガンマチャープフィルタ (gammachirp filter)

聴覚フィルタの�パワースペクトル (未知)

雑音レベル

(一定 & 既知)

下側 (第1項)・上側 (第2項) の聴覚フィルタの積分値 (積分範囲は既知)

プローブ信号のレベル

(既知)

振幅

フィルタ次数

帯域幅係数

周波数frの帯域幅 (fr に比例)

漸近周波数

(左右対称フィルタなら, 中心周波数に一致)

非対称性を司る

係数

位相

36 of 57

聴覚フィルタの非線形性

36

ゲインに対する

圧縮特性が働く

  • 実は, 聴覚フィルタは線形時不変システムではない.
    • すなわち, 信号処理論で習ったような方法を直接使うことはできない. �
  • 例: 聴覚フィルタの音圧への依存性
    • フィルタの利得・形状が入力音圧によって変化
    • フィルタパラメータは, 入力音圧に応じて推定する必要あり

37 of 57

本日の講義内容

  • 人間の聴覚系
  • 音の物理量と心理量
  • 聴覚フィルタ�
  • 頭部伝達関数

37

38 of 57

音空間レンダリング (音場再現) とは?

38

  • 知覚のモデリングでは, 空間の再現も重要
    • 例えば, コンサートホールやスタジアムにおける音の響きは, �自宅のリビングにおける響きと全く異なる (=音の場 [音場] が異なる)
    • この「音の響き」を人工的に再現できるか? (=「音のVR」)�→ 音空間レンダリング (音場再現)

39 of 57

音場再現に必要な要素

39

5.1ch surround

Binaural

Transaural

空間解像度

22.2ch surround

Higher Order Ambisonics

Wave Field Synthesis

広い受聴領域と�高い空間解像度を

目指した音場再現へ

受聴領域の大きさ

40 of 57

音場再現の分類

40

  • 再生系による分類
    • 拡声型 (開放型とも): スピーカを使った再生
    • 両耳型 (没入型とも): ヘッドホンを使った再生�
  • モデルによる分類
    • 物理音響モデル: 波面合成法, アンビソニックス, 逆フィルタ方式など
      • 音場の物理量を正確に再現するもの
      • 過去の応用音響学 (現 NII 准教授 小山先生) の講義資料が詳しい
    • 心理音響モデル: マルチチャネル型, 振幅パニング型, バイノーラル型
      • ステレオ (2チャンネル) 方式に端を発する,�人間の方向知覚を利用するもの
      • 本講義ではバイノーラル型の音場再現を紹介

41 of 57

バイノーラル型の音場再現

41

  • 外耳道入り口の音圧を再現する方法
    • ダミーヘッド (人間の上半身を模した人形) の外耳道にマイクを設置し,�原音場での音圧を観測
    • (再生・収音系の特性をキャンセルして) 聴取者のヘッドホンに提示
    • 音源から外耳道入り口までを線形時不変システムと仮定したとき,�その伝達関数を頭部伝達関数と呼ぶ.

Inverse

System

Head And Torso Simulator (HATS)

原音場

聴取者

ヘッドホン, マイクの特性キャンセル

42 of 57

頭部伝達関数 (Head-Related Transfer Function: HRTF)

42

  • 音源から外耳道入り口までの音響的な伝達特性
    • 頭部, 肩, 胸, 耳介により回折・反射する経路の特性
    • この伝達関数 (周波数特性) を HRTF とよび, そのインパルス応答を�頭部インパルス応答 (Head-Related Impulse Response: HRIR)と呼ぶ.

43 of 57

3次元極座標における HRTF

43

  • 以下をパラメータとする3次元極座標を考える
    • 距離 r, 方位角 φ, 天頂角 θ (xy 平面を基準にする場合は上昇角)�
  • このとき, HRTF は以下のように計算される�������
    • 耳の左右, 周波数, 方位角, 上昇角に依存. F は無響かつ頭部のない状態での伝達関数であり, スピーカとマイクの特性をキャンセルする役割を持つ.

44 of 57

HRTF は何によって変化するのか?

44

  • 講義内で触れるもの
    • 水平面の方位角: 左右の音源位置知覚
    • 正中面の上昇角: 上下の音源位置知覚�����
  • 他にも色々な要素に依存 (例えば個人差)
    • 耳介の形状 (例: 耳甲介腔の長さ・幅)
      • 耳介形状からHRTFのピーク・ノッチ周波数をある程度推定可能
    • 頭部 (例: 頭部の幅, 長さ, 奥行き)

45 of 57

左右の音源位置知覚の手がかり

45

  • 音源位置が左右方向で変わると, 伝達関数はどう変わる?
    • 容易に想像できるように, 正面左側に音源があるならば,�左耳のほうが右耳より { 早く, より大きい } 音波が到達する.
  • これを特徴付ける情報
    • 両耳間時間差 (Interaural Time Difference: ITD)
    • 両耳間レベル差 (Interaural Level Difference: ILD)
      • これらは聴覚系の上オリーブ複合体にて検出されている

46 of 57

両耳間時間差 (ITD)

46

  • 入射波が平面波であり, 頭部が完全な球であると仮定
    • このとき, ITD (および経路差) を解析的に求められる������
    • 実際に計測すると, 最大 0.6 ~ 0.8 ms の差がある

左右の

経路差

音速

頭部直径

頭部に沿う

回折波の経路

音源に近い耳に音波が到達してからもう一方の耳側の頭部に�到達するまでの経路

左耳方向あるいは右耳方向に�音源があるときに, �最も大きい ITD が生じる

47 of 57

両耳間レベル差 (ILD)

47

  • ITD と同様に, ILD も方位角によって変化する
    • さらに, 頭部回折は波長が短い (= 周波数が高い) ほど生じづらい
    • この両耳間レベル差による知覚を応用したのがステレオ再生方式

周波数が高いほど, ILD のレンジが大きくなる

48 of 57

コーン状の混同 (cone of confusion)

48

  • 左右方向の知覚は ITD, ILD で説明可能
    • では, 前後方向, 上下方向の知覚も説明できるか? → NO.
  • コーン状の混同 (cone of confusion)
    • 頭部を球と仮定 → 円錐台の垂直断面の円周上では, 両耳間差は等しい
    • 故に, ITD, ILD では前後方向, 上下方向の知覚を説明できない

49 of 57

上下の音源位置知覚の手がかり

49

  • HRTF を見てみると
    • 振幅スペクトルに角度依存性が見られる
    • 前後上下方向の知覚に重要な振幅スペクトルを�spectral cues と呼ぶ

50 of 57

HRTF のピークとノッチ

50

  • ピーク (Peak) とノッチ (Notch)
    • 振幅スペクトルのうち, 極大点と極小点をそれぞれピークとノッチと呼ぶ
      • 低い周波数から順に P1, P2, …, N1, N2, … と呼ばれる
    • 信号処理的に言えば, ピークが極, ノッチが零点で表現される�自己回帰移動平均 (ARMA) フィルタ
    • これらの特徴は, 周波数分析機能を有する蝸牛神経核で検知されている

51 of 57

ノッチの上昇角依存性

51

  • ピークは上昇角に依存しないが, ノッチは依存 → 何故? この成因は?
    • 予想してみよう. 対応する体の部位はどこだろうか?
    • ピーク (極): どこかの音響回路で共振が発生している
    • ノッチ (零点): どこかの音響回路で反射が発生している

52 of 57

耳介の窪みを埋めた音像知覚実験

52

  • 耳介の窪みをゴムで埋めて, 音源の上昇角を答えさせる
    • 窪みを埋めるほど, 人間は上昇角を知覚できなくなる�→ 耳介形状が HRTF に寄与している可能性を示唆

ゴムで�埋める

Better

53 of 57

ピークとノッチの成因

53

  • ピーク: 耳介のそれぞれ窪みでの共振
    • P1 (図左): 耳甲介腔の深さ方向の共振モード
    • P2 (図右): 耳甲介腔の上下方向の共振モード������
  • ノッチ: 耳介での反射 (ただし, 実測値とは一致しない)

54 of 57

余談: 自分と異なる HRTF を使うと…

54

  • 所望の位置に音像が定位しないことがある. 例えば…
    • 前後誤反転: { 前方, 後方 } の音を { 後方, 前方 } と知覚してしまう
      • Spectral cues の周波数のズレによるもの
    • 音像上昇: 水平面上の音像を斜め上方向と知覚してしまう
      • その原因はよく分かっていないらしい?
    • 頭内定位: そもそも頭の中に音像があると知覚してしまう

55 of 57

まとめ

56 of 57

まとめ

  • 人間の聴覚系
    • 聴覚末梢系と神経系により構成
    • 外耳・中耳・内耳�
  • 音の物理量と心理量
    • 音の4要素 (高さ・大きさ・音色・長さ)
    • 物理量と心理量の強さは冪乗則で結ばれる (例: 音圧とラウドネス)
  • 聴覚フィルタ
    • 蝸牛による周波数分析を計算機的に模擬
    • フィルタ形状の推定, フィルタの非線形性�
  • 頭部伝達関数
    • 音場再現, バイノーラル, ITD と ILD, ピークとノッチの成因

56

57 of 57

参考文献

  • 鈴木 陽一 他, “音響学入門,” コロナ社, 2011.�
  • 香田 徹 他, “聴覚モデル,” コロナ社, 2011.�
  • 古川茂人, “聴覚,” コロナ社, 2021.�
  • 大塚 翔, “詳細時間構造処理能力への聴覚末梢の構造的要因の影響,”�東京大学 博士論文, 2016.�
  • 入野 俊夫, “はじめての聴覚フィルタ,” 日本音響学会誌 66巻10号, 2010.�
  • 飯田 一博, “頭部伝達関数の基礎と3次元音響システムへの応用,”�コロナ社, 2017.

57