Research

鈴木淳也さん

鈴木淳也さんは、ソニーでオーディオ技術開発にたずさわるエンジニア。鈴木さん自身のご経験を超えて、エンジニアとしての専門的な知見について学ばせてもらう講義のようなインタビューでした。私の本の内容についても、ひとつひとつ丁寧にコメントしてくださいました。


2016年6月29日東工大伊藤研究室にて

鈴木淳也さんプロフィール
1966(昭和41)年生まれ。ソニー(株)リサーチ・サイエンティスト。オーディオ技術開発に携わる。1991年より視覚障害者用パソコンソフトメーカにて視覚障害者用の点字ワープロの開発を行ったのち、1993年よりソニー(株)勤務。その間、2000年から2003年まで日本障碍者リハビリテーション協会に出向し、IT教育によるアジア障碍者リーダーの育成に従事。また、2007年から2012年まで東京大学研究員として盲人の障害物認知メカニズムの研究、2009年から2014年まで富山大学にて移動する音による図形提示の研究を行い、博士号(工学)を取得。

ソニーへのヘッドハンティング
伊藤 いろいろ机の上に準備をしていただいていますが…これは何ですか?

鈴木 オーディオインターフェイスです。ドイツのRMEというメーカーのもので、音響計測系ではわりとよく使われます。あとでデモンストレーションしますよ。

伊藤 楽しみですね…これで準備はOKですか?

鈴木 はい、OKでございます(笑)お待たせしました。
 プリントにまとめてきたのですが…まずはこれから。〔角に点字で印のある墨字のプリントを渡してくださる〕

伊藤 わ、ありがとうございます。すごい!私の本を読んだ感想をまとめてくださったんですね。

鈴木 先生の本は本当に楽しく、深く考えさせられました。かつ工学屋として、これを今後どう展開していったらいいのかなというのを考えるいいチャンスにもなりました。六本木のワークショップにも参加しましたが、そのおかげで先生にお目にかかることができて、これは今後楽しみだなあとワクワクして今日は参りました。工学系の博士としてここまでやってきたこと、企業で泥臭くやってきたこと、きっと先生と今後何かできるのではないかと思っています。

伊藤 いいですね。開発や実験をしたいという気持ちはあるので、接点をさぐっていきたいですね。

鈴木 先生の本について、各章を読んで思ったことをまとめてきました。冒頭で、先生は子供のころにワトソンに会いに行ったという話がありました。ぼくは93年からソニーという会社で働いているのですが、きっかけはソニーの創業者である井深大さんの対談のカセットテープを聞いたときに、これは自分が考えるものづくりをまさに実行されてすごいなと思ったんです。それでこの思いを伝えたいと思って、井深さんに手紙を出したんです。ご本人には読んでもらえないだろうとは思っていたのですが、当時やっていた視覚障害者用のソフトウェアの開発の話や、持っている特許の話を書きました。92年の5月くらいです。しばらく返事がなく、こちらも忘れているぐらいだったんですが、8月の頭ころに電話がかかってきて、井深さんご本人と10分ほどお会いしてお話する機会がありました。そしてその夜、家に帰ってきたら自宅に人事関係の方から電話がかかってきて、翌日ふただび履歴書を持って会社に行くことになりました。そのようにして93年1月からソニーで働くことになりました。いくつか特許を持っていたことが評価されたのだと思っています。

伊藤 夢のようなシンデレラストーリーですね!行動力のたまものですね。

鈴木 そうなんです。それ以来、ここぞというときには思った人に連絡するようにしています。それで先生にもいの一番に連絡しよう、と思ったわけです(笑)

伊藤 ありがとうございます。でも私には何の権力もありませんので(笑)。

鈴木 ソニーでは、ぼくはオーディオ技術開発部というところで働いています。そう説明すると、たいてい「やはり目が不自由だから耳が鋭いんですね、だからオーディオのことやっているんですね」と言われます。でもぼく、仕事をするなかで、ヘッドホンで音を聞くということはほぼなくて、ほとんどプログラムを書いています(笑)。あるいは微分方程式を解いたりとか、数式ばっかりいじっているんです。音を聞くのは、最後の最後、プログラムを書き終わったときぐらいですよ。

伊藤 確かにその誤解はよくありそうですね。私の本でも「視覚障害者は点字が読めるから触覚がするどいはずだ」という誤解について書きましたが、それと同じ構造ですね。

鈴木 はい。恥ずかしいんですが、NHKの番組に出たときに、バラエティ系の番組で、ぼくの耳を耳鼻科で使うような聴力測定器で調べたことがありました。見事に平均値でしたね(笑)。高域なんてむしろ平均値より悪かったんです。こんなんじゃ全然ハイレゾなんか聞こえないよ、という耳でございます(笑)。
 人間の脳って生まれて7ヶ月くらいから、同じようなものを同一視して脳の負荷を減らそうとするらしいですね。たとえば、二匹の猿の映像を見せると、生まれたばかりの赤ん坊はそれを別のものとして扱っているような目の動きをする。ところが7ヶ月すぎると、「二匹の猿」というくくりをするようになるそうです。同じものをなるべくくくるというのは人間の脳にもともと備わっている機能で、そう考えると「視覚障害者は〇〇」とひとくくりにするのも、まあ、脳を楽にさせようとしている働きなのかもしれないですが。

伊藤 そうですね。実際に見えない人に話を聞いてみると、ひとりとして同じ「見え方」の人はいないんですけどね。

IMG_5715.JPG

 

 

レーズライターを使って説明する鈴木さん。知人の先天盲の人は、物を正面と真上からの投影図のように物をとらえている。「見る」は学習ではないか。

工夫して解決するエンジニア魂
鈴木 先生の本を読んで思ったことの二つめは、木下さんの話についてです。木下さんは、手術のあとに友達がよそよそしくて悲しかったそうですが、僕も小学校6年生で失明したときの思い出があります。もともと弱視だったのですが、ついに6年生で見えなくなりました。窓際に何人かの友達や先生と一緒にいたんですが、そうしたらある友達が、僕にではなく先生に向かって、「淳也くんて、熱は分かるんですか?」って聞いたんです。悲しかったですね。小学生で、しょんぼりして「どうしたらいいんだろう」と思うくらいしかできなかったのですが。すぐに小学校を卒業して中学からは盲学校に入ったので、その友達とは疎遠になってしまいました。一方で、見えなくなってから仲良くなった友達もいました。

伊藤 見えなくなった経緯はどのようなものだったのですか。

鈴木 生まれてすぐ熱がでて退院が延期になりました。新生児室にいるあいだにできたわずかな擦り傷から菌が入り、蜂窩織炎(ほうかしきえん)にかかってしまいました。それがひどくなり、敗血症にかかってしまいました。看護婦さんが着替えさせるために服を脱がせたら、背中がひどくはれた状態だったんです。それで慌てて警察病院に搬送されて、脚の皮を背中に移植するという大手術をしました。そのときに細胞分裂を活発にするための薬として、副腎皮質ホルモンを投与したらしいんです。副作用が出るということもわかっていたんですが、皮膚がくっつかないと命が危ないということで、大量に使いました。2歳くらいまで入院していました。それで緑内障になり、右目は物心ついたときから見えず、左目は12歳のときに見えなくなりました。

伊藤 それは大変な乳児期を過ごされましたね。その後、小学校までは左目だけで見る生活をしていて、中学校から盲学校に入ったわけですね。

鈴木 盲学校に入った中学1年生は大変でした。英語や数学が始まるうえに、点字を習い始めたので。点字って、字面を追えたとしても、慣れていないと、一ページ終わったときに「あれ何が書いてあったけ?」というような感じになってしまう。内容が分かるにはスピードが必要なんです。いまだったら知恵を働かせて、ゆっくり読んだものをテープにとってあとで聞く、というようなやり方もあったなあと思えるんですけどね。

伊藤 当時はパソコンもないし、点字を習得することも重要度が今とは違ったでしょうね。プログラミングは大学で学んだんですか?

鈴木 プログラミングは独学です。小学校のときから電気が好きで、買ってきたおもちゃよりも電気製品を分解したりするほうがよっぽど面白かった。それで当然、電気関係のエンジニアになるぞと思っていたんですが、見えなくなって、福祉関係の道にしなくちゃいけないのかなと思いつつ諦めきれずにいました。高校を卒業するときに、いろいろな大学にかけあいました。それこそ一番行きたかった大学は東工大だったので、東工大もふくめてあちこちかけあったのですが、やはり電気は全盲だと受け入れられないという答えでした。コンピューターも大型のものしかないし、実験は難しいと断られてしまった。高校の先生からは、成績もいいし、文系でもいいから大学に行きなさいとか、数学の先生になる道もあるよと勧められたんですが、電気じゃないなら行きたくないなという気持ちでした。
 そのあと、二十歳くらいのころ、90年代前半ごろですが、プログラミングが視覚障害の仕事としてできそうだという感じになってきました。しゃべるパソコンがでてきたんです。それで当時まだ40万円くらいしたパソコンを親に買ってもらいました。

伊藤 Windows 95まえのパソコンということですよね。すごいですね。

鈴木 ハードディスクも何もなくて、MS-DOSでやってました。唯一点訳されていたC言語の有名な教科書「プログラミング言語C」があって、けっこう分厚くて難しかったのですが、朝までそれを勉強して、1週間でC言語を理解しました。これは面白いぞ、となった。
 自分でもいろいろプログラミングをかいて、人に見せたりしていたら、視覚障害者用のソフトを作っている会社から呼ばれて、働くことになりました。ここでは2年間働くあいだに点訳ソフトとワープロソフトを開発し、どちらも今でも販売されています。その後、ソニーに移りました。盛田さんの主導でバリアフリープロジェクトが立ち上がり、そのリーダーになったんです。

伊藤 もともと道を切り開く力が強い方だったのだと思いますが、そこにエンジニア精神とプログラミングというスキルが加わって、さらにパワーアップした感じですね。

鈴木 伊藤先生の本の中に、自立と依存の話がありましたね。まわりの人にうまく依存してサポートを使いこなすことも自立である、と。自分の場合、そういう意味での依存は苦手なのかなと思います。少々苦労しても、何でもかんでも工夫してやるのが好きですね。たとえばオシロスコープも、一般には電気信号をグラフの形で示してくれるもので、人に頼めば簡単に測定してもらえるんだけど、ぼくは、コンピューターにつないで記録できるタイプのオシロスコープを使って、データとして情報を取り込んでいます。データとして取り込んでしまえば、あとは好き放題(笑)。自分でプログラムを書いて、サンプルをとる回数や特徴量を抽出する仕方などを自分で指定できるようにして、やりたい放題しています(笑)。結果として、ふつうのオシロスコープでは出せないような値を出せるようになっています。

音源定位感覚は前より後ろの方が鋭い
鈴木 思ったことの三つ目は、「大岡山」の話です。視覚って遠くが広く見えるから、差分がとりにくいのかなと思いました。数歩歩いただけでは、視界にあまり変化が起きない。せいぜいコンビニが後ろにずれるくらいのものです。それに対して、たとえば足の裏の情報は細かく変化していくので、見えないとその差分情報をうまく利用していく。人間の感覚って差分をとることについては敏感ですよね。ピアノの鍵盤をひとつ叩いても何の音かは分からない。でも二つ叩けば、どちらが高いかが分かります。

伊藤 なるほど。視覚って確かに全体が俯瞰できるぶん、差分に気づきにくいという特徴がありますね。

鈴木 視覚は空間分解能には優れているけれど、時間分解能については劣っていますよね。時間分解能が劣っているから、テレビや映画が存在できるわけです。もし視覚の時間分解能がもっと優れていたら、一秒あたりのフレーム数をもっと増やさないと、動画に見えない。逆に聴覚は、時間分解能は優れているけれど、空間分解能は悪い。音源が少しずれたくらいでは分かりません。文献によるとMAMA(最小可聴運動角minimum audible movement angle)が正面だと3.4度だと言われています。

伊藤 3.4度とはかなり小さいですね。

鈴木 そうですね。これはかなりいい条件での測定だと思います。
 それと、音源定位ということでいうと、前より後ろのほうがすぐれていると言われています。なぜかというと、後ろは視覚で補えないので、敏感になっているということだそうです。ぼくは今バーチャルヘッドホンの開発をしていますが、前方定位というのはすごくしにくい。音で、ばあっと目の前にスクリーンがあるような感覚を作り出すことは難しいです。むしろ後方定位の方が、ヘッドホンで作りやすいんです。

伊藤 なるほど!言われてみると、確かに直感的に、後ろの方が音源定位感覚がするどい感じがします。耳って前のほうに向いてついているから前のほうがするどいのかと思ったらそうでもない。それは視覚によって補完しているからだとおっしゃいましたが、鈴木さん自身はどうですか。

鈴木 ぼくの場合は前のほうも敏感にならなくちゃいけないから、人よりは前の音も場所を言い当てることができますね。

伊藤 でも、音情報がイメージに変換されるのは、前からきた音だけですよね。

鈴木 確かにそうですね!頭の中で画像化しているのは前からの情報だけで、後ろから来る音はやってないですね…。訓練したら360度ビューになるのかもしれないけど(笑)

伊藤 単なる音の画像化ではなくて、視覚化というか、見ているという状況に当てはめるような変換なんでしょうね。

自分の体の形を聞く?
伊藤 ところで「バーチャルヘッドホン」というのは具体的にどのようなものですか?

鈴木 映画館にいくと、正面、左右の壁、後ろなどあちこちにスピーカーがあって、音に包まれたような感覚になりますよね。それをヘッドホンで実現しようというのがバーチャルヘッドホンです。自宅で、それをかけるだけで、あたかも自分の正面や横にスピーカーがあるかのように感じられます。5.1サラウンドとか、7.1サラウンド、最近では9.1サラウンドと言われるものを実現するんです。

伊藤 サラウンド環境をバーチャルに作り出すということですね。具体的にどんな原理で実現されているんですか?

鈴木 たとえば、自分の左にあるスピーカーだけを考えるとします。まず、特殊な部屋で録音をして、HRTF(頭部伝達関数Head Related Transfer Function)を求めます。具体的には、ダミーヘッドの左側にスピーカーを置いて、そこからタイムストレッチトパルスを出し、右耳と左耳にとどく音を収録し、それを特殊な計算でパルスに変換して、コンボルーション(畳み込み)します。音は、人間の頭に遮られたり、回り込んだり、耳の形の影響を受けて聞こえます。頭じたいが、一つの関数なんです。それがHRTFです。

伊藤 なるほど。音の左右差というのは、単なる音源からの距離の問題だと思っていましたが、頭や耳の形が関わるんですね。

鈴木 そうです。人の両耳の間の距離は平均して17センチなんですが、ただマイクを17センチ空けて録音しても、ラジカセで録音したぐらいの感じになってしまいます。厳密に撮るときには腰くらいまであるトルソーを使います。

伊藤 面白いですね。音って自分の体の形を聴いているみたいなところもあるんですね。

鈴木 そうですそうです。

伊藤 そもそもいつごろから音響についての研究を始められたんですか。

鈴木 2007年からですね。それまでは音声合成をやっていたんです。人の感情モデルを声で作れないかという研究をしていました。数ヶ月間、朝から晩まで「おはようございます」ばかり聞いていました(笑)。部分的にピッチや長さを変えて、いろいろな「おはようございます」を作って、その印象がどう変わるかを調べました。それで最終的に出来上がったのがソニーのQLIOやAIBOの声なんです。

伊藤 あ、あの声を作ってらっしゃるのが鈴木さんだったんですね。

鈴木 そうなんです。ふつうに音声合成でやると、単調になってしまうので、どういうふうに言うと可愛い感じになるか、プロソディーを編集できるツールを作って研究しました。
 声優さんにも来てもらって、怒った感じや楽しい感じなど、いろいろな印象で言ってもらうんです。収録したいのは「あ」「い」「う」の一つの音だけなのですが、前後の口の形を揃えないといけないので「あかはあべりです」「あかはいべりです」「あかはうべりです」と言ってもらうんですよね。それでピッチを検出しました。

伊藤 おもしろいですね。人間がナチュラルにやっていることを機械に実装させるために、数値化して分析する必要があるわけですね。さらに声質や音質も関わりますしね。

鈴木 そうですね。声は単なる数式では片付けきれない、人間の体に密接した部分があるので、そこがおもしろいですね。おもしろさがてんこ盛りです。

無響室では気配を感じない
鈴木 それから先生の本のなかで、いつも舌打ちをして周囲を知覚する少年の話がありましたね。それに関連してお見せしたい動画があります。私が2012年頃に出演したテレビ番組の映像なのですが…。

伊藤 「解体新書」という番組ですね。鈴木さんが椅子に座っていて、その背後をマグガップくらいの大きさの人形がぐるっと回り、それがどのように感じられるか、実験していますね。通常の空間だと、大きさや硬さまでわかるけど、無響室だと気配をまったく感じることができない…。

鈴木 「解体新書」「サイエンスゼロ」「からだのちから」などにこのテーマで取り上げていただきました。

伊藤 無響室だと分からないのはなぜなんでしょう…環境雑音の有無が影響するんですか。

鈴木 人形そのものは音を出さないですよね。しかし、環境雑音があると、それが人形にぶつかります。つまり結果として人形が音を出してくれる。しかも人形が動くと、その変化が感じられる。それが無響室だと、環境雑音がないので、人形から音が出ないんです。

伊藤 なるほど!面白いですね。そのものが音を出していなくても、周囲に音があれば、実質音を出していることになるんですね。それが「気配」と言われているものの実態だったんですね。

鈴木 そうです。音が吸収されたり跳ね返ったりする変化は感じとれます。たとえば目の前にぱっと布団を広げられたら、静かになった感じがする。あるいは金属の缶を持ってこられたら、もわーんとした感じになります。

伊藤 環境雑音を使って認知できるのは、壁のような大きい物だけだと思っていました。人形のような小さいものでもわかるんですね。

鈴木 小さいものでも大丈夫なんです。他の番組ではお皿でしたけど分かりました。

伊藤 要するに変化ですよね。なかったものがあらわれたり、あるものが動くと分かるわけですね。

鈴木 そうです。やっぱりデルタ(微小な変化)ですね。環境雑音をつねになんとなく聞いていて、そこからの変化を読み取っているのかなと思います。

伊藤 それはどのくらいの高さまで感じられるんですか。

鈴木 いいご質問ですね…。ぼくの経験から言うと、せいぜい肩くらいかなと思います。ものの大きさにもよりますね。論文に書いています。

伊藤 前と後ろでも違いがありますか。

鈴木 後ろについては実験していないですね。テレビ番組のときは撮影の関係上、後ろに人形を持ってきましたが、論文を書くときには前だけしかやってないですね。

伊藤 見えない人の聴覚についての定量的な研究ってあるんでしょうか?

鈴木 いや、ほとんどないと思いますよ。まだまだ研究されていないことがたくさんあります。ただ、定量的な調査もありえますが、入り口としては、先生がやっていらっしゃるような、人の話を聞くというのが大事だと思います。実際にどう感じているかをまずはつかむ。それを定量的に証明するというアプローチはありえると思いますが。

伊藤 なるほど。その証明の部分の、実験系のデザインはぜひ鈴木さんにお願いしたいです。いい役割分担しつつ、いっしょに研究ができたら嬉しいです。