Звуковые интерфейсы

Звуковые (аудио) интерфейсы — важная тема, без них невозможно начинать обработку звука на компьютере. Именно они задают начальное качество звукозаписи.
     По каким параметрам следует выбирать интерфейс. Первое что вспоминается — максимальная частота дискретизации и разрядность АЦП. Как ни странно цены на интерфейсы с параметрами 192/24 варьируются в очень широком диапазоне — от 100 до нескольких тысяч долларов. Смотрим на неравномерность АЧХ, динамический диапазон, уровень нелинейных искажений. Удивительно, но почти нет разницы. Дешевые и дорогие интерфейсы используют те же самые микросхемы и как следствие параметры очень похожи.

     Посмотрим на подключение, сколько есть входов/выходов и какие они бывают. Сбалансированный вход/выход (balanced input/output) — это подключение аналогового звукового сигнала по трем проводам, где по двум проводам сигнал передается в противофазе, а третий — общий. Такое подключение позволяет уменьшить шум, который одновременно наводится на кабель. Шум наводится (прибавляется) одновременно на два сигнала, в приемнике (на входе микшера например), сигналы складываются в противофазе и тем самым шум сигнал становится в два раза сильнее, наведенный шум удаляется. Сбалансированные кабеля обычно подключаются с помощью XLR разъемов.
     Также по трем проводам может подаваться фантомное питание (12..48В) для микрофонов. Дешевые интерфейсы, особенно встраиваемые внутрь компьютера, такого не имеют. Если есть микшер, то фантомное питание можно взять с него, и подключить микшер в аудио-интерфейс. Небольшой микшер и недорогая звуковая карта позволят получить вполне качественную запись и иметь приличную свободу подключений.
     Профессиональные аудио интерфейсы имеют больше входов/выходов, которые работают синхронно. Несомненно, это преимущество. Кроме аналоговых интерфейсов, возможно, понадобятся и цифровые подключения. Именно здесь профессиональная аппаратура на высоте.

     Цифровой интерфейс S/PDIF позволяет передавать стерео сигнал с разрешением до 24 бит и частотой дискретизации до 96кГц. Приемник автоматически подстраивается под частоту передачи, а старшие биты всегда находятся в одном и том же месте кадра, что позволяет автоматически отбрасывать младшие биты, если приемник рассчитан на более низкое битовое разрешение. В качестве физического интерфейса используется коаксиальный кабель (с волновым сопротивлением 75 Ом) или оптоволоконный кабель с интерфейсом TOSLINK (Toshiba Link).
     В профессиональной аппаратуре применяется интерфейс AES3 (другое имя AES/EBU). Стандарт AES3 позволяет передавать данные со скоростью до 192кГц при разрядности 24 бита. В AES3 используется другое напряжение (5В против 0.5В в S/PDIF) и сбалансированное подключение, что позволяет использовать его на больших расстояниях. При этом синхросигнал и данные кодируются таким же способом, как и в S/PDIF, и в некоторых случаях возможно совместное использование S/PDIF и AES3 аппаратуры с использованием преобразователей уровней напряжений.
     Цифровые интерфейсы ADAT (Alesis Digital Audio Tape) и TDIF (Tascam Digital Interconnect Format) позволяют одновременно передавать много треков по одному кабелю. Оптический интерфейс ADAT использует разъемы TOSLINK такие же, как и S/PDIF, и позволяет передавать до 8-ми каналов цифрового звука 48/24, а интерфейс TDIF использует 25 проводные кабели и позволяет передавать до 8 каналов в обе стороны. При этом при передаче цифрового звука с большей частотой дискретизации (96 или 192) уменьшается количество каналов.

     Джиттер (jitter) и откуда он появляется. При передаче цифрового сигнала, например по S/PDIF, приемник и передатчик настраиваются на одну и ту же скорость приема/передачи (например, 44100 отсчетов в секунду). Но мир неидеален и скорости приемника и передатчика отличаются на какие-то десятые процента, что рано или поздно может привести к потере отсчета (то есть передатчик передал 1000001 отсчет, а приемник работал чуть медленнее и принял его, как 1000000 или еще хуже — старший бит принял за младший). Для синхронизации передают синхросигнал в цифровом потоке, а приемник его декодирует и подстраивает свои часики. Чтобы часики шли точно, применяется кварцевый резонатор, но в бытовой аппаратуре, в целях экономии, его не ставят, а синхросигнал берется прямо из цифрового потока с использованием схем фазовой автоподстройки частоты (PLL). Схемы автоподстройки все время подстраивают частоту, немного больше, немного меньше и таким образом выдают частоту верную только в среднем, но в каждый момент времени немного отличающуюся от требуемой. Если принимаемый цифровой сигнал обращается в аналоговый звук, то отсчеты поступают неравномерно (с джиттером), что приводит к искажением в звуке. Для борьбы с джиттером синхросигнал можно передавать отдельным кабелем в интерфейс (world clock).
     Аудио интерфейсы могут подключаться к компьютеру по разному. Самые простые – это встроенные в материнскую плату. Из-за наводок внутри компьютера их можно использовать только, как цифровые интерфейсы, например по S/PDIF принимать и складывать на диск треки, для последующей обработки. Или выводить сигнал на внешний декодер для прослушивания. Платы, вставляемые в компьютер (например, подключаемые к шине PCI) могут быть хорошо защищены от наводок, но к ним сложнее будет подключать кабели. Выносные интерфейсы, подключаемые по USB или FireWire, обычно имеют удобные разъемы на передней панели и могут быть неплохим выбором для домашней студии. Отметим сразу, что USB интерфейс менее требователен и позволяет горячее подключение/отключение (без выключения компьютера). С FireWire лучше так не шутить, зато FireWire работает на больших скоростях (частотах дискретизации).
     Есть еще один вид интерфейсов, которые подключаются не напрямую в компьютер, а к платам ускорителям, на которых производится обработка звукового сигнала. Такие системы позволяют обрабатывать сигнал с минимальной задержкой (latency). Задержка в обработке сигнала проявляется, когда обработанный звук должен звучать в момент самой записи, например, голос обрабатывается на компьютере и звучит в наушниках исполнителя.

MIDI интерфейс

MIDI (Musical Instrument Digital Interface) это технология, позволяющая организовать связь между электронными музыкальными инструментам. Наиболее очевидное применение MIDI это передача нот (или команд) между MIDI клавиатурой и синтезатором. Источники команд принято называть MIDI контроллерами. Это клавиатуры, триггерные барабаны и любые другие устройства, формирующее MIDI команды. Команды принимаются синтезатором или секвенсором. Синтезатор воспроизводит звук, а секвенсор записывает последовательность команд (или нот), для последующего воспроизведения. Часто путают передачу команд с передачей звукового сигнала. Сразу отметим, что MIDI не передает звуковой сигнал, ни в аналоговом виде, ни в цифровом представлении. Стандарт MIDI 1.0 описывает способ подключения (разъемы, кабели и физические интерфейсы), протокол обмена (команды) и формат файлов (записанные команды).

Физическое подключение
Обычно инструмент имеет три гнезда MIDI In, Out и Thru. Команды передаются от гнезда Out одного инструмента (контроллера) к гнезду In другого инструмента (синтезатора или секвенсора), а в случае если инструмент обрабатывает не все команды, и часть из них должна быть передана в другой инструмент, то используется гнездо Thru. Если включаются несколько инструментов, принимающие команды от одного контроллера, и они последовательно соединяются через In/Thru гнезда, то возможна задержка передачи команд. Для того, чтобы избежать задержки, используется MIDI Thru box, который имеет один вход (In) и несколько выходов (Thru). 
     Для подключения инструментов используются кабеля с 5 штырьками. Хотя в разъеме и 5 гнезд, используются только 2 или 3. MIDI In подключается к двум линиям, а MIDI Out и Thru передают сигнал по двум проводам, а третий контакт используют для заземления самого кабеля, чтобы повысить помехозащищенность.
     Вместо соединения по MIDI кабелю можно использовать соединения через USB или FireWire. При этом программно устанавливается, какое устройство или компьютер играет роль контроллера, а какое принимает или передает дальше команды.

Команды
Формат команд позволяет организовать до 16 каналов управления. Каждое устройство может быть настроено на прием сообщений из определенного канала. Есть два основных вида команд MIDI Data Messages и MIDI System Messages. Первый тип команд (Data) направляются в заданный канал, а системные команды адресуется всем устройствам независимо от выбранного канала подключения. В системных командах может передаваться временной код для синхронизации всех устройств.

Файлы
Стандарт MIDI 1.0 также определяет формат миди-файлов. В миди-файлах не сохраняются звуковые данные или сэмплы, поэтому звучание одной и той же записи может сильно отличаться в зависимости от инструмента (синтезатора), который будет использоваться для воспроизведения.

General MIDI 1, 2 (GM1 и GM2) и Lite (GML)
Стандарт GM1 и его развитие GM2 описывают MIDI, как инструмент, добиваясь предсказуемого звучания в разных конфигурациях. Стандарт задает наименование инструментов (в том числе и перкуссионых) и минимальные требования к устройству, которое будет воспроизводить звук. Стандарт GML описывает требования к мобильным устройствам, воспроизводящим MIDI и специальный формат файлов для них.

Ода Дискретизации!

Цифровой сигнал или звук получается путем дискретизации (семплирования) аналогового сигнала. Остановимся подробнее на этом процессе, его понимание позволит избежать некоторых ошибок.

Какова минимально-допустимая частота дискретизации сигнала, ограниченного частотой 20 кГц? Ответ на троечку — 40кГц. На самом деле больше 40 и сейчас разберемся почему.

По «теореме отсчетов» (Котельникова) для однозначного восстановления аналогового сигнала после дискретизации, необходимо брать отсчеты с частотой в два раза больше, чем полоса сигнала. При этом сигнал должен быть непрерывным (а точнее, удовлетворять условиям Дирихле) и быть периодичным. В приведенном примере полоса сигнала 20кГц и очевидный ответ — минимально требуемая частота дискретизации 40кГц.

Дискретизация происходит в Аналого-Цифровом Преобразователе (АЦП), а сам процесс преобразования состоит из нескольких этапов. Аналоговый сигнал фильтруется аналоговым фильтром, который срезает частоты выше половины частоты дискретизации. Таким образом, предотвращается наложение частот (aliasing). Если в сигнале есть шум или даже полезный сигнал, с частотой выше половины частоты дискретизации то в цифровом сигнале он зеркально отобразится в нижние частоты и безвозвратно с ними смешается.

Фильтр, который недопускает наложения частот, называется anti-aliasing фильтр или АА-фильтр. Сразу отметим, что идеальных фильтров не бывает, и каждый физически реализуемый фильтр имеет переходную полосу, в которой сигнал ослабляется тем сильнее, чем дальше от частоты срезы. Поэтому для того, чтобы предотвратить отзеркаливание (наложения) верхних частот необходимо выбирать такой фильтр, чтобы на половине частоты дискретизации ослабление было максимально сильным (например -120дБ). При этом сигнал начнет ослабляться на меньших частотах из-за наличия переходной полосы. Чтобы не искажать полезный сигнал нужно увеличить частоту дискретизации так, чтобы ослабление сигнала начиналось там, где заканчивается спектр полезного сигнала. На графике изображена типичная АЧХ качественного звукового АА-фильтра.

В следующих выпусках, не пропустите!

Зачем на микшерных пультах есть кнопка включения ВЧ фильтра на микрофонных входах? Например, при записи вокала сигнал и так ограничен по частоте, зачем лишняя фильтрация!

Наверное, самый тяжелый вопрос, зачем использовать частоты дискретизации 96 и 192кГц? Ведь человеческое ухо не слышит частот свыше 20кГц в лучшем случае, а среднестатистический гражданин слышит и того меньше. При этом все профессионалы не жалея средств работают с материалом как можно большей частоты. В каких случаях это оправдано, а в каких пустая трата усилий.

Абсолютно объективное и непредвзятое сравнение цифровой обработки с таким отсталым и застойным явлением, как аналоговый звук.

     Существует множество предубеждений против цифрового звука, как среди людей слушающих, так и среди профессионалов, которые производят музыку. Считается, что аналоговый звук "теплее", имеет больший динамический и частотный диапазоны и в целом лучше. Некоторые ценители предпочитают протирать пластинки антистатическими тряпочками вместо простого включил и услышал на CD плейере.
     Игла проигрывателя имеет физические ограничения на скорость, с которой она может следить за виниловой дорожкой — это ширина 300мк на частоте 300Гц и только 50мк на 20кГц. Что приводит к использованию многополосных лимитеров при мастеринге, которые сужают динамический диапазон в области высоких частот — Myths (Vinyl).
     Производители цифровых студий добавляют кнопку HEAT (Harmonically Enhanced Algorithm Technology), чтобы звук имел аналоговую окраску. То есть был искажен так же, как и аналоговая запись, добавляя четные или нечетные гармоники. Таким образом добиваются более "жирного" звучания. Подробнее можно почитать на сайте производителя — Crane Song об устройстве HEDD (Harmonically Enhanced Digital Device). При этом любая студийная аппаратура гордится минимум THD искажений, что расскладывается на слова — Third Harmonic Distortion. То есть для качественного воспроизведения всеми силами снижаются любые гармонические искажения, а для получения "аналогового" звука, нужно их добавлять.
     К аналоговому звуку можно относиться, как к инструменту, на котором играют олд-скул звукоинженеры и остальные посвященные. Для людей, которых интересует качество, подходит цифровая запись.
     Кто-нибудь может себе представить полностью аналоговую студию звукозаписи, где звук пишется на пленку, которая потом режется ножницами и склеивается скотчем и из этого материала изготавливается пластинка?! В 21-ом веке любая студия рано или поздно оцифровывает звук и не без причины — так удобнее, быстрее и качественнее.
     Попробуйте выровнять АЧХ записи используя аналоговый эквалайзер. Есть большие шансы, что фазовая характеристика превратится в полную кашу. При цифровой обработке — а, пожалуйста — идеально-линейная фаза. Тоже самое с реверберацией, используя цифровой эффект можно выбирать миллион параметров и настроить звук под любое помещение. В аналоговом варианте нужно менять пружины.
     С цифровой записью тоже есть проблемы, основная — это безграмотное использование техники и поклонение метафизическим законам. Звукоинженерам, которые переходят с аналога на цифру, нужно производить полную перезагрузку и начинать читать технически-грамотную литературу. На слух с цифрой работать нельзя.
     С другой стороны, человек начинающий работать со звуком на компьютере, имея парочку микрофонов, звуковую карту и практически любой современный редактор начиная с бесплатного Audacity, сразу получает набор мощных инструментов, которые позволяют производить полный цикл от записи до выкладывания MP3 на Twitter/Facebook. Качество производимого материала в основном будет ограничиваться самокритичностью и нехваткой времени. Можно полностью сконцентрироваться на творческих моментах, а не бороться с паразитными наводками и высохшими конденсаторами.
     И последнее, если все-таки соберетесь входить в мир прекрасных людей и чистого звука — купите выносную звуковую карту — тяжело избавиться от компьютерных помех внутри компьютера.

Цифровой звук. Начало.

Что такое аудио сигнал, как он представляется в цифровом виде
     При помощи микрофона звуковые волны преобразуются в электрический сигнал (напряжение), пропорциональный звуковому давлению.
     В цифровом мире аналоговый сигнал представляется в виде значений амплитуды сигнала во время дискретизации. Период дискретизации — это обратная величина к частоте дискретизации и означает время между двумя отсчетами цифрового сигнала.
      Для преобразования аналогового сигнала в цифровой применяется Аналого-Цифровой Преобразователь. АЦП оцифровывает сигнал с заданной частотой дискретизации и выдает поток данных заданной разрядности. Разрядность определяет количество уровней квантования цифрового сигнала. На графике зеленым показан непрерывный сигнал, красным дискретизированный, а голубым ошибка/шум квантования (арифметическая разница между исходным и дискретизированным сигналом).

Частотный диапазон (frequency range)
     Выбор частоты дискретизации определяет частотный диапазон сигнала (полоса частот между минимальной и максимальной). Считается, что человеческое ухо воспринимает частоты от 20Гц до 20кГц. Для записи/воспроизведения качественного аудио сигнала требуется частота дискретизации свыше 40кГц. Первые цифровые записи (в конце 70-х) сохранялись на видеокассетах, как видеосигнал, и из-за технических соображений частота дискретизации была выбрана 44,1кГц. Эта частота дискретизации применяется на всех музыкальных компактных дисках (стандарт CD-DA).
     При записи звуковой/музыкальной дорожки к фильму (формат DVD) принята другая частота дискретизации — 48кГц. Выбранная частота кратна количеству кадров в секунду (24 кадра в секунду) в обычной кинопленке. Разница в качестве музыки при записи с этими двумя частотами дискретизации практически неуловима.
     Качество звука слегка теряется при конвертации записи с одной частотой дискретизации в другую. Это особенно заметно при воспроизведении CD дисков на DVD проигрывателях низкого класса. DVD проигрыватели воспроизводят сигнал с частотой 48кГц и для проигрывания музыкальных дисков производят передискретизацию сигнала (44,1кГц в 48кГц).

Децибелы
Децибел — безразмерная единица, применяемая для измерения отношения некоторых величин. Например, усиление усилителя можно показать, как соотношение между исходным (опорным) V0 и усиленным V1 напряжениями. Если усиленный сигнал больше исходного в 100 раз, то усиление равно 40дБ.

Громкость (loudness)
     Громкость звука — субъективное восприятие силы звука, зависищая от многих параметров аудио сигнала и обстановки прослушивания. Для объективного обозначения громкости используют уровень звукового давления.
     Звуковое давление — переменное избыточное давление, возникающее в упругой среде при прохождении через неё звуковой волны. Единица измерения — паскаль (Па).
     Уровень звукового давления (Sound Pressure Level) — измеренное по логарифмической относительной шкале значение звукового давления, отнесённое к опорному давлению (которое считается нулевым уровнем). Единица измерения — dB(SPL) или просто дБ/dB. В качестве опорного значения используется порог слышимости человеческого уха — 20мкПа.

Уровень записи (program level)
     В аналоговом мире для измерения уровня записи применяется калиброванный вольтметр. Вольтметр из-за механической инерции сглаживает сигнал и показывает усредненнное значение напряжения. Этот прибор показывает значение сигнала в относительных единицах VU (Voltage Units). На практике используются разные логарифмические шкалы (в децибелах) относительно средне-квадратичного значения (RMS) опорного напряжения. dBV — относительная логарифмическая  шкала, где в качестве опорного напряжения выбран 1В. dBv или dBu — относительная логарифмическая  шкала, где в качестве опорного напряжения выбрано 0.775В.
     В качестве 0 VU в профессиональной аппаратуре принято использовать +4dBu (1.227В), а в бытовой технике -10dBV (0.316В).
     В цифровом мире применяется шкала dBFS (Full Scale) — относительная логарифмическая  шкала, где в качестве опорного значения выбрано максимально допустимое значение. Получается, что 0 dBFS — максимально допустимый сигнал, а например сигнал с уровнем в два разе меньше будет -6dBFS.

Запас по уровню сигнала (headroom)
      Запас по уровню — это уровень выше максимально допустимого уровня (Permitted Maximum Level — PML) сигнала. При записи возможны короткие всплески, которые не влияют на средний уровень и поэтому нужен запас для предотвращения обрезания сигнала (clipping). Например, для 16-битной записи EBU (European Broadcasting Union) рекомендует использовать запас 9дБ, то есть макисально допустимый уровень записи будет -9dBFS, а для 24-битной записи -24dBFS.

Динамический диапазон (dynamic range)
     Динамический диапазон — это отношение между самым громким и самым тихим (выше уровня шума) звуками в сигнале/записи. Для примера записи на пластинках имеют динамический диапазон в пределах 60-80дБ, записи на компакт дисках свыше 90дБ. После дискретизации, количество разрядов АЦП задает максимально возможный динамический диапазон. При уменьшении разрядности записи (например с 24 бит до 16) динамический диапазон сужается. Для уменьшения ошибок квантования во время конвертации цифрового сигнала применяется dithering и noise shaping.