Импульсное преобразование речи на основе

В настоящее время достаточно глубоко исследованы методы анализа речевых сигналов на основе процедуры линейного предсказания (ЛП), позволяющие отслеживать динамические компоненты формантной структуры речи практически в реальном времени. Представляется целесообразным использовать возможности методов ЛП для вычисления определителя автокорреляционной матрицы по сигнал-остаткам линейного предсказания. Такой алгоритм был предложен в работе и основан на вычислении временных огибающих сигнал-остатков ЛП для порядков от 1 до р. Идея алгоритма использует геометрическую интерпретацию определителя матрицы Грамма: значение определителя представляет собой объем параллелепипеда, построенного на базовых векторах (смещенных интервалов речевого сигнала). С математической точки зрения объем такого параллелепипеда может быть вычислен в виде произведения норм системы ортогональных векторов, образованных на основе базовой (исходной) системы. Процесс ортогонализации составляет, как известно , процедуру Шмидта и реализуется достаточно просто . Это один возможный вариант решения задачи без применения методов ЛП. Второе возможное направление вычислений основано на том факте, что вектор, образованный по сигнал-остатку р-го порядка будет практически перпендикулярен сигнал-остатку (p-1)-го порядка . Таким образом, набор сигнал-остатков ЛП порядков от 1 до р будет представлять собой почти ортогональную систему. Выполнять указанную процедуру Шмидта в этом случае нет необходимости. Объем параллелепипеда вычисляется по полученной системе в виде произведения длин составляющих ее векторов. В целом весь алгоритм вычисления определителя матрицы Грамма по сигнал-остаткам ЛП изображен на рисунке 1 и состоит из серии преобразований входного речевого сигнала xn. На предварительном этапе для упрощения формы речевых колебаний применяется ФНЧ с частотой пропускания ?1000 Гц и осуществляется нормирование сигнала по амплитуде для устранения его временной огибающей (компрессирование сигнала). Далее в блоках L1 … Lp адаптивным методом вычисляются КЛП для порядков от 1 до р и соответствующие погрешности ЛП, а в блоках И (интеграторах) оценивается их текущая временная огибающая. Полученные компоненты перемножаются, компрессируются и фильтруются. Компрессор состоял из детектора (двухполупериодное выпрямление), ФНЧ и делителя. ФНЧ включал в себя две последовательные интегрирующие RC-цепочки с частотами среза, равными соответственно 100 Гц и 50 Гц, что приводит к хорошему выравниванию (средней) амплитуды речевых колебаний. Блоки интеграторов могут быть выполнены многими различными методами. В рассматриваемом эксперименте применялось вычисление скользящего среднего (количество слагаемых равнялось 20), и полученные медленно изменяющиеся по времени сигналы перемножались. Дальнейшие преобразователи (компрессор и ФНЧ) применяются для дополнительного «улучшения» формы импульсов квазипериодической последовательности и уменьшения разброса по амплитуде этих импульсов. Выбор характеристик второго компрессирующего устройства противоречив и должен удовлетворять двум взаимоисключающим требованиям. С одной стороны, компрессор должен максимально уменьшить дисперсию импульсов по амплитуде и, следовательно, достаточно «быстро» реагировать на ее изменение. Для этого частота среза этого устройства должна быть как можно больше. С другой стороны, форму полученных импульсов желательно не изменять и (или) изменять минимально, что требует уменьшения общей частоты среза ФНЧ. Компромисс получен для следующих частот среза (fср) RC-цепочек: первая цепочка имеет f1ср ? 200 Гц, вторая — f2ср ? 100 Гц. Порядок вычисляемого определителя (функция F(n))и, следовательно, количество параллельных цепей обработки сигнала в блок-схеме равнялось пяти (р = 5). Эксперимент, проверяющий работоспособность метода анализа, был осуществлен на ряде фраз, произнесенных слитно. В качестве примера приведем полученные результаты (рис. 2) для фразы «Белая равнина» (диктор жен., частота основного тона Fo ?200 Гц). На рисунке 2 приведены кривые изменения функции F(n) в зависимости от времени (откладывались дискретные значения времени). Цифры по оси абсцисс определяют расстояние между максимальными значениями полученных импульсов и соответствуют средней частоте основного тона Fo диктора. Мгновенные значения ОТ сравнивались с соответствующими величинами, рассчитанными разностным методом ВОТ, рассматриваемого в данном случае в качестве контрольного способа определения ОТ. Полученные результаты обоими методами практически совпадают, что означает хорошее согласие экспериментальных данных с теоретическими выводами. Приведенные на рисунке кривые отражают сложную структуру образования слитной речи, имеют четко выраженный импульсный характер с достаточно сильной девиацией по амплитуде, полностью компенсировать которую не удалось предложенными вспомогательными блоками. Для наиболее сложных участков, на которых происходило достаточно резкое изменение амплитуды соседних импульсов, внизу на рисунках приведены изменения речевой волны. Скачкообразное поведение последовательности импульсов от периода к периоду объясняется, по-видимому, слишком большой чувствительностью определителя матрицы к амплитуде речевых колебаний. Это обстоятельство можно рассматривать с разных точек зрения. Большая чувствительность метода к среднему размаху колебаний приводит, по-видимому, к понижению его работоспособности в условиях больших помех и искажений (практически эта область слабо исследована, если не сказать четче, не исследована вообще). С другой стороны, это качество является положительным свойством при исследовании качественных записей речевых сигналов с тем, чтобы регистрировать тонкую структуру колебаний голосовых связок. Микровариации этих колебаний слабо изучены на базе линейной модели речеобразования. В рамках прикладной лингвистики такие исследования представляются крайне важными. Можно утверждать, что предложенная модификация метода не изменила его положительных свойств применительно к исследованию фонационной картины процесса речеобразования, а сам метод оказался работоспособен при анализе слитной речи. В заключение отметим, что возможные изменения математических процедур, положенных в основу рассмотренного метода, не ограничиваются предложенными выше. Так, в частности, процедура вычисления коэффициентов ЛП (КЛП) различных порядков может быть осуществлена методом Левинсона по коэффициентам частных корреляций (PARCOR) , минуя адаптивный прогноз. По рассчитанным КЛП уже простой фильтрацией получаются сигнал-остатки, необходимые для вычисления требуемого определителя матрицы. В этом случае весь алгоритм в целом может быть согласован и реализован совместно с классической схемой расчета коэффициентов PARCOR Итакуры и Саито. Все остальные блоки, играющие вспомогательную роль в улучшении рабочих характеристик устройства, следует, конечно, сохранить. Представляет интерес использование в качестве сигнал-остатков линейного прогноза соответствующих величин на выходах каскадов решетчатого фильтра, применяемого в процедуре Итакуры и Саито. Экспериментально это не проверялось, но с теоретической точки зрения такая замена вполне правомерна. , Методы вычислений. — М.: Физматгиз, 1960. — Т. 1. — 464 с.; Т. 2. — 620 с. Теория матриц. — М.: Наука, 1967. — 567 с. Преобразование речевого сигнала для выделения основного тона // Вопросы кибернетики: сб. тр. НС «Кибернетика» АН СССР. — М.: Изд-во ВИНИТИ, 1976. — С. 127-133. Артикуляционные параметры речи и математические методы их исследования: Монография. — М., 2005. — 220 с. (Вестн. Моск. гос. лингвист. ун-та: вып. 517. Серия «Лингвистика»). Itakura F., Saito S. Speech Analysis-Synthesis System Based on the Partiol Autocorrelation Coefficient // Acoust. Soc. of Japan Meeting. — 1969. Levinson N. The Winer RMS (Root Mean Sqare) Error Criterion in Filter Desing and Prediction // J. Math. Phys. — 1947. — V. 25. — P. 261-278.