Использование SDK в приложении Delphi для преобразования текста в синтезированную речь
Как пользоваться Microsoft Agent
http://tts.by.ru/delphi.html - примеры программирования под Speech API, исходники ранней версии ReaderTTS, и просто примеры работы с Windows API...
http://iclub.kemsu.ru/ts/builder.main.htm - наработки, документация, исходники на C++Builder
Инструментарий разработчика "Говорящая Мышь"
Книга по
программированию на VisualBasic :( с использованием SAPI
на русском.
или http://oes.mans.eun.eg/Books/0-672-30928-9/index.htm
Большая техническая библиотека http://freebooks.boom.ru/Some.html
http://library.tu.edu.te.ua/libftp/TechDoc/Programming/MAPI-SAPI-TAPI-Developers-Guide.zip
Библиотеки для программистов на русском языке- компания Intel® c 1995 выпускает специальные библиотеки для программистов: Библиотека примитивов распознавания (распознавание речи и образов), Библиотека обработки сигналов (обработка звука), Библиотека работы с изображениями (обработка рисунков), Математическая библиотека. Полную информацию об этих библиотеках можно найти на сайте для разработчиков фирмы Intel®
Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложение, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), DragonLaw (юриспруденция), DragonMed (медицина) и DragonTech. Если вам нужно что-то еще более специфическое вы можете использовать Dragon SpeechTool 1.1 ($295), чтобы разработать специальный словарь и эталоны призношения.
Вы
можете использовать таблицу фонем и средства
редактирования для создания, добавления, изменения слов
и их произношенияи, а также их удаления.
DragonXTools 2.0 ($295) поддерживает
режимы 16-bit VBX и 32-bit OCX для добавления голосовых
параметров к существующим приложениям. DragonXTools
также поддерживает режим текст-речь DgnTTS, что
позволит придать голос вашим программам. Руководство
DragonXTools начинается с простого примера на языке VB и
показывает как создавать программы на C, C++, Delphi,
Visual Basic и Visual J++. Руководство содержит большой
объем документации по событиям, свойствам и процедурам,
необходимых вам, чтобы разговаривать с
DragonDictate.
Вместе с DragonXTools вы получаете, также, документацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т.п.
IBM's ViaVoice Developer Tools (распространяется бесплатно) не дает возможности изменять систему каманд, однако позволяет программистам на C и C++, понять работу ViaVoice. Инструментарий содержит документацию по примерам, утилитам к IBM's Speech Manager API (SMAPI), Dictation Macro APIs (DMAPI), и Grammar Compiler APIs. Чтобы ускорить процесс изучения, IBM предлагает документацию Starter Set API по командам диктования, управления и контроля.
Для работы на C, C++, Lotus Notes, VB, или продуктам, поддерживающим ActiveX, программистам следует обратьтся к Virtual Voices Control. Speech API (SAPI)-compliant VV Control производства Microsoft совмещает механизмы анимации и преобразования текст-речь, что позволит создавать образы существ разговаривающих с пользователем.
IBM ViaVoice SDK v.1.5 пакет библиотек, документации и примеров для программистов, занимающихся технологиями распознавания и обработки речи.
По адресу http://domino.watson.ibm.com/speech/voicetypedev.nsf
работает ViaVoice Форум для разработчиков по обмену
информации и идеями с другими ViaVoice разработчиками.
Этот форум предназначен для связи между разработчиками и
IBM хотя ответы на вопросы не гарантируется:-).
Разработчикам, покупающим SDK будут обеспечена прямая
связь с ViaVoice инженерами через Электронную почту с
гарантируемым ответом в течении одних суток! Подпишитесь
на ViaVoice SDK чтобы всегда быть в курсе всех событий,
модернизаций и новых выпусков в
http://www.ibm.com/viavoice/dev_home.html.
L&H RealSpeak SDK v.1.21 SDK для использования технологий L&H при написании собственных программ.
Состоит из:
- RealSpeak engine control module (client and
server)
- Dictionary engine module
- Text
Interpreter
- Language recognizer
- XML and HTML
parser
- SAPI interface kit and dialogs
- ActiveX
interface kit
Включает:
Компания Microsoft® выпустила в свободное пользования специальный интерфейс для движков распознавания и синтеза речи. На этом сайте вся информация посвящена SAPI версии 4.0. На данный момент компания Microsoft® выложила на свой сайт пятую версию SAPI.
MicroSoft Speech SDK v.5.0 пакет
библиотек, документации и примеров для программистов,
занимающихся технологиями распознавания и обработки
речи.
Microsoft Speech SDK
включает: speech-specific headers, libraries, sources,
examples, tools, and documentation used to develop
speech engines.
Служба технической помощи: mailto:sapibeta@microsoft.com
Engine (движки распознавания речи)
Цифровая обработка звука (подробная
информация)
Ссылки на
файлы (FTP)
Статьи по
теме: распознавание речи
Документация,
наработки, изыскания.
ВСЕ о российских речевых и лингвистических
компьютерных технологиях. "Language&Speech technologies in Russia"
- полная БД о коллективах и разработках (на английском
языке)
SDSG. Группа речевых диалоговых систем. Речевые разработки в области дикторонезависимого распознавания речи, понимания естественного языка, речевых диалоговых систем, моделирования восприятия языка, верификации диктора и прикладных систем. Санкт-Петербург
Диалог-2001. Компьютерная лингвистика и ее приложения. Международный семинар
НПИЦ "Микросистемы". Компания, специализирующаяся в области семантического анализа текста
http://farc.webservis.ru/ WEB - каталог программного обеспечения для незрячих Владимира Довыденкова. Возможность для слепых людей общаться с компьютером, диктовать и читать тексты, управлять компьютером с опмошью голосовых команд.
Каталог программ синтеза
речи: http://www.ims.uni-stuttgart.de/phonetik/gregor/synthspeech/examples.html
http://www.vecs.nm.ru/ -- автор Антон Рязанов (программа Govorilka). Информация, ссылки, программы автора.
http://iclub.kemsu.ru/ts -- автор Руслан Попов (программа BookReader). На сайте представлено очень много различной информации о цифровой обработки звука, теория и практика, наработки автора, программы...
http://www.sakrament.com/it-rus/about.htm -- ООО "Сакрамент" "Наш сайт, полностью посвященный проблемам распознавания и синтеза речи распахивает свои необъятные двери.Мы постараемся знакомить Вас со всеми новостями и продуктами, имеющими хоть какое-нибудь отношение к распознаванию и синтезу речи.Наша фирма добилась весьма неплохих результатов на этом поприще. Так что, если Вам интересно практическое применение передовых технологий, милости просим, звоните, пишите, и мы заставим Ваш компьютер слушать, говорить и повиноваться!"
Institute for Signal and Information Processing -- Здесь вы найдете интересную информацию.
http://www.magnifiers.org/links/ Top : Text-To-Speech software - Буржуйский обзор ссылок на программное обеспечение использующее речевые технологии.
Speech Analyze System -- Домашняя страничка Алексея Москаленко, полезна выложенным описанием системы анализа речи с помощью нейронной сети (программа с исходниками).
Microsoft Agent Downloads - Сайт Microsoft на котором собрана информация о компонентах обработки речи на компьютере.
MAPI, SAPI & TAPI Guide -- Книга на английском, тематика понятна из названия.
RPL Brief Doc -- Переведенный краткий справочник по RPL.
Digalo -- SAPI совместимый движок синтеза речи, знает 8 языков, включая русский.
Elan -- SAPI совместимый движок синтеза речи, знает 7 языков, включая русский.
ETI-Eloquence -- SAPI совместимый движок синтеза речи.
IBM ViaVoice -- SAPI совместимый движок синтеза речи, знает 7 языков.
Клуб голосовых технологий -- Клуб голосовых технологий с пропиской в Научном Парке МГУ - это объединение почти 100 разработчиков голосовых интерфейсов для персональных компьютеров и более 5 000 пользователей. Созданная Клубом серия программных продуктов под общим названием "Голосовая Мышь" основана на оригинальных технологиях синтеза речи.
Компания "Стэл" -- занимается речевыми технологиями с 1995 года, на данный момент идет работа над созданием прототипа дикторонезависимой системы распознавания речи.
Компания "ИстраСофт" -- програмное обеспечение для распознавания фонем, речевой почты и т.д.
Большой архив конференций из сети FidoNet -- Название говорит само за себя.
Celestial Chancellery -- Отличный русскоязычный сайт, здесь много внимания уделяется компьютерной обработке звука. Цитирую: "Добро пожаловать в раздел, посвященный компьютерному звуку и музыке! В этом разделе вы НЕ найдете MP3, но зато вы ДА найдете здесь программное обеспечение (енкодеры, редакторы, трекеры, проигрыватели, Plug-In's, эффект-процессоры и пр.), касающееся компьютерного звука и музыки, а также информацию, статьи и интересные и полезные ссылки, тем или иным образом связанные с этой областью."
Центр речевых технологий, Санкт-Петербург -- коммерческий сайт, алгоритмов там нет, но там есть прекрасные демо-версии продуктов, которые используют распознавание речи.
Проект Дмитрия Васильева -- сайт интересен, цитирую: "На данный момент мой софт нормально обнаруживает и распознает гласные, сонарные и шипящие (свистящие) звуки. Работает как в реал-тиме, так и с WAV-файлами. Самая большая хитрость в моей системе - отсутствие необходимости обучения. Программе абсолютно все равно, мужской это голос или женский - оба распознаются одинаково хорошо!".
Microsoft Research Center -- вся для разработчиков, включая информацию и SDK по распознаванию речи.
Intel Developer's Center -- вся для разработчиков, включая информацию и библиотеки по распознаванию речи.
Библиотеки для программистов - фирма Intel описала свои библиотеки обработки сигналов на русском языке.
COMP.SPEECH -- конференция по распознаванию речи (English).
C/C++ Users Journal -- там тоже есть нужная информация.
Speech Vision and Robotics Group -- народ занимается распознаванием речи (университет Кембриджа).
Speech Recognition Technology -- информация, ресурсы и ссылки.
Speech Recognition: Theory and C++ Implementation -- сайт посвященный одноименной книге, можете ее заказать.
CMU Sphinx Open Source Speech Recognition -- свободно распространяемый движок системы распознавания речи в исходных текстах.
The Institute of Electronics, Information and Communication Engineers -- здесь есть хороший поисковик по научным документам, укажите только тему.
Speech Recognition by Dynamic Time Warping -- описание метода динамического программирования в распознавании речи.
Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г., Многоуровневая система распознавания речи (ZIP 28KB, формат MS Word 8.0)
Использование нейросетей для анализа речи, Москаленко Алексей, Кубанский государственный Университет, 2000 г. (ZIP 702KB, формат MS Word 8.0)
Ф. Уоссермен, Нейрокомпьютерная техника: Теория и практика. В книге американского автора в общедоступной форме излагаются основы построения нейрокомпьютеров. Описаны структура нейронных сетей и различные алгоритмы их настройки. Отдельные главы посвящены вопросам реализации нейронных сетей. (ZIP 986KB, формат MS Word 8.0)
New Hidden Markov Model Toolkit (HTK)
Intel Signal Processing Library
Intel Recognition Primitives Library (описание на русском см. здесь)
The Scientist and Engineer's Guide to Digital Signal Processing (Second Edition) by Steven W. Smith
|
2004-2005 © Все права
защищены Техническая поддержка NAROD |