ССЫЛКИ НА ИНФОРМАЦИЮ И ИНСТРУМЕНТЫ
ДЛЯ РАЗРАБОТЧИКОВ

Алофонные ( речевые ) базы данных - основа для создания систем синтеза речи и распознавания голоса.

Использование SDK в приложении Delphi для преобразования текста в синтезированную речь

Создания программы, распознающей голос с использованием ActiveX компонента MS Speech Recognition Engine.

Как пользоваться Microsoft Agent

http://tts.by.ru/delphi.html - примеры программирования под Speech API, исходники ранней версии ReaderTTS, и просто примеры работы с Windows API...

http://iclub.kemsu.ru/ts/builder.main.htm - наработки, документация, исходники на C++Builder

Инструментарий разработчика "Говорящая Мышь"

Книга по программированию на VisualBasic :( с использованием SAPI на русском.
или http://oes.mans.eun.eg/Books/0-672-30928-9/index.htm

Большая техническая библиотека http://freebooks.boom.ru/Some.html

http://library.tu.edu.te.ua/libftp/TechDoc/Programming/MAPI-SAPI-TAPI-Developers-Guide.zip

Библиотеки для программистов на русском языке- компания Intel® c 1995 выпускает специальные библиотеки для программистов: Библиотека примитивов распознавания (распознавание речи и образов), Библиотека обработки сигналов (обработка звука), Библиотека работы с изображениями (обработка рисунков), Математическая библиотека. Полную информацию об этих библиотеках можно найти на сайте для разработчиков фирмы Intel®

Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложение, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), DragonLaw (юриспруденция), DragonMed (медицина) и DragonTech. Если вам нужно что-то еще более специфическое вы можете использовать Dragon SpeechTool 1.1 ($295), чтобы разработать специальный словарь и эталоны призношения.

Вы можете использовать таблицу фонем и средства редактирования для создания, добавления, изменения слов и их произношенияи, а  также их удаления.
DragonXTools 2.0 ($295) поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим приложениям. DragonXTools также поддерживает режим текст-речь  DgnTTS, что позволит придать голос вашим программам. Руководство DragonXTools начинается с простого примера на языке VB и показывает как создавать программы на C, C++, Delphi, Visual Basic и Visual J++. Руководство содержит большой объем документации по событиям, свойствам и процедурам, необходимых вам, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools вы получаете, также, документацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т.п.

IBM's ViaVoice Developer Tools (распространяется бесплатно) не дает возможности изменять систему каманд, однако позволяет программистам на C и C++, понять работу ViaVoice. Инструментарий содержит документацию по примерам, утилитам к IBM's Speech Manager API (SMAPI), Dictation Macro APIs (DMAPI), и Grammar Compiler APIs. Чтобы ускорить процесс изучения, IBM предлагает документацию Starter Set API по командам диктования, управления и контроля.

Для работы на C, C++, Lotus Notes, VB, или продуктам, поддерживающим ActiveX, программистам следует обратьтся к Virtual Voices Control. Speech API (SAPI)-compliant VV Control производства Microsoft  совмещает механизмы анимации и преобразования текст-речь, что позволит создавать образы существ разговаривающих с пользователем.

IBM ViaVoice SDK v.1.5 пакет библиотек, документации и примеров для программистов, занимающихся технологиями распознавания и обработки речи.

По адресу http://domino.watson.ibm.com/speech/voicetypedev.nsf работает ViaVoice Форум для разработчиков по обмену информации и идеями с другими ViaVoice разработчиками. Этот форум предназначен для связи между разработчиками и IBM хотя ответы на вопросы не гарантируется:-). Разработчикам, покупающим SDK будут обеспечена прямая связь с ViaVoice инженерами через Электронную почту с гарантируемым ответом в течении одних суток! Подпишитесь на ViaVoice SDK чтобы всегда быть в курсе всех событий, модернизаций и новых выпусков в
http://www.ibm.com/viavoice/dev_home.html.


L&H RealSpeak SDK v.1.21 SDK для использования технологий L&H при написании собственных программ.

Состоит из:
- RealSpeak engine control module (client and server)
- Dictionary engine module
- Text Interpreter
- Language recognizer
- XML and HTML parser
- SAPI interface kit and dialogs
- ActiveX interface kit

Включает:

- User Dictionary Editor (UDE): executable
- Text Interpreter Editor (TIE): executable
- RealSpeak Demonstrator: executable
- C sample program: executable and C sources
- Sample program demonstrating the new features of the RealSpeak SDK: executable and C sources
- MFC sample program: executable and C++ sources
- Visual Basic sample program using the ActiveX: executable and Visal Basic sources
- Sample program using HTML and the ActiveX Help files for the API and the SAPI dialogs

Компания Microsoft® выпустила в свободное пользования специальный интерфейс для движков распознавания и синтеза речи. На этом сайте вся информация посвящена SAPI версии 4.0. На данный момент компания Microsoft® выложила на свой сайт пятую версию SAPI.

MicroSoft Speech SDK v.5.0 пакет библиотек, документации и примеров для программистов, занимающихся технологиями распознавания и обработки речи.

Microsoft Speech SDK включает: speech-specific headers, libraries, sources, examples, tools, and documentation used to develop speech engines.
Служба технической помощи: mailto:sapibeta@microsoft.com

Engine (движки распознавания речи)
Цифровая обработка звука (подробная информация)
Ссылки на файлы (FTP)
Статьи по теме: распознавание речи
Документация, наработки, изыскания.


ВСЕ о российских речевых и лингвистических компьютерных технологиях. "Language&Speech technologies in Russia" - полная БД о коллективах и разработках (на английском языке)

SDSG. Группа речевых диалоговых систем. Речевые разработки в области дикторонезависимого распознавания речи, понимания естественного языка, речевых диалоговых систем, моделирования восприятия языка, верификации диктора и прикладных систем. Санкт-Петербург

Диалог-2001. Компьютерная лингвистика и ее приложения. Международный семинар

НПИЦ "Микросистемы". Компания, специализирующаяся в области семантического анализа текста

http://farc.webservis.ru/ WEB - каталог программного обеспечения для незрячих Владимира Довыденкова. Возможность для слепых людей общаться с компьютером, диктовать и читать тексты, управлять компьютером с опмошью голосовых команд.

Каталог программ синтеза речи: http://www.ims.uni-stuttgart.de/phonetik/gregor/synthspeech/examples.html

http://www.vecs.nm.ru/ -- автор Антон Рязанов (программа Govorilka). Информация, ссылки, программы автора.

http://iclub.kemsu.ru/ts -- автор Руслан Попов (программа BookReader). На сайте представлено очень много различной информации о цифровой обработки звука, теория и практика, наработки автора, программы...

http://www.sakrament.com/it-rus/about.htm -- ООО "Сакрамент" "Наш сайт, полностью посвященный проблемам распознавания и синтеза речи распахивает свои необъятные двери.Мы постараемся знакомить Вас со всеми новостями и продуктами, имеющими хоть какое-нибудь отношение к распознаванию и синтезу речи.Наша фирма добилась весьма неплохих результатов на этом поприще. Так что, если Вам интересно практическое применение передовых технологий, милости просим, звоните, пишите, и мы заставим Ваш компьютер слушать, говорить и повиноваться!"

Institute for Signal and Information Processing -- Здесь вы найдете интересную информацию.

http://www.magnifiers.org/links/ Top : Text-To-Speech software - Буржуйский обзор ссылок на программное обеспечение использующее речевые технологии.

Speech Analyze System -- Домашняя страничка Алексея Москаленко, полезна выложенным описанием системы анализа речи с помощью нейронной сети (программа с исходниками).

Microsoft Agent Downloads - Сайт Microsoft на котором собрана информация о компонентах обработки речи на компьютере.

MAPI, SAPI & TAPI Guide -- Книга на английском, тематика понятна из названия.

RPL Brief Doc -- Переведенный краткий справочник по RPL.

Digalo -- SAPI совместимый движок синтеза речи, знает 8 языков, включая русский.

Elan -- SAPI совместимый движок синтеза речи, знает 7 языков, включая русский.

ETI-Eloquence -- SAPI совместимый движок синтеза речи.

IBM ViaVoice -- SAPI совместимый движок синтеза речи, знает 7 языков.

Клуб голосовых технологий -- Клуб голосовых технологий с пропиской в Научном Парке МГУ - это объединение почти 100 разработчиков голосовых интерфейсов для персональных компьютеров и более 5 000 пользователей. Созданная Клубом серия программных продуктов под общим названием "Голосовая Мышь" основана на оригинальных технологиях синтеза речи.

Компания "Стэл" -- занимается речевыми технологиями с 1995 года, на данный момент идет работа над созданием прототипа дикторонезависимой системы распознавания речи.

Компания "ИстраСофт" -- програмное обеспечение для распознавания фонем, речевой почты и т.д.

Большой архив конференций из сети FidoNet -- Название говорит само за себя.

Celestial Chancellery -- Отличный русскоязычный сайт, здесь много внимания уделяется компьютерной обработке звука. Цитирую: "Добро пожаловать в раздел, посвященный компьютерному звуку и музыке! В этом разделе вы НЕ найдете MP3, но зато вы ДА найдете здесь программное обеспечение (енкодеры, редакторы, трекеры, проигрыватели, Plug-In's, эффект-процессоры и пр.), касающееся компьютерного звука и музыки, а также информацию, статьи и интересные и полезные ссылки, тем или иным образом связанные с этой областью."

Центр речевых технологий, Санкт-Петербург -- коммерческий сайт, алгоритмов там нет, но там есть прекрасные демо-версии продуктов, которые используют распознавание речи.

Проект Дмитрия Васильева -- сайт интересен, цитирую: "На данный момент мой софт нормально обнаруживает и распознает гласные, сонарные и шипящие (свистящие) звуки. Работает как в реал-тиме, так и с WAV-файлами. Самая большая хитрость в моей системе - отсутствие необходимости обучения. Программе абсолютно все равно, мужской это голос или женский - оба распознаются одинаково хорошо!".

Microsoft Research Center -- вся для разработчиков, включая информацию и SDK по распознаванию речи.

Intel Developer's Center -- вся для разработчиков, включая информацию и библиотеки по распознаванию речи.

Библиотеки для программистов - фирма Intel описала свои библиотеки обработки сигналов на русском языке.

COMP.SPEECH -- конференция по распознаванию речи (English).

C/C++ Users Journal -- там тоже есть нужная информация.

Speech Vision and Robotics Group -- народ занимается распознаванием речи (университет Кембриджа).

Speech Recognition Technology -- информация, ресурсы и ссылки.

Speech Recognition: Theory and C++ Implementation -- сайт посвященный одноименной книге, можете ее заказать.

CMU Sphinx Open Source Speech Recognition -- свободно распространяемый движок системы распознавания речи в исходных текстах.

The Institute of Electronics, Information and Communication Engineers -- здесь есть хороший поисковик по научным документам, укажите только тему.

Speech Recognition by Dynamic Time Warping -- описание метода динамического программирования в распознавании речи.

Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г., Многоуровневая система распознавания речи (ZIP 28KB, формат MS Word 8.0)

Использование нейросетей для анализа речи, Москаленко Алексей, Кубанский государственный Университет, 2000 г. (ZIP 702KB, формат MS Word 8.0)

Ф. Уоссермен, Нейрокомпьютерная техника: Теория и практика. В книге американского автора в общедоступной форме излагаются основы построения нейрокомпьютеров. Описаны структура нейронных сетей и различные алгоритмы их настройки. Отдельные главы посвящены вопросам реализации нейронных сетей. (ZIP 986KB, формат MS Word 8.0)

New Hidden Markov Model Toolkit (HTK)

Intel Signal Processing Library

Intel Recognition Primitives Library (описание на русском см. здесь)

Comp speech FAQ

Speech Analysis FAQ

The Scientist and Engineer's Guide to Digital Signal Processing (Second Edition) by Steven W. Smith

проекты и разработки в области распознавания речи (Speech Recognition)

проекты и разработки в области синтеза речи
(Text-to-Speech Engines)





  • Баннеры сайта
  • Реклама на сайте
  • Написать администратору
  • 2004-2005 © Все права защищены
    Техническая поддержка NAROD
    Hosted by uCoz