Дата публикации:Mon, 04 Nov 2024 13:01:57 +0300
Компания Standard Intelligence объявила о публикации hertz-dev, первой открытой AI-модели для синтеза речи в полнодупексном режиме, которая может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, и обеспечивая взаимодействие в стиле живого человеческого общения без задержек, напоминающих прерывистый телефонный разговор. Наработки проекта распространяются под лицензией Apache 2.0.
трансформер", охватывает 8.5 миллиардов параметров и обучен c использованием 500 миллиардов токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.
Новость позаимствована с opennet.ru
Ссылка на оригинал: https://www.opennet.ru/opennews/art.shtml?num=62170
Новость позаимствована с opennet.ru
Ссылка на оригинал: https://www.opennet.ru/opennews/art.shtml?num=62170