[asr]ASR建议输出timeline结构信息 #1257

big-pang · 2022-01-02T07:24:34Z

语音识别，很多时候需要时间轴，可以用户做提词器之类的工能。强烈建议考虑一下

zh794390558 · 2022-01-04T03:35:27Z

做解码器的时候会考虑这个需求

bikekoala · 2022-01-11T09:57:25Z

是的，视频转字幕的场景也同样需要时间轴信息

zh794390558 · 2022-01-11T11:13:36Z

希望可以细化下详细的使用过程或需求，想了解下具体使用的方式。

bikekoala · 2022-01-13T02:13:32Z

@yt605155624

你好，我的使用场景是：配音稿的时间轴矫正
现在短视频的配音一般是先写文案，然后转换为配音稿，人工配音后，合成至视频，最后根据平台提供的自动字幕功能由音频生成。
这里有个问题，平台自动翻译的文字经常出错。
既然有配音稿，又有带时间轴的自动字幕，通过文本比对算饭，即可将自动字幕的时间轴信息匹配到配音稿上，从而实现完美字幕。

josh-zhu · 2022-02-11T06:08:47Z

想问下，这个输出timeline结构信息functionality大概什么时候能有呀

214929177 · 2022-02-11T06:09:16Z

您好，信件已经收到，我将尽快给您回复。

stale · 2022-04-02T09:17:30Z

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

DidaDidaDidaD · 2022-04-28T08:27:16Z

强烈建议搞时间线输出，可惜刚更新的这个还是没有该功能。语音识别不可能只识别一个句子，实际应用的时候是大段大段的语音直接输入，结果出来的是没任何标点符号，没任何时间点信息的文字，还得想别的法子实现获取时间点信息

nevertoday · 2022-06-01T21:17:22Z

请问这个根据既有文稿逐字稿匹配音频并得出时间轴文件的功能现在有了吗

nevertoday · 2022-06-01T21:19:17Z

希望可以细化下详细的使用过程或需求，想了解下具体使用的方式。

就是我有txt一行行的逐字稿并且有播音文件了。如何将两者匹配并得出srt带时间轴的文件

simin75simin · 2022-07-05T08:09:27Z

https://github.com/yeyupiaoling/PPASR好像可以用这个

tomfat · 2023-03-02T06:53:43Z

今天是2023年3月2日，这个功能不会还没有加把

iftaken · 2023-03-02T07:57:22Z

已经添加了哦，可以参考这里的返回结果，包含字级别的时间戳：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

Dewey-Ding · 2023-03-27T10:52:48Z

已经添加了哦，可以参考这里的返回结果，包含字级别的时间戳：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频返回时间戳的时候 socket断开了，看起来是一个bug？
[2023-03-27 10:51:15,279] [ ERROR] - Failed to speech recognition.
[2023-03-27 10:51:15,279] [ ERROR] - sent 1011 (unexpected error) keepalive ping timeout; no close frame received

twoDogy · 2023-03-31T06:54:41Z

@zh794390558 你好，针对这个需求我增加了由wav或mp3格式文件生成srt格式字幕文件的功能，提交了merge request #3123

强烈建议搞时间线输出，可惜刚更新的这个还是没有该功能。语音识别不可能只识别一个句子，实际应用的时候是大段大段的语音直接输入，结果出来的是没任何标点符号，没任何时间点信息的文字，还得想别的法子实现获取时间点信息

mapleleafss · 2023-06-21T02:18:57Z

长音频返回时间戳的时候 socket断开了，看起来是一个bug？ [2023-03-27 10:51:15,279] [ ERROR] - Failed to speech recognition. [2023-03-27 10:51:15,279] [ ERROR] - sent 1011 (unexpected error) keepalive ping timeout; no close frame received

我在使用 paddlespeech_server 起 websocket 服务识别长音频的时候也遇到了 sent 1011 (unexpected error) keepalive ping timeout; no close frame received 。使用 conformer_online_wenetspeech 模型解码长音频的时候可以正常解码。但是使用 conformer_u2pp_online_wenetspeech 和 deepspeech2online_wenetspeech 解码长音频的时候就会遇到 sent 1011 这个问题，我是使用 paddlespeech_server 加载 paddlespeech/demos/streaming_asr_server/applications.yaml 配置文件启动 conformer_u2pp_online_wenetspeech 的。想请教下大家这是什么原因呢？

entalent · 2023-09-05T06:59:20Z

已经添加了哦，可以参考这里的返回结果，包含字级别的时间戳：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频（长度超过1分钟）生成的srt文件只有结尾的最后一部分音频对应的文本，前面的所有文本都没有
paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳，把前面的文本都丢弃了？只能把长音频分段处理吗

777sfdf · 2023-12-26T03:15:53Z

已经添加了哦，可以参考这里的返回结果，包含字级别的时间戳：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频（长度超过1分钟）生成的srt文件只有结尾的最后一部分音频对应的文本，前面的所有文本都没有 paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳，把前面的文本都丢弃了？只能把长音频分段处理吗

想问一下他这个超过一分钟的音频使用ffmpeg进行剪切分段进行处理音频时还是会有问题怎么做可以把全部的词汇和时间戳都输出出来呢谢谢!!!

777sfdf · 2024-01-12T08:51:19Z

已经添加了哦，可以参考这里的返回结果，包含字级别的时间戳：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频（长度超过1分钟）生成的srt文件只有结尾的最后一部分音频对应的文本，前面的所有文本都没有 paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳，把前面的文本都丢弃了？只能把长音频分段处理吗

想问一下他这个超过一分钟的音频使用ffmpeg进行剪切分段进行处理音频时还是会有问题怎么做可以把全部的词汇和时间戳都输出出来呢谢谢!!!

已解决

yt605155624 added the feature request label Jan 12, 2022

zh794390558 added this to the r0.2.0 milestone Jan 13, 2022

zh794390558 changed the title ~~ASR建议输出结构化~~ [asr]ASR建议输出timeline结构信息 Jan 13, 2022

zh794390558 removed this from the r0.2.0 milestone Jan 13, 2022

zh794390558 assigned SmileGoat Jan 17, 2022

stale bot added the Stale label Apr 2, 2022

stale bot removed the Stale label Apr 28, 2022

LeoMax-Xiong linked a pull request May 4, 2022 that will close this issue

[asr][server]streaming asr server add time stamp #1838

Merged

zh794390558 closed this as completed in #1838 May 6, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[asr]ASR建议输出timeline结构信息 #1257

[asr]ASR建议输出timeline结构信息 #1257

big-pang commented Jan 2, 2022

zh794390558 commented Jan 4, 2022

bikekoala commented Jan 11, 2022

zh794390558 commented Jan 11, 2022

bikekoala commented Jan 13, 2022 •

edited

Loading

josh-zhu commented Feb 11, 2022

214929177 commented Feb 11, 2022 via email

stale bot commented Apr 2, 2022

DidaDidaDidaD commented Apr 28, 2022

nevertoday commented Jun 1, 2022

nevertoday commented Jun 1, 2022

simin75simin commented Jul 5, 2022

tomfat commented Mar 2, 2023

iftaken commented Mar 2, 2023

Dewey-Ding commented Mar 27, 2023

twoDogy commented Mar 31, 2023 •

edited

Loading

mapleleafss commented Jun 21, 2023

entalent commented Sep 5, 2023 •

edited

Loading

777sfdf commented Dec 26, 2023

777sfdf commented Jan 12, 2024

[asr]ASR建议输出timeline结构信息 #1257

[asr]ASR建议输出timeline结构信息 #1257

Comments

big-pang commented Jan 2, 2022

zh794390558 commented Jan 4, 2022

bikekoala commented Jan 11, 2022

zh794390558 commented Jan 11, 2022

bikekoala commented Jan 13, 2022 • edited Loading

josh-zhu commented Feb 11, 2022

214929177 commented Feb 11, 2022 via email

stale bot commented Apr 2, 2022

DidaDidaDidaD commented Apr 28, 2022

nevertoday commented Jun 1, 2022

nevertoday commented Jun 1, 2022

simin75simin commented Jul 5, 2022

tomfat commented Mar 2, 2023

iftaken commented Mar 2, 2023

Dewey-Ding commented Mar 27, 2023

twoDogy commented Mar 31, 2023 • edited Loading

mapleleafss commented Jun 21, 2023

entalent commented Sep 5, 2023 • edited Loading

777sfdf commented Dec 26, 2023

777sfdf commented Jan 12, 2024

bikekoala commented Jan 13, 2022 •

edited

Loading

twoDogy commented Mar 31, 2023 •

edited

Loading

entalent commented Sep 5, 2023 •

edited

Loading