Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

功能:支持日语 #7

Open
rerender2021 opened this issue Mar 29, 2023 · 8 comments
Open

功能:支持日语 #7

rerender2021 opened this issue Mar 29, 2023 · 8 comments

Comments

@rerender2021
Copy link
Owner

rerender2021 commented Mar 29, 2023

  • 现状:语音识别支持日语,例如:

默认是静音的,可手动点击打开。

2023-03-29-23-22-00.mp4

https://www.bilibili.com/video/BV1ft4y1N7Fn

不过没有找到能离线翻译日语的方法。

win11好像也支持日语实时字幕,所以可能也比不上系统自带的好。

@ken133451
Copy link

i try Web site1 and replace model
it work,but Chinese output with some duplicate word issue
hope these model maybe help you :)

Web site1
https://huggingface.co/larryvrh/mt5-translation-ja_zh
Download-link
https://huggingface.co/larryvrh/mt5-translation-ja_zh/tree/main

Web site2
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/jpn-zho
Download-link
https://object.pouta.csc.fi/Tatoeba-MT-models/jpn-zho/opusTCv20210807_transformer-big_2022-09-15.zip

@ken133451
Copy link

更新:
https://huggingface.co/facebook/m2m100_418M
脸书的开源翻译模型,内有100种语言互翻,包含共9900种语言翻译方向(100*99)

这个翻译模型输出的中文,比较少字词重复
使用方法:
删除原本opus-mt-en-zh目录下的内容 (建议先备份) \nlp-gpu-server\model\opus-mt-en-zh
将m2m100_418M底下全部档案放到(在不改变档案架构下)\nlp-gpu-server\model\opus-mt-en-zh

必须注意的事项:
需要修改下载档案中tokenizer_config.json的内容(需要设定 来源语言:日文"ja" 目标语言:中文"zh")

{"src_lang": null, "tgt_lang": null, "bos_token": "", "eos_token": "", "sep_token": "", "unk_token": "", "pad_token": "", "special_tokens_map_file": "m2m_100_1.2B_v2/special_tokens_map.json", "tokenizer_file": null, "name_or_path": "m2m_100_1.2B_v2/"}
改成
{"src_lang": "ja", "tgt_lang": "zh", "bos_token": "", "eos_token": "", "sep_token": "", "unk_token": "", "pad_token": "", "special_tokens_map_file": "m2m_100_1.2B_v2/special_tokens_map.json", "tokenizer_file": null, "name_or_path": "m2m_100_1.2B_v2/"}

@rerender2021
Copy link
Owner Author

😀谢谢你的帮助,我会尽快试一试~

@rerender2021
Copy link
Owner Author

m2m100_418M 成功了,可以翻译,谢谢~

接下来我试试翻译效果,我发现有的普通的句子翻译效果不太好,

比如:

japanese_text = "この前のお誕生日にバラの花をもらったじゃない"
['以前的生日,我收到一朵玫瑰花。']

实际:前几天你的生日没有收到一朵玫瑰吗?

我再试试多用不同的句子,(ง •_•)ง

@ken133451
Copy link

关于这个问题我看了B站的介绍 秀作日语
肯定?还是否定? 【田中さんじゃないんじゃない】
https://www.bilibili.com/video/BV1Nt4y1a7RD?t=80.8

需要看上下文以及语调来判断
じゃない音调上升意思是确认
じゃない音调降低意思是否定

以前的生日,我不是收到一朵玫瑰花吗? [确认]
以前的生日,我没有收到一朵玫瑰花[否定]
前几天你的生日没有收到一朵玫瑰吗? [确认]

我觉得他把"我不是收到一朵玫瑰花吗?"直翻成"我收到一朵玫瑰花"
这点需要讨论一下(ง •_•)ง

@ken133451
Copy link

我试着请Chatgpt 设计10个带有否定疑问句的句子,在不同平台的结果请gpt评分(仅供参考,题目数量太少了以及评价的分数还是要以专业翻译老师为主)

结论:M2M100 418M 跟目前大厂线上翻译效果相比还有不少空间,需要找到能精准表达语意的模型 (ง•̀o•́)ง

AVGpng

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
1.この前のお诞生日にバラの花をもらったじゃない
A:前几天你生日没有送玫瑰花吗?
B:我之前在生日时收到了玫瑰花束不是吗?
C:你在她上次生日时送了她玫瑰花。
D:去年生日,我收到了玫瑰花。
E:我在前面的生日没有收到玫瑰花。
F:上次的生日不是收到了玫瑰花吗
1

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
2.彼女は今宵会いたいと言ってるけど、明日は出勤するんで、会いたいって言えないかな?
A:她说她今晚想见你,但我明天得去上班
B:女友达表示今晚想见面,但明天要上班,是不是不能说想见面呢?
C:她想今晚见你,但我明天要去上班,所以我不能告诉她我想她吗?
D:她说她今晚想见面,但明天去工作,你能说她想见面吗?
E:她说她想现在约会,但明天有会议,她不能约会了吗?
F:她说今晚想见你,明天要上班,你能不能说想见她?
2

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
3.私は今朝抹茶蛋糕を食べたじゃないか
A:我今天早上吃了抹茶鸡蛋饼,不是吗?
B:我刚才吃了抹茶蛋糕不是吗?
C:我今天早上吃了抹茶蛋糕。
D:今天早上我吃了茶蛋糕。
E:我今天没喝绿茶蛋糕。
F:我今天早上不是吃了抹茶蛋糕吗
3

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
4.学校に行くって言ったじゃないか
A:你不是说要去上学吗
B:你说要去上学不是吗?
C:你说你要去学校。
D:我告诉你去上学。
E:今天你说你不去上学。
F:你不是说要去学校吗
4

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
5.彼女は体调不良で、私この周末は休みを许すことができないのか?
A:她病了,你不能让我周末请假吗?
B:女友身体不舒服,我是否该允许她这个周末休息呢?
C:她身体不舒服,你不能让我这个周末休息吗?
D:她感觉不舒服,我不能在这个周末放假吗?
E:她因为你这段时间体不好,而在这个周末不能休息吗?
F:她身体不适,我这个周末不能休息吗?
5

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
6.明日は试験があります。あなたはまだ本を読んでいるのか?
A:我明天要考试。你还在看书吗?
B:我明天就要考试了。你还在读你的书吗?
C:我明天就要考试了。你还在读你的书吗?
D:明天有考试吗?你还在读书吗?
E:明天会有一场考试。你还读书吗?
F:明天有考试。你还在看书吗?
6

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
7.天気が良いにもかかわらず、会社に行けないと、それは不満を抱くことでしょう?
A:天气好却不能上班,岂不是很郁闷?
B:尽管天气很好,但不能去公司,那可能会感到不满吧?
C:尽管天气不错,但不能去上班一定很沮丧吧?
D:尽管天气好,但不能去公司,这会带来不满吗?
E:尽管天气很好,但如果你不能去上班,你觉得会怎么样?
F:虽然天气很好,但是如果不能去公司的话,会有不满吧?
7

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
8.现在のプロットに基づくと、この映画は面白いかもしれませんね?
A:按照现在的剧情,这部电影应该会很有趣吧?
B:基于当前的剧本,这部电影可能会很有趣不是吗?
C:根据目前的情节,这部电影可能很有趣?
D:根据目前的计划,这部电影可能很有趣,不是吗?
E:如果按照我们目前的计划进行,这个电影会很有趣吧?
F:根据目前的情节,这部电影可能很有趣吧?
8

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
9.ここに戻ってきました、またあのコーヒーショップに行きたくないですか?
A:我回来了,你不想再去那家咖啡店吗?
B:回来了,不想去那家咖啡店吗?
C:我们回来了,你不想再去那家咖啡店吗?
D:回到这里,你不想再去那个咖啡店了吗?
E:让我回来,你能去那个咖啡店吗?
F:我回到这里了,不想再去那家咖啡店吗?
9

以下A-F 共6位学生进行日文翻译中文,请分别给分(1-5)并说明理由
10.あのレストランは今夜アメリカ料理を提供しないのですか?
A:今晚那家餐厅不供应美式菜肴吗?
B:那餐厅今晚是否提供美国料理呢?
C:那家餐厅今晚不提供美国菜?
D:这家餐厅今晚不提供美国美食吗?
E:那家餐厅今晚不提供美国料理了,你不想去吗?
F:那家餐厅今晚不提供美国菜吗?

10

@rerender2021
Copy link
Owner Author

谢谢你的评测!不仅能直观看到各种翻译的差别,也让我学到还可以使用chatgpt进行评测的研究方法。

@lin16303
Copy link

lin16303 commented Mar 5, 2024

希望作者可以让这个软件接入本地gpt模型api的接口,也等于兼容openai api,本地大模型有针对日语翻译中文专门训练的sakura,英译中 qwen1.5,效果都是不错的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants