-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
文本断成莫名其妙的一行一行 #7
Comments
这个是我使用的分块算法的锅,按照换行符来分的 为了确保原来在一行的句子在分段后还是一行以保持文本的碎片感以及尽可能拓宽数据库的覆盖粒度。不过确实没有注意到你说的这个问题,后续会添加一些配置选项改成用句号或者直接按段落分块。感谢你的建议 |
另外上下文这块我会想想其他办法 |
你这个其实是有的,我甚至想的更深了一层,奈何效果比较差:)。在软件的设计中,一个text的便签被我分了三级,text 段落 以及句子 text就是你所说的,段落就是把text用空行(两个换行)隔开的部分,句子就是进一步把段落拆分(细节可以看https://hhhxiao.github.io/SoulsModTranslator/ 这里的技术细节部分, 我假定一行就是一个句子了)。这么做主要还是为了生成更细致的对比数据库以尽可能减少导出的文本量。但是本质上中英文本的对应还是得靠语义分析,这么简单的对应不太可靠 会造成各种问题,你提的issue就是其中一个。后面可能会考虑把三级优化成两级,把段落作为最小对比粒度,句子就不要了 |
我们CER这边的翻译主要是,文本中添加了大量细致的效果描述。如果参考原版官中的段落分隔(换行)方式,会因为太占行数而导致文本显示不全。所以实践中,我们这边都是尽量把文本集中在一起,减少显示栏中的空间占用,这也是我们比较看重完整的text而不关注段落/句子等拆分的原因。
再次感谢您的工具。
…________________________________
发件人: AgNO3 ***@***.***>
发送时间: 2024年7月25日 上午 1:03
收件人: hhhxiao/SoulsModTranslator ***@***.***>
抄送: KrukaL ***@***.***>; Author ***@***.***>
主题: Re: [hhhxiao/SoulsModTranslator] 文本断成莫名其妙的一行一行 (Issue #7)
你这个其实是有的,我甚至想的更深了一层,奈何效果比较差:)。在软件的设计中,一个text的便签被我分了三级,text 段落 以及句子 text就是你所说的,段落就是把text用空行(两个换行)隔开的部分,句子就是进一步把段落拆分。这么做主要还是为了生成更细致的对比数据库以尽可能减少导出的文本量。但是本质上中英文本的对应还是得靠语义分析,这么简单多对应不太可靠 会造成各种问题,你提的issue就是其中一个。后面可能会考虑把三级优化成两级,把段落作为最肖对比粒度,句子就不要了
―
Reply to this email directly, view it on GitHub<#7 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/APIF6QKEMFEWXZZPBEZNJOTZN7M5BAVCNFSM6AAAAABLM3OCYGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDENBYGUYDGMJUHE>.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
我后面多加个模式,让两种都支持吧。完整text模式和段落拆分模式,句子因为分的不准就丢进历史的垃圾堆去吧。后面等我更新了可以再试试这个软件 |
好的,麻烦您了。我先关闭这个issue了。
…________________________________
发件人: AgNO3 ***@***.***>
发送时间: 2024年7月25日 上午 1:10
收件人: hhhxiao/SoulsModTranslator ***@***.***>
抄送: KrukaL ***@***.***>; Author ***@***.***>
主题: Re: [hhhxiao/SoulsModTranslator] 文本断成莫名其妙的一行一行 (Issue #7)
我后面多加个模式,让两种都支持吧。完整text模式和段落拆分模式,句子因为分的不准就丢进历史的垃圾堆去吧。后面等我更新了可以再试试这个软件
―
Reply to this email directly, view it on GitHub<#7 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/APIF6QMCL44NPLGCTLUHF43ZN7NXBAVCNFSM6AAAAABLM3OCYGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDENBYGUYTKMZTHA>.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
还没修就别急着关,修好了会自动关的,顺便问一下你们在意换行信息吗,比如说一段文本是
我导出成这种会有影响吗
|
还是需要保留一下,虽然大部分时候我们写中文都会把两个换行分割的同一段落写成一块,由游戏显示栏自然换行。
但是有个别情况下,还是得保留原版英文中的单换行格式。
比如战技的描述,通常情况下这种都是:
Skill: XXX (战技名)
ASDASDASD
KSKSKSKSK (战技描述占数行)
…________________________________
发件人: AgNO3 ***@***.***>
发送时间: 2024年7月25日 下午 6:45
收件人: hhhxiao/SoulsModTranslator ***@***.***>
抄送: KrukaL ***@***.***>; State change ***@***.***>
主题: Re: [hhhxiao/SoulsModTranslator] 文本断成莫名其妙的一行一行 (Issue #7)
还没修就别急着关,修好了会自动关的,顺便问一下你们在意换行信息吗,比如说一段文本是
AAAA, xxx,xxx
xxxxsd dsd dsds.
dsdsd
xxx,dsds.rrr,re
re.
我导出成这种会有影响吗
AAAA, xxx,xxx xxxxsd dsd dsds. dsdsd
xxx,dsds.rrr,re re.
―
Reply to this email directly, view it on GitHub<#7 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/APIF6QISKCZAPWQLBC5D3IDZODJLDAVCNFSM6AAAAABLM3OCYGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDENJQGAZDQNJQGA>.
You are receiving this because you modified the open/close state.Message ID: ***@***.***>
|
了解了,感谢 |
我发现你说的这种
是不存在的,战技名和战灰描述是分开存储在不同的文件上的。暂时还没找到例子。 |
我这边测试了下,如果加上按句子替换只会带来不到2%的文本量节省,所以这边打算直接删除按行分割,改成按段分以及不分两个选项 |
你可以在ArtsCaption下面找到这样的例子。具体来说,战灰描述、战技名、以及武器描述中的战技描述,分别存储在三套文件中: 此外,也可以在护甲等物品的说明( Pitch-black armor thinly painted with dried blood. Reduces weapon stamina cost by 4% and increases weapon damage by 4%. 届时,按段分或者不分,都会把里面的换行符(\n)标记出来,对吗? |
对的,都会保留原状,所有换行符都会保留,就是按整条文本导出和按段落导出两种。按照句子我是放弃了,主要是中英文句子分隔符太大多了( |
这样应该就可以满足今后的需求了,非常感谢 |
原谅我问一个愚蠢的问题:如果我要改正或者修改以前翻译过的部分,是不是直接在比对数据库提取出的json文件里改就行了? |
对的,你的理解没问题(暂时没有更好的方案,就智只能手动修改数据库了,但是本质上这个数据库不是给人看的) |
#8 应该修了你说的问题,顺便发了个pre-release https://github.com/hhhxiao/SoulsModTranslator/releases/tag/v2.10 |
好嘞,我来试试,非常感谢 |
这样的话应该每条text都是分成两行,第一行是键值,第二行是实际的文本内容? 总得来说,这样实用度就很高了,再次感谢您的工作 |
你理解没错,第一个换行符是【@】是我故意的,因为谷歌翻译会吞掉换行符 |
你好,我是 CER 的另一位汉化者,也是先前在B站评论区咨询数据库对照功能的人。
上周末 CER 2.0.1 更新后,我确实尝试了您的工具,但是发现了一个非常影响使用的地方:
如图,本来应该连成完整一句的地方,却不知何故从中间断开。更糟的是,我可以确定这两句对应的物品文本中,全条目的内容绝对不止于此。结果只有其中部分被挑出,也没法查看上下文。
非常感谢您的工具,但是这个问题对我先前造成了比较大的困扰。因为有大量断开的文本,无从得知其所属句子是否完整,也没法比对上下文。我最终采用的方法还是用Yabber手动解包后,针对完整文本进行人工检查。
The text was updated successfully, but these errors were encountered: