青青草国产成人av片免费/香港三级日本韩国三级专线/国内自拍在钱/天堂国产女人av
論壇
排行
專題
Collection
學院設施
登錄
加入學院
搜索
本版
用戶
每日簽到
任務中心
勛章中心
發帖際遇
貝殼夢
PassWord
RoseTta
海龜湯之謎
邏輯訓練場
推理小說
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”? ...
回復
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”?
樓主:
256402
|
查看:
9199
|
回復:
16
查看:
9199
|
回復:
16
[小說安利]
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”?
簡潔模式
256402
發表于 2024-11-19 01:10:53
河南
|
2024-11-19 16:41編輯
|
發自
安卓客戶端
早就想寫的教程了,看到有人問我,那簡單寫了吧。
適合小白的,
一整套翻譯“豎排日文pdf小說”流程:
看到評論區的回復補充:
我似乎應該把最好的方案效果截圖放在開頭:
圖片是1984年的,不夠清晰,且帶很多注音小字的豎排日文pdf文檔
原圖:
譯圖:
這里你看注音小字,和那個底部序號都不會識別,從而干擾翻譯。
注音小字我試了很多張都沒有,底部序號小概率還是會出現。
我最開始沒發最好的效果,是因為我畢竟寫的是整個流程的教程
要說單發個效果最好的付費方案效果圖,
那我還寫了效果差點的/麻煩的免費方案啊,這不純抬高預期嗎
沒辦法,只能先發圖,不啰嗦了開始全流程:
第一,豎排日文pdf文件下載,
隨你在各個論壇,或者“安娜圖書館”這種庫存下載。
(這個要.提.子.)
https://zh.annas-archive.org/
第二,簡單處理,
你可以用這個網站將pdf文件拆分為幾百張圖:
https://tools.pdf24.org/zh/split-pdf
第三,文字識別,這里拓展一下:
可以不要錢的:
識別豎排日文的軟件
似乎只有
pc端的“.a.b.b.y.y.”
我反正之前試過
不滿意識別率,但是也能用。
你可以自己去找,額,學習版
我看b站似乎就有學習版
但是有一說一,我幾年前裝這個直接給我電腦搞藍屏了一次,
并且當時d盤的頭像還被這軟件替換了,功能倒是沒問題
換電腦之后就再沒用過這軟件
要錢的:
我之前和一個人鼓搗好幾天找好方案,
或者識別率不行,
或者能識別,但是像google和白描的ocr識別,
會把“日文注音小字”也識別出來
翻譯質量直接大打折扣。
最后感覺只有“團子翻譯器”的批量漫畫翻譯功能,
https://translator.dango.cloud/
識別率還可以,又不會識別注音小字。
別急,這個流程也有問題,
不是那么簡單的。
1:
費用20/月,
這倒還好,你可以攢一堆書然后一起識別嘛
2:這軟件說到底是翻譯漫畫的,
他沒有做適配識別小說的便捷流程,
我給
作者
反饋過,但他
似乎是不想做
也就是說,你確實可以用這軟件一鍵識別一本豎排日文pdf
(把流程二導出的幾百張圖導入漫畫翻譯功能,然后導出文字)
但是,你點“導出文字”,
軟件會把原文,譯文,
包括你用的翻譯服務名全導出混在一起
你只能手動一條條把日文復制出來
(
只要日文,翻譯功能在別的軟件做
)
我拜托過一個程序朋友,寫程序分離出日文
結果不能保證百分百準確率,
也就是說你還是一條條復制吧。
快捷鍵我記得是ctrl加選,
反正我感覺復制幾百張圖的識別日文,
也就十分鐘吧,可看你接受程度
總結,團子翻譯器這套流程,
就是你從首頁選項卡點進那個圖片翻譯的功能,
然后批量導入圖片,翻譯好,關閉圖片翻譯,
再回到首頁選項卡找翻譯記錄導出txt文字。
翻譯服務就選谷歌之類的都行,畢竟我們只要日文。
然后手動ctrl把導出文字里的識別日文復制出來。
注意我看到評論區提示,重新去截圖才發現的:
你得一次導入好幾張圖翻譯,單獨一張圖,翻譯歷史里沒有記錄。
第四,有了識別到的日文之后,
就是AI翻譯了。
這里
直接去看我第一個教程
簡單來說就是,隨你手機或者電腦下載“沉浸式翻譯”
然后自己去注冊AI大模型的官網注冊API服務,
(教程我第一個教程寫了,
沉浸式翻譯的教程也寫了
)
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/
然后導入配置到沉浸式翻譯里調用服務就能簡單翻譯電子書了。
這里我只簡單補充點新結論:
在翻譯質量方面,
質量和提示詞(prompt)關系很大
在沉浸式翻譯默認的提示詞下,中英翻譯是“deepseek”最好
然后切換到“意譯大師”那個提示詞,
這個流程似乎是翻譯一遍,優化一遍,增加質量但也增加消耗的token
此時就是qwen 2.5 72b效果最好
然后中日翻譯是claude 3.5 sonnet效果最好。
(不過claude價格可比上面這倆貴,你要性價比,
與其claude選常規提示詞翻譯一遍,
不如選這倆便宜的模型加上意譯大師提示詞,
翻譯一遍優化一遍更好還便宜。
)
哦這里說的翻譯一遍優化一遍是他內部翻譯的流程
我們用那就是傻瓜操作,點一下等翻譯好
最后再順便補充下,
和標題沒什么關系,
就是一些ocr識別服務的大雜燴。
我研究方案的時候,接觸了不少。
你如果想批量識別橫排的,不管是繁體簡體,中文英文,
那我上面提的“白描”也行,這個也要錢,手機電腦都有,
價格在“果殼剝殼”賣好像是二十幾買斷。
然后白描也能識別表格,
但是識別公式,據說是“mathpix”最好
這軟件我用過,也是收費,而且有點惡心人的
然后簡單的ocr識別,各個手機廠商似乎都推出了自己的服務
谷歌的“智能鏡頭”也還行。
復雜的,一整本pdf里識別表格公式,這個就很難了,
我看b站有人在研究用AI多模態大模型和傳統ocr服務結合來識別。
再順帶一提,github上也有不錯的開源軟件
比如有個叫“manga ocr”的似乎是可以識別豎排日文
但本人智力有限,實在是不會部署,
有的別的軟件部署之后也不會寫代碼做到批量識別
總之就是擺了,不會用。
最后,我才發現本軟件排版技巧
你選了“字體加紅加粗”之后
如圖,想要正文呈現的效果是換行,
你得在編輯界面,這個代碼之后空一行
同理,想正文空一行,就得在編輯這里空兩行
我說之前發的帖子,排版看著怪呢,很多字就連在一起
本帖子中包含更多圖片或附件資源
您需要
登錄
才可以下載或查看,沒有帳號?
加入學院
21
33
分享
256402
0
|
樓主
|
發表于 2024-11-19 12:09:27
河南
|
2024-11-20 08:00編輯
|
發自
安卓客戶端
我有要補充的內容,就固定在這樓補充了。
帖子編輯一次都得重新審核太麻煩。
0:類似的githubocr方案,還有這個
https://meta.appinn.net/t/topic/62859
不過這是用來翻譯帶公示表格論文的,
很明顯這些有實力的大佬不會研究豎排日文文檔
這才是目前起碼我找不到合適開源方案,批量簡易翻譯豎排日文pdf文檔的原因
1:我才想起來,就是如果你的素材比我這個模糊不少
那似乎可以考慮lr批量加對比度調整
和團子翻譯器這軟件設置里我看有個實驗性“超分辨率”
可以試試,我沒試過,我跑通了這個流程就沒關系了
畢竟我又沒有翻譯這種數的需求。
2:我剛才改帖子居然秒審核通過,搞得我都不好意思再改了
3:我其實沒有這類需求,為什么研究流程呢?
一是自己對新技術感興趣,
二是有人拿著這個1984年的的這個豎排日文pdf問我了
這就不得不提:我研究那時候還非常熱
當時我有一次吹風扇吹得肚子巨疼,真是感覺馬上要噶了。
要不是刷到一個b站視頻,說是按壓左手什么穴位,確實緩解了,
那都難以想象
就在那天,我輕松不少的時候,都是咬了兩塊餅干,
繼續上qq和那人研究流程。
所以,本人這帖子,耗費的精力還是有一點的。
4:帖子中間不是提到了那個a.b.b.y.y.嘛
傳說國內代理商很強,因此在國內公開互聯網上找不到學習版
我一聽這話好家伙,看看資源檢索能力?
直接就去telegram搜搜看,翻了幾頁就見到了
當然只是這么一找,實際我肯定不會用
因為我看b站評論區都說這軟件有問題,會和win11安全中心沖突什么的。
我本來幾年前試用這軟件的時候就沒什么好印象
5:我想到我末尾提到的“github也有不少優秀開源ocr項目,
只是我完全不懂代碼不知道怎么部署和批量識別”
我又想了想,感覺簡單需求,還是可以問AI來教我python代碼,如圖
但問題在于,稍微復雜的問題,比如我正文提到的“只保留日文”AI代碼,
公認最好的claude也不行。
你說批量識別文本,我總得要求這些文本打包到一個文檔里,
還要注意排版,還要消除文檔需要之類的吧?
感覺ai很難滿足這種需求
哦ai的代碼能力,公認最好的是國外的claude,
然后平替,國內的deepseek也還湊合,
然后最近剛出的,國外google的類open ai o1的gemini 1114也還行
本帖子中包含更多圖片或附件資源
您需要
登錄
才可以下載或查看,沒有帳號?
加入學院
175696
0
|
發表于 2024-11-19 12:55:13
江蘇
朋友,關鍵是Z站上和安娜圖書館下載的日文PDF文件,有些小說資源年代太過古老導致PDF文件圖像質量模糊不清晰,EPUB日文原版的注音平假小字就難以解決了,PDF文件更是把小字和大字混合在一起狼狽不堪,搞不明白日本搞這種注音平假小字是干嘛的,谷歌機器翻譯都沒的操作,很多小說資源不是沒得找而是就算找到了也沒得翻譯
261868
0
|
發表于 2024-11-19 13:25:36
上海
|
來自小霸王手機
關鍵是日語原版的新小說都找不到
256402
0
|
樓主
|
發表于 2024-11-20 08:01:42
河南
|
發自
安卓客戶端
...???這還能直接吞評論
248937
0
|
發表于 2024-11-20 11:55:11
陜西
epub還好,可以保留格式復制文本到word里,然后清除讀音,就可以去掉小字了。 pdf是真的麻煩,先不說ocr的識別率了,那個換行短句就很惡心
278218
1
|
發表于 2025-8-24 12:54:47
浙江
推薦用ImageTrans,支持豎排OCR,也能直接提取PDF中可以復制的文字,支持合并文字為段落。
返回版塊
尚未登錄
高級模式
您需要登錄后才可以回帖
登錄
|
加入學院
回帖后跳轉到最后一頁
發表回復
分享
復制鏈接