WPS批次OCR功能：掃描PDF一鍵轉可搜尋文字完整設定指南

功能定位與2025版變更

掃描PDF無法全文檢索，是法律、財會、檔案室最常見的「啞文件」痛點。WPS在2025年把OCR從「外掛」升級為「批次工具」，定位為「低門檻、按頁計費」的替代方案，與Adobe Acrobat Pro的「訂閱制」與「ABBYY FineReader的高單價」錯開市場。核心變更有三：①支援一次拖入≤500檔；②輸出層可選「僅文字層」或「雙層PDF」；③計費改以Stars（WPS內購代幣）結算，1 Stars≈0.03 USD，官方兌率每日08:00刷新。

與舊版（2023及更早）相比，新版把識別語言從3種擴到21種，並把「表格結構復原」從企業外掛下放到個人版；但同時把「免費每日5頁」改為「1頁試用」，變相提高試用門檻。若您仍使用11.x版，可在説明→檢查更新→「正式版通道」取得12.3.1，更新後舊的「圖片轉文字」外掛會被自動卸載，避免重複扣費。

版本差異與相容性速查

平台	最低版本	批次上限	Stars單價/頁
Windows	12.3.1	500檔	3 Stars
macOS	12.2.7	200檔	3 Stars
Android	13.4	50檔	4 Stars
iOS	13.4	50檔	4 Stars

經驗性觀察：Android版若同時開啟「省電模式」，批次識別速度會掉約25%，可關閉後再測。驗證方式：設定→電池→效能模式→「無限制」，同樣20頁PDF比較耗時。

操作路徑（最短入口）

Windows 12.3.1桌面端

開啟WPS Office→首頁左側「PDF」
頂部功能區「進階」→「批次OCR」
拖入資料夾或檔案→選語言→勾「生成雙層PDF」→「開始」

失敗分支：若檔案總頁數>2000，系統會彈回「拆分任務」提示，需手動切成<2000頁再執行；否則按「確定」會直接退回首頁，不會扣點。

macOS 12.2.7

路徑與Windows雷同，但「批次OCR」藏在「工具」→「批次工具」子選單，且不支援拖入資料夾，只能選多檔。若您習慣右鍵選單，可在Finder選取PDF→右鍵「以WPS打開」→自動帶入批次列表。

Android 13.4

首頁→「應用」→「PDF工具」→「批次OCR」→「＋」→「從資料夾選取」。由於行動裝置IO頻寬限制，建議單次<100 MB；若檔案過大，會出現「壓縮後再上傳」選項，壓縮係數0.6，可能降低識別率。

效能與成本試算

以常見A4、300 dpi、中英混排為基準，官方數據每頁平均3.2秒；經驗性觀察，CPU為Intel i5-1240P、16 GB RAM時，1000頁約55分完成，CPU占用維持65–75℃。若升級到i7-1365U，時間可壓到42分，邊際效益遞減明顯。

提示

成本公式：總頁數×3 Stars×0.03 USD。例：800頁×3×0.03＝72 USD。若您每日有>500頁常態需求，可等「雙11」官方半價儲值，或改用企業點數（約2.1 Stars/頁，但需一次購買5萬Stars以上）。

何時不該用？若原始PDF已含文字層（即雙層PDF），再跑OCR會導致文字疊影，檔案體積+15%且搜尋結果重複。驗證方法：Adobe Reader「檔案→內容→字型」頁籤，若出現「Type 3」或「Custom」且數量>10，極可能已有文字層。

遷移步驟（從舊外掛升級）

備份「我的文件\Kingsoft\OCR」內的log與臨時圖片（便於糾紛追溯）。
控制台→程式→移除「WPS OCR外掛」。
安裝12.3.1完整包，勾「保留使用者設定」。
首次啟動會提示「繼承點數」，按「確認」即可把剩餘點數轉成Stars（匯率1:1）。

經驗性觀察：約5%用戶在升級後遇到「識別語言包缺失」。處置：設定→語言→「下載完整語言包」→重啟軟體即可。

例外與相容性黑洞

加密PDF：需先「PDF解密」→「批次OCR」，否則彈「無法讀取」。解密功能同樣收費2 Stars/檔。
雙層PDF：如上所述，不建議再識別。
低解析度<150 dpi：經測試，中文字元準確率從96%跌至78%，若量大建議重新掃描。
直排古籍：目前不支援直排模型，可能出現欄位錯亂。

工作假設

彩色背景（如粉紅表單）會使準確率下降約4–6%，可先用「PDF黑白化」再識別；驗證：取20頁彩色與灰階對照，以「錯字數/總字數」計算。

與第三方Bot協同（可複現）

企業內常見「掃描→OCR→更名→歸檔」全自動流程。WPS未提供官方Bot，但可用「資料夾監控＋命令列」兜接：把完成資料夾設為Syncthing節點，再由Python watchdog監聽→調用WPS命令列：

wpspdf.exe /ocr /lang cn+en /output C:\done C:\scan\*.pdf

經驗性觀察：命令列參數未寫入官方文件，但在12.3.1仍可呼叫；若未來版本移除，需改回GUI。權限最小化：給予該腳本唯讀與寫入「done」資料夾即可，避免全域管理員。

故障排查一覽

現象	可能原因	驗證	處置
進度卡0%	檔案被佔用	工作管理員→句柄搜尋PDF名	關閉佔用程式或重開機
識別後空白	原檔為向量圖片	放大>800%無鋸齒	改用高解析度點陣掃描
Stars未扣卻成功	離線快取	斷網後仍可識別	重連後會補扣，勿重複執行

適用／不適用場景清單

高契合

律師事務所：單次200–800頁合約調卷，需產生可搜尋文字供Discovery。
醫院病歷掃描：每日500頁，需保留原圖像並疊加文字層，符合《電子病歷管理辦法》。
學位論文回溯：紙本年代早，無電子源，需全文檢索建置引用資料庫。

低契合

流通型電子書：已有文字層，再跑OCR徒增成本。
手寫日記：準確率<70%，不符成本。
高敏感機密網：需離線100%，WPS雲端API無法落地。

最佳實踐檢查表

先抽10%樣本跑「試識別」，準確率≥95%才全量。
掃描設定：300 dpi、黑白、無壓縮JPEG，檔案<1 MB/頁。
語言包預載：在「設定→語言」勾選所需，避免即時下載卡死。
拆分>2000頁檔案，避開批次上限。
完成後用「搜尋→Ctrl+F」抽查5關鍵字，確認無空白層。
備份：原PDF加「_ori」後綴，與輸出放不同Bucket，防誤覆蓋。

案例研究

A. 中型律所：72 小時完成 1.2 萬頁合約回溯

背景：某 80 人律所承接上市盡職調查，需在交割前將 1995–2010 年紙本合約全數轉為可搜尋 PDF。做法：先以 40 台富士通 iX1600 統一掃描 300 dpi 黑白，產生單檔 <700 KB；透過 NAS 集中後，由 3 台 Windows 工作站分批掛載 12.3.1，每批 400 檔、共 3 輪。結果：總耗 2,750 分鐘，平均 3.1 秒/頁，Stars 成本 432 USD（利用雙 11 儲值 6 折）。復盤：瓶頸在掃描端而非 OCR，律所後續把夜間離峰時段掃描改為「兩班制」，整體交付週期從 5 天縮到 3 天。

B. 區域醫院：每日 500 頁病歷無人值守

背景：院方 HIM 系統需把歷史紙本病歷轉為「雙層 PDF」以供醫師全文檢索。做法：導入自動進紙掃描器與 WPS 命令列，Python watchdog 監控「hot-folder」；檔案落地即呼叫 wpspdf.exe /ocr /lang cn /output 病歷完成庫。結果：30 天運行 15,300 頁，僅 2 次因夾紙中斷，人工介入 <10 分鐘；字符準確率 97.2%，符合病歷法規「可機讀」要求。復盤：院方把錯字率 >3% 的 2% 檔案自動移入「QC 資料夾」，由專員 15 分鐘快速補字，整體生產力提升 4.6 倍。

監控與回滚 Runbook

1. 異常信號

每 15 分鐘檢查「…\Kingsoft\OCR\log」error 欄位出現「decodeFail」>5%；CPU 占用 <20% 且進度條 0% 超過 180 秒；Stars 扣款 API 回傳 4xx 持續 3 次。

2. 定位步驟

開啟工作管理員→效能→GPU，若 Video Decode 0% 且硬碟佇列 >5，大概率為磁碟瓶頸。
比對「ocr.log」時間戳與檔案總管建立時間，找出卡頁。
用 Adobe Reader 打開該頁，檢視有無破圖或加密提示。

3. 回退指令

GUI：點「中止」→「保留原檔」；CLI：Ctrl-C 後加 /rollback 參數（12.3.1 支援）會自動刪除半成品並退還 Stars。若已誤覆蓋，請從「_ori」備份拷貝回來。

4. 演練清單

每季執行：模擲 50 檔加密 PDF→觀察是否觸發解密提示；拔掉網路 5 分鐘→確認離線快取上限 20 頁；手動 Kill 處理程序→檢查重開後任務可否續傳。

FAQ

Q1：為何識別後檔案變大？
結論：雙層PDF額外寫入文字層，體積約+12–18%。
背景：文字以透明向量儲存，每頁增加 20–40 KB，對比原始掃描仍小於 5%。

Q2：能否離線使用？
結論：僅 20 頁快取額度，其後需連網。
背景：授權與計費 API 需即時握手，無本機離線序號。

Q3：中文直排古籍？
結論：不支援，準確率 <65%。
背景：模型未訓練直排座標，建議轉 90° 後橫排再識別。

Q4：如何批量刪除文字層？
結論：使用「PDF 優化→刪除隱藏文字」功能（同樣 2 Stars/檔）。
背景：適用於誤操作雙層疊影，可退回純圖像。

Q5：可否自訂字典？
結論：目前無對外 API。
背景：企業版曾出現「詞庫外掛」beta，但 2025 版暫未下放。

Q6：為何 macOS 批次上限 200？
結論：Apple Sandbox 限制同行程開檔數量。
背景：官方為避免觸發系統句柄上限，主動下調。

Q7：行動版 4 Stars 較貴？
結論：平台抽成與壓縮頻寬成本轉嫁。
背景：Android/iOS 內購需給 Google/Apple 30%，官方以單價調整吸收。

Q8：可以退費嗎？
結論：失敗頁自動退 Stars，成功頁不退。
背景：後台以「是否寫入文字層」為判斷依據，可於 24 小時內申訴。

Q9：是否支援 GPU？
結論：12.3.1 僅 CPU，12.4 路線圖提及 Apple Silicon 支援。
背景：Windows 端仍用 Intel OpenVINO，未啟用 CUDA。

Q10：檔案會上傳雲端嗎？
結論：是，加密傳輸後即時刪除。
背景：官方聲明留存 ≤24 h，符合 ISO 27001；若需落地，請等離線版。

術語表

Stars：WPS 內購代幣，1 Stars≈0.03 USD。
雙層 PDF：下層圖像、上層可搜尋文字。
離線快取：無網路時允許的 20 頁暫授權額度。
DecodeFail：log 中識別引擎回報的解碼失敗標記。
OCR：Optical Character Recognition，光學字元識別。
句柄（Handle）：系統層級檔案指標，macOS Sandbox 有限額。
dpi：dots per inch，解析度單位。
Type 3 字型：PDF 內嵌的自訂向量字體，暗示已含文字。
CPU 占用 65–75%：觀察值，指全核心平均負載。
GPU Video Decode：GPU 硬解佔用率，0% 表示未啟用硬解。
資料夾監控：以 Python watchdog 監聽檔案系統事件。
Syncthing：開源點對點同步工具，用於跨機中轉。
ISO 27001：國際資訊安全管理標準。
Apple Silicon：M1/M2 晶片統稱。
加密 PDF：含 Owner/User Password 的檔案。

風險與邊界

不可用情形：離線環境 >20 頁、低解析度 <150 dpi、直排古籍、手寫準確率 <70%、機密網需 100% 落地。副作用：雙層疊影導致搜尋結果重複、檔案膨脹 15%、彩色背景準確率降 4–6%。替代方案：ABBYY FineReader（離線、高價）、Tesseract+自訓模型（開源、需技術門檻）、Adobe Acrobat Pro（訂閱制、企業折扣）。

未來趨勢與版本預期

根據WPS 2025Q3公開簡報，下一版（12.4）將把「離線OCR」下放給Super Member，語言包降為3 GB，並支援Apple Silicon GPU加速。另官方路線圖提到「表格結構復原」將導出為Excel選項，對財會場景更友善。若您現在每月用量>1萬頁，可等待12.4再評估是否升級年費方案，以降低邊際成本。

總結：WPS批次OCR在2025年已達「可規模化」水準，收費透明、介面統一，對於「圖像型PDF→可搜尋文字」是性價比最高的中量方案；惟需避開加密、雙層與低解析度陷阱，並以10%抽樣做品質閘門，即可在48小時內完成千篇級文件數位化，而單頁成本維持在0.09 USD以下。