tesseract.js

tesseract.js

naptha/tesseract.js

TOOL

一个纯JavaScript实现的OCR引擎,支持超过100种语言的文字识别,适用于浏览器和Node.js环境,提供高效准确的图像文字提取功能。

Stars

38,117

Forks

2,365

Language

JavaScript

Updated

2026-05-17

deep-learningjavascriptocrtesseractwebassembly

概述

tesseract.js 是一个纯 JavaScript 实现的 OCR(光学字符识别)引擎,能够识别超过 100 种语言的文字。它可在浏览器和 Node.js 环境中运行,无需依赖外部服务或复杂配置,即可从图像中高效提取文字内容。该工具基于 Tesseract OCR 引擎,经过优化后以 JavaScript 形式提供,适合前端和后端开发场景。

核心特点

  • 纯 JavaScript 实现:无需安装额外软件或依赖,直接在浏览器或 Node.js 中运行。
  • 多语言支持:内置超过 100 种语言的识别能力,覆盖主流及小众语言。
  • 跨平台兼容:既可用于 Web 应用,也可集成到服务器端或桌面应用中。
  • 高效准确:利用现代 OCR 算法,提供可靠的文字提取结果,并支持图像预处理优化。

适用场景

tesseract.js 适合开发者、数据工程师和 AI 爱好者,用于构建需要文字识别功能的 Web 应用、自动化脚本或数据处理工具。它解决了从扫描文档、截图或照片中快速提取文字的问题,尤其适用于需要离线处理或保护隐私的场景,如文档数字化、表单数据录入和图像内容分析。

定价

tesseract.js 是一个开源项目,基于 Apache 2.0 许可证发布,可免费用于个人和商业项目。用户无需支付许可费用,但需自行承担运行环境(如服务器或浏览器)的成本。官方提供社区支持和文档,无付费版本或订阅模式。

Last updated: 2026-05-28

Category: #开发工具License: Apache-2.0免费
Visit Project

Related Tools