langextract
google/langextract
TOOL一个Python库,利用大语言模型从非结构化文本中提取结构化信息,支持精确来源定位和交互式可视化,适用于数据清洗与知识抽取场景。
Stars
36,796
Forks
2,532
语言
Python
最近更新
2026-05-21
geminigemini-aigemini-apigemini-flashgemini-proinformation-extrationlarge-language-modelsllm
概述
langextract 是一个由 Google 开源的 Python 库,专门用于利用大语言模型从非结构化文本中提取结构化信息。它的核心能力在于支持精确的来源定位和交互式可视化,帮助开发者高效完成数据清洗与知识抽取任务。
核心特点
- 基于大语言模型,从非结构化文本中精准提取结构化数据。
- 提供精确来源定位功能,确保提取信息的可追溯性。
- 支持交互式可视化,便于用户直观查看和分析提取结果。
适用场景
该工具适合数据科学家、AI 工程师和开发者使用,尤其适用于需要从大量文档、日志或网页内容中提取关键信息,并进行数据清洗和知识构建的场景。它能够显著提升信息处理的效率和准确性。
定价
langextract 作为开源项目,在 GitHub 上免费提供。使用过程中,调用大语言模型可能产生相关费用,具体取决于所选用的模型服务商。
内容更新时间: 2026-05-28
分类: #开发工具License: Apache-2.0免费
访问项目 →