langextract

langextract

google/langextract

TOOL

一个Python库,利用大语言模型从非结构化文本中提取结构化信息,支持精确来源定位和交互式可视化,适用于数据清洗与知识抽取场景。

Stars

36,796

Forks

2,532

语言

Python

最近更新

2026-05-21

geminigemini-aigemini-apigemini-flashgemini-proinformation-extrationlarge-language-modelsllm

概述

langextract 是一个由 Google 开源的 Python 库,专门用于利用大语言模型从非结构化文本中提取结构化信息。它的核心能力在于支持精确的来源定位和交互式可视化,帮助开发者高效完成数据清洗与知识抽取任务。

核心特点

  • 基于大语言模型,从非结构化文本中精准提取结构化数据。
  • 提供精确来源定位功能,确保提取信息的可追溯性。
  • 支持交互式可视化,便于用户直观查看和分析提取结果。

适用场景

该工具适合数据科学家、AI 工程师和开发者使用,尤其适用于需要从大量文档、日志或网页内容中提取关键信息,并进行数据清洗和知识构建的场景。它能够显著提升信息处理的效率和准确性。

定价

langextract 作为开源项目,在 GitHub 上免费提供。使用过程中,调用大语言模型可能产生相关费用,具体取决于所选用的模型服务商。

内容更新时间: 2026-05-28

分类: #开发工具License: Apache-2.0免费
访问项目

相关工具