langextract

langextract

google/langextract

TOOL

一个Python库，利用大语言模型从非结构化文本中提取结构化信息，支持精确来源定位和交互式可视化，适用于数据清洗与知识抽取场景。

Stars

36,973

Forks

2,550

语言

Python

最近更新

2026-05-21

geminigemini-aigemini-apigemini-flashgemini-proinformation-extrationlarge-language-modelsllm

概述

langextract 是一个由 Google 开源的 Python 库，专门用于利用大语言模型从非结构化文本中提取结构化信息。它的核心能力在于支持精确的来源定位和交互式可视化，帮助开发者高效完成数据清洗与知识抽取任务。

核心特点

基于大语言模型，从非结构化文本中精准提取结构化数据。
提供精确来源定位功能，确保提取信息的可追溯性。
支持交互式可视化，便于用户直观查看和分析提取结果。

适用场景

该工具适合数据科学家、AI 工程师和开发者使用，尤其适用于需要从大量文档、日志或网页内容中提取关键信息，并进行数据清洗和知识构建的场景。它能够显著提升信息处理的效率和准确性。

定价

langextract 作为开源项目，在 GitHub 上免费提供。使用过程中，调用大语言模型可能产生相关费用，具体取决于所选用的模型服务商。