CN1623146B - 用于超链接名称的系统、方法和软件版权标记和许可 - Google Patents

用于超链接名称的系统、方法和软件版权标记和许可 Download PDF

Info

Publication number
CN1623146B
CN1623146B CN02828266.3A CN02828266A CN1623146B CN 1623146 B CN1623146 B CN 1623146B CN 02828266 A CN02828266 A CN 02828266A CN 1623146 B CN1623146 B CN 1623146B
Authority
CN
China
Prior art keywords
name
title
document
rare property
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN02828266.3A
Other languages
English (en)
Other versions
CN1623146A (zh
Inventor
克里斯多佛·C·多齐尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN1623146A publication Critical patent/CN1623146A/zh
Application granted granted Critical
Publication of CN1623146B publication Critical patent/CN1623146B/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Abstract

人们已经变得更加希望能根据文档中的人的名称来把文档超链接或关联到其它文档。尽管存在把这类超链接安装到司法意见中的自动化系统,但是所述系统通常既不适用于其它类型的名称和文档,也不非常适合于为可能指代两个或多个起同样名称的人的名称确定超链接。因此,发明人设计了能在不考虑类型的情况下方便超链接文档中的名称的系统、方法和软件。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式,所述文档信息在识别名称与职业类别之间的关联过程中很有用。链接模块给输入文档中的名称加标记,利用描述性模式来提取共同出现的信息,并且运用了贝叶斯推理网络,所述贝斯推理网络能连同名称及所选的共同出现的文档信息一起用来为每个名称处理(非反向文档频率)的名称罕见性分数,以确定到其它文档的适当超链接,诸如职业目录中的条目。

Description

用于超链接名称的系统、方法和软件版权标记和许可
这篇专利文件的一部分包含受版权保护的材料。由于所述专利文件或专利公开是在专利与商标局专利文件或记录上发表的,因而版权所有者不反对任何人对所述专利文献或专利公开的传真拷贝,但其它状况下却保留了所有版权。下列版权标记应用于这篇文件:copyright°2001,West Group。
相关申请的交叉引用
本申请要求了于2001年12月21提交的美国临时申请60/342,952和于2002年6月13日提交的美国申请10/171,170的优先权。
技术领域
本发明涉及用于超链接文档中的名称(name)的系统、方法和软件。
背景技术
近年来,因特网及其它计算机网络的超乎想象的发展,同样在可经由这些网络访问的数据方面的超乎想象的发展提供了动力。用于与这种数据进行交互的其中一种原始模式是:通过使用电子文档内的超链接。
超链接是用户可选的元素,比如高亮显示的正文或图标,所述元素把电子文档的一部分链接到相同文档的另一部分或链接到数据库或计算机网络中的其它文档上。利用适当的计算机设备和网络访问,用户能够选择或调用超链接,并几乎瞬时地查看可能几乎是位于世界上任何地方的其它文档。此外,其它文档本身可能也包括到包含超链接的其他文档的超链接,这允许用户在全世界范围内从文档“跳”到文档再“跳”到文档,这样可以随意地搜索相关信息。
近年来,人们对根据文档中的人名而把文档超链接到其它文档上这一点发生了兴趣。举例来说,为了方便法律的研究,明尼苏达州的St.Paul的西方出版社提供了把代理人和法官的名称超链接到西方法律目录中他们的在线传记项上的数以千计电子司法意见,所述西方法律目录也就是大约1,000,000美国代理人和20,000法官的专有目录。这些超链接允许用户访问司法意见以便快速获得联系及其它关于在意见中署名的律师和法官的具体信息。
利用一种将名字(first name)、中间名和姓(second name)、法律事务所名称、城市和州以及法庭信息作为线索以把署名的代理人和法官链接到他们在职业目录中相应条目上的系统,来自动地生成这些司法意见中的超链接。参见Christopher Dozier和Robert Haschart的″Automatic Extraction and Linking of Person Names in Legal Text(自动法律文本中的人名的提取和链接)″(Proceedings of RIAO 2000:Content Based Multimedia Information Access.Paris,France.pp.1305-1321.April 2000),将所述篇文献引入于此以供参考。
尽管自动化系统卓有成效,但是本发明人意识到,它至少受到了两种限制。首先,所述系统采用了司法意见中的结构上的(机构上的)特征,比如案件标题,它们不为其它文档所共用,并且由此限制其对其它类型的名称和文档的一般应用。第二,事实上,当一些名称比其它名称在不同程度上有歧义时,所述系统把所有名称看作是有一样歧义的或一样普遍的。例如,名称David Smith比名称Seven Drake更普遍,且因此更有歧义,或者可能会识别出一个以上的人。
因此,本发明人已经认识到需要其它方法,以用于为名称生成超链接,或更一般地将包含名称的数据关联起来。
发明内容
为了满足这个及其它需要,发明人设计了系统、方法和软件,用于方便把诸如新闻文章之类的文档中的名称超链接或关联到其它数据结构中名称上,或利用比如像在职业目录里中的记录之类的其它数据结构中的名称来超链接或关联这些的文档中的名称。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式(pattern),所述文档信息在识别名称与职业类别之间的关联的过程中很有用。链接模块给输入文件中的名称加标记,利用描述性模式来提取共同出现的信息,将每个名称分类成属于特定的职业,并且试图找出职业目录的相应的条目。
为了找出相应的条目,链接模块为每个名称确定名称罕见性(唯一性(nameuniqueness)或歧义性)分数,并且将这个分数连同名称和所选的共同出现的文档信息一起输入到贝斯推理网络中。所述推理网络测量那个名称在给定的职业目录中指代特定候选记录(或条目)的概率。链接模块根据概率度量来把候选记录分等级,并根据超过给定阈值的最高等级的记录来定义超链接(或其它逻辑关联)。
发明人还设计了方便搜索包含潜在有歧义的项的数据的系统、方法和软件,所述有歧义的项比如是人员或其它实体的名称。例如,一种方法要求从用户那里接收查询,识别所述查询中的一个或多个名称,评价名称的歧义性或唯一性,并且如果歧义性十分大的话,就获取更进一步的信息并且更新或补充所述查询以帮助解决歧义性或减小歧义性。举例来说,可以直接从用户那里或通过自动补充式搜索来获得更进一步的信息,所述进一步的信息包括职业称谓、所在地或机构。
根据本发明的第一方面,提供一种用于把超链接添加到包含人名的文档的方法。所述方法包括:识别文档中的名称;为所述识别的名称确定罕见性指示符,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数;以及根据所述罕见性指示符和所述相似性分数来为所述名称定义超链接。
根据本发明的第二方面,提供一种用于把超链接添加到包含人名的文档的系统。所述系统包括:用于识别文档中的名称的装置;用于为所述识别的名称确定罕见性指示符的装置,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;用于根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数的装置;以及用于根据所述罕见性指示符和所述相似性分数来为所述名称定义超链接的装置。
根据本发明的第三方面,提供一种用于把超链接添加到包含一个或多个人名的一个或多个文档的组的方法。所述方法包括:识别一个或多个文档的组中的一个或多个人名,其中每个识别出的人名比所述文档中的其它人名在一种职业中更可能指代单个人;根据识别出的人名来从一个或多个文档中识别描述性语言;根据识别出的描述性语言的一个或多个部分,来在一个或多个文档内识别指代所述职业中的人的其它人名;为所述一个或多个人名确定罕见性指示符,其中所述罕见性指示符与从总人口的人名列表中随机取出所述人名的第一部分的概率和从总人口的人名列表中随机取出所述人名的第二部分的概率成反比例;根据所述罕见性指示符以及所述人名匹配人名模板的条件概率来计算相似性分数;以及根据所述罕见性指示符和所述相似性分数来为所述一个或多个人名定义超链接。
根据本发明的第四方面,提供一种用于把超链接添加到包含一个或多个人名的一个或多个文档的组的系统。所述系统包括:用于识别一个或多个文档的组中的一个或多个人名的装置,其中每个识别出的人名都比所述文档中的其它人名在一种职业中更可能指代单个人;用于根据识别出的人名来从一个或多个文档中识别出描述性语言的装置;以及用于根据识别出的描述性语言的一个或多个部分来在一个或多个文档内识别出指代所述职业中的人员的其它人名的装置;用于为所述一个或多个人名确定罕见性指示符的装置,其中所述罕见性指示符与从总人口的人名列表中随机取出所述人名的第一部分的概率和从总人口的人名列表中随机取出所述人名的第二部分的概率成反比例;用于根据所述罕见性指示符以及所述人名匹配人名模板的条件概率来计算相似性分数的装置;以及用于根据所述罕见性指示符和所述相似性分数来为所述一个或多个人名定义超链接的装置。
根据本发明的第五方面,提供一种用于根据实体名称来处理和补充查询的方法。所述方法包括:接收包含实体名称的搜索查询;确定所述名称的罕见性指示符,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数;以及响应于所述罕见性指示符和所述相似性分数而获得附加信息以帮助答复所述查询。
附图说明
图1是体现本发明的教导的示例性的系统100的框图。
图2是定义供在分类和链接名称的过程中使用的表达式或描述符的操作系统100的示例性方法的流程图。
图3是根据贝斯推理网络来定义文档中的名称与数据库中的名称之间的超链接的操作系统100的示例性方法的流程图,所述贝斯推理网络是根据图5训练的。
图4是用在操作系统100中以定义超链接的示例性贝叶斯推理系统的框图。
图5是训练贝斯推理网络的操作系统100的示例性方法的流程图,所述贝斯推理网络供度量文档中的名称和数据库中的名称是指代相同人的似然率的过程中使用。
图6是体现包括本发明的教导的示例性搜索方法的流程图。
具体实施方式
下列详细说明参照且体现了图1-6,这些详细说明描述并举例说明了本发明的一个或多个示例性实施例。提供这些实施例不是为了限制而是仅要举例说明和讲授本发明,足够详细地示出并描述这些实施例,以使本领域的技术人员能做出并且使用本发明。因此,在适合于避免混淆本发明的情况下,本说明书可以省略某些为本领域的技术人员所公知的信息。
定义
本说明书包含许多这样的术语,它们的含义源自于它们在本领域中的用途或者源自于它们在本说明书的环境内的应用。作为进一步的辅助说明,给出下列术语的定义。
术语″一个″是指至少一个。
术语″或者″是以其布尔型逻辑意义来使用的,除非是结合″要么...要么″来使用的。
术语″文档″指代具有文件名的机器可读数据的任何逻辑集合或排列。
术语″数据库″包含机器可读文档的任何逻辑集合或排列。
术语″超链接″包含文档中在结构上或功能上符合任何一种过去、现在或者未来的统一资源定位符(URL)标准的任何单字(token)。它也包括任何包含标识专用计算机系统或联网设备的信息的单字。
术语″名称″包括一个或多个词,用其来给定并区别于其它的诸如人、动物、地点、事物、集团、机构或法人实体之类的实体。
术语″程序模块″包括用于执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、和指令或指令集等。所述术语并不限于特定的载体介质。
具体化本发明的示例性计算机系统
图1示出了示例性计算机系统100的图,所述计算机系统并入一种用于自动加标记文档的一个或多个部分并为每个已加标记的部分定义一个或多个相应的超链接的系统、方法和软件。尽管将所述示例性系统展示成为独立部件的互连整体,但是一些其它实施例能利用更多或更少的组件数目来实现它们的功能。此外,一些实施例通过有线或无线的局域网或广域网来将一个或多个组件相互耦合。一些实施例利用一个或多个大型计算机或服务器实现系统100的一个或多个部分。因此,本发明不限于任何特定的功能划分。
总体上,系统100包括输入文档数据库110、名称链接子系统120、职业目录130、输出文档数据库140和访问设备150。
输入文档数据库110包括一个或多个电子文档,代表性地示出了其中的一个文档112。文档112包括人、地点、事物或法人实体的一个或多个名称,一般地说是专有名词,比如像贯穿文档分布的N1、N2、N3、N4和N5。在示例性实施例中,文档112是撰写的新闻文章或其它文本文档-例如司法意见或其它类型的法律文档的电子版。然而,在其它的实施例中,文档112包括一个或多个图像或多媒体数据,包含一个或多个名称。
耦合于数据库110的是计算机化的名称链接系统120。系统120包括一个或多个常规的处理器121、显示设备122、接口设备123、网络通信设备124、存储设备125、文档处理软件126和加标记与链接软件127。软件126和127包括各种软件和数据组件,它们能采用各种形式,比如在电介质、磁性介质和/或光学载体介质上的编码的指令或数据,并且它们可以通过网络下载方法或通过其它的软件传送方法独立地或者组合地安装在系统120上。
文档处理软件的例子包括:字处理程序、HTML编辑程序、电子表格程序、电子邮件程序、展示开发(presentation-development)程序、浏览程序、文档管理程序和文件备份程序。因此,所述发明不限于任何特定种类或类型的文档处理软件。
在示例性实施例中,软件127是文档处理软件126的外接式工具。然而,在其它实施例中,它作为诸如可网络访问的程序之类或者作为操作系统的内核或外壳的一部分的独立应用程序来操作。更具体而言,软件127包括描述符模块1271、链接模块1272和训练模块1273,所有这些模块都将在下面作进一步详述。
系统120耦合于职业目录130和输出文档数据库140。
职业目录130包括一个或多个职业目录,比如像代理人(attorney)目录132、法官目录134、专家数据库136和其它职业的目录138。每个目录(或者更一般讲是数据库)都包括一组记录或其它数据结构,其包含与一个或多个命名或标识的实体相关联的信息,所述标识的实体比如是人、地方、事物或法人实体。例如,代理人目录132包括许多条代理人记录,比如像示例性的代理人记录A1;法官目录134包括许多条法官记录,比如像示例性的法官记录J1;专家目录136包括许多条专家记录,比如像示例性的专家记录E1;而其它目录包括许多条包含与其它个体相关联的信息的记录,所述其它个体比如像医生、教授、会计、教师、名人等等。一些实施例可能包括电话与电子邮件地址、信用报告、纳税报告、犯罪记录、医疗信息、学校记录等等的数据库。
输出文档数据库140包括一个或多个处理过的文档,比如像示例性的文档142。文档142包括已加标记的名称N1、N2、N3、N4、N5以及各自的超链接1421、1422、1423、1424和1425,这些超链接中的每一个都引用至少一个职业目录130内的传记记录或其它数据结构,或者在没有给定特定的目录记录的情况下引用其中一个职业目录,或者引用目录中一个记录子集。由名称链接处理器120生成并嵌入在文档内或关联于文档的超链接1421-1425是可选的,以经由公用或专用局域网或广域网或者专用通信路径(未示出)来把文档140中的各个已加标记的名称部分N1、N2、N3、N4、N5链接到数据库130、132和134。示例性实施例以对比色或字体或者以其它用户可察觉的方式来展示已加标记的名称,以表示它与现有的超链接的关联。输出数据库140内的文档可通过访问设备150在局域网或广域网上加以访问。
所述示例性实施例将输出数据库140作为Web服务器的一部分提供,所述Web服务器比如是运行在具有处理器和扩充内存以及盘配置的几个服务器的网络上的Microsoft因特网信息服务器4.0。数据库140在各种计算机平台上可以采用许多种形式。此外,在一些实施例中,数据库140包括供像访问设备150这样的一个以上的设备使用的冗余内容,以便同时访问相同文档的多个拷贝。
访问设备150包括示例性的访问设备152、154、156和158。每个访问设备都包括显示器、处理器(uP)和软件(SW)。这里所用的术语″访问设备″涵盖了配有浏览器的个人电脑、网络设备、个人数字助理、电话、蜂窝式电话、web电话、电视、web电视等等。它还包括能够以与用户或其它计算机交互的形式输出数据的监视器和其它类型的设备。因此,本发明不限于任何特定种类或形式的访问设备。
系统100的示例性操作
一般来说,系统100的示例性操作需要描述符模块1271、链接模块1272和训练模块1273的操作。描述符模块1271生成一个或多个职业名称的描述符结构或模式,以供在识别很可能是指代一个或多个特定职业类别中的个体(或满足其它预定准则)的名称时使用。链接模块1272接收诸如文档110之类的输入文档,并根据职业名称描述符结构和/或从文档110中提取出的其它数据来把所述输入文档中的一个或多个名称超链接到一个或多个职业目录,并且输入到贝斯推理网络中。训练模块1273在链接模块1272所使用的贝斯推理网络中的各个节点处定义条件概率。
A.描述符模块结构与操作
更具体而言,图2示出了举例说明操作描述符模块1271的示例性方法的流程图200,用于为给定职业生成名称描述符。所述示例性实施例的一个假定是一些人名与其它名称相比很可能更适合于单个个体,并假定当这类名称也与普通职业(或其它类别)相关联时,人们能够自动地识别出所述职业(或类别)中的人所共用的描述性语言。这种语言继而可用来识别在语料库(corpus)中命名的所述职业(或类别)中的多数成员。
流程图200包括过程块210-260。尽管这些块(以及这篇文献中其它流程图的那些块)在示例性实施例中都是串行排列的,但是其它实施例可以重排这些块,省略一个或多个块,和/或利用多处理器或编组成两个或多个虚拟机或子处理器的单处理器来并行地执行两个或多个块。此外,还有其它实施例将这些块实施成一个或多个专门互连的硬件或集成电路模块,其中相关控制权和数据信号在所述这些模块中传递或者通过所述这些模块进行传递。因此,这篇文献中的这个及其它示例性的处理流程都适用于软件、固件、硬件及其它类型的实施方案。
块210需要识别文档(或语料库)集合中与职业目录内名称相匹配的名称和不匹配的名称。识别匹配和不匹配的名称(即,目录中的和目录外名称),需要利用名称标记程序来识别所述集合中的所有名称,并接着针对诸如其中一个职业目录130之类的职业目录进行搜索。尽管本发明不限于任何种类或类型的名称标记(tagger),不过名称标记的适当示例包括来自佛吉尼亚州的Fairfax的IsoQuest公司的NetOw1语法分析软件。(发明人还针对一些实施例根据最大值熵模型来详细考虑名称标记)。
在执行搜索之后,示例性实施例将目录内名称的子集视作为罕见的或唯一的目录内名称。这需要为每个目录内名称计算名称唯一性概率,该名称唯一性概率基于目录中该名称的语言模型。示例性语言模型是根据名字的概率和姓的概率来定义的,其中每个名字和姓的概率分别是基于名字和姓出现的总次数与从总人口(population)中取出的名称列表中的名称总数的比率。
名称列表应该足够大以准确地代表名称在总人口中的分布。如果职业目录或其它数据库足够大的话,那么就可以将它用作为语言模型的基础。如果职业目录小的话,那么该语言模型就应该以诸如列在跨美国的公众记录上的许可职业的列表之类的某个其它列表为基础。下述的说明假定:上面所讨论的职业目录(或数据库)足够大到能代表总人口中的名称。
一旦定义了语言模型,利用如下等式来计算每个目录内名称的名称匹配概率分数:
P(name)=P(first name)·P(second name)       (1)
其中P(first name)表示从目录中的所有名字中随机取出名字的概率,而P(second name)类似地表示从该目录中的所有姓中随机取出姓的概率。然后,按如下来计算名称唯一性或罕见性的概率:
P(nameUniqueness)=1/((H·P(name))+1)      (2)
其中H表示在语料库中可能被引用到的人类人口的大小。例如,对于由华尔街日报文章组成的语料库,将H定为300百万,近似美国的人口。然后,将每个其名称唯一性概率超过阈值(比如,0.07)的目录内名称连同目录外名称一起用作基础,以供在块220的进一步处理。
块220抽取共同出现的文档信息或者与一个或多个识别出的目录内名称和一个或多个目录外名称相关联的文档信息。在示例性实施例中,这需要提取每个罕见的目录内名称周围的以及所有目录外名称周围的某个文本窗口(或文档区域)内的文本或信息。
更具体而言,示例性的提取需要抽取文本窗口内出现的一元(unigram)和二元(bigram),所述文本窗口在每次出现已识别出的语料库中罕见的目录内名称和目录外名称之前和之后扩展(extending)八个单词。(其它实施例使用了其它尺寸和形式的文本窗口,比如,文档语法结构或组织结构。例如,一些实施例根据字符、语句或分段数来定义窗口。)与目录内名称相关联的一元和二元被定义为共同出现的目录内的一元和二元,而那些与目录外名称相关联的一元和二元被称为共同出现的目录外的一元和二元。在块230继续执行。
块230确定提取出的信息将随目录内名称而非目录外名称一起出现的概率或似然率。在示例性实施例中,这需要计算每个目录内的一元和二元在目录外名称前和后出现在八个单词的窗口内的概率,以及每个目录外的一元和二元在目录内名称前和后出现在八个单词的窗口之内的概率。按如下来计算这些共同出现的概率:
P(unigram/in-directory rare name(目录内罕见的名称))=IU/NI(3)
其中IU=一元出现在具有目录内罕见名称的窗口中的次数,而NI=目录内罕见名称的数目。
P(unigram/out-of-directory rare name(目录外罕见的名称))=OU/NO   (4)
其中OU表示一元出现在具有目录外名称窗口中的次数,而NO表示目录外名称的数目。
P(bigram/in-directory rare name)=IB/NI  (5)
其中IB表示二元出现在具有目录内罕见名称的窗口中的次数,而NI表示目录内罕见名称的数目。
P(unigram/out-of-directory rare name)=OB/NO  (6)
其中OB表示二元出现在具有目录外名称的窗口中的次数,而NO表示目录外名称的数目。
为了确定一元和二元与目录内罕见名称而非目录外名称共同出现的似然率,示例性实施例用目录内罕见名称共同出现概率除相应的目录外共同出现概率。这些似然率公式化形式可以写成:
L ( unigram ) = P ( unigram / in - directory rare name ) P ( unigram / out - of - directory rare name ) - - - ( 7 )
L ( bigram ) = P ( bigram / in - directory rare name ) P ( bigram / out - of - directory rare name ) - - - ( 8 )
其中L(unigram)是给定的一元与目录内罕见的名称共同出现的似然率,而L(bigram)是给定的二元与目录内罕见的名称共同出现的似然率。
块240根据在前和在后的一元和二元共同出现似然率来把提取出的信息分等级。为此,示例性实施例按其目录内罕见名称共同出现似然率的递减顺序把共同出现的目录内一元和二元分等级或加以排序。(其它实施例可以计算和使用共同出现概率。)以下两个表中示出了对应法律职业人员的在前和在后的一元和二元以及它们的似然率分数的分级列表的例子。
表1:在前和在后的一元示例
Figure GSB00000586142600121
表2:在前和在后的二元示例
块250需要根据等级来选择一组或多组已提取的信息。在示例性实施例中,这是一个人工选择过程;然而,其它实施例可以例如根据具体的最小等级或与最小阈值结合的具体的最小等级来应用自动选择准则。
更具体而言,示例性实施例选择两组项,称为锚(anchor)项。第一组锚项包括具有在前的目录内罕见名称的高似然率的项,而第二组锚项包括具有在后的此类名称的具有高似然率的项。在许多实例中,锚项是在给定名称之前或之后的同位语短语或从句中的名词。该示例性实施例还把彼此同义的小写字母项编组。例如,诸如″laywer″、″counsel″和″prosecutor″之类的项均视为是与″attorney″同义,且因此将它们编组在一起以形成单个锚项,从而减少在块260生成的规则表达式或描述符的数目。
块260需要自动地生成与职业中的全体成员有关的职业描述符模式(或表达式)。示例性的描述符表示由目录内罕见名称和所选定的锚项来划界的语料库片段中的语法模式。
该示例性实施例用下列方式生成所述模式。对于由锚项和罕见的名称来划界的每个语句片段,该示例性实施例通过按空格符和逗号把片段分解成单独的单字并继而根据它在英语词典(lexicon)中通常最相关的词类来对每个单字进行规范化,从而得出一般化的模式(或结构)。把词典外的单字定为″其它″类型,而把动词″to be″的形式定为″is″类型,以便把它们与其它动词中区分开。把除了逗号之外的标点符号定为″其它″类型。该示例性实施例使用了公众可获得的约为90,000个单词的英文词典,每个单词都与一种或多种词类相关联,每个单词是按照语料库内的频率顺序列出的。在表3中示出了描述性模式的示例性词汇表。
  模式符号   语法特征   示例
  $det-   限定词   a,an,the
  $pos   所有格   his,our
  $adj   形容词   legal
  $noun   名词   attorney
  $prep   介词   for
  $pronoun   代词   he
  $properNoun   专有名词   Johnsons
  $adv   副词   legally
  $inf   不定式助词   to
  $isVerb   动词“to be”形   is,was
  $verb   动词   said
  $comma   逗号   ,
  $other   所有其它的词类或标点符号
  /s   空格
表3:描述性模式的示例性词汇表
接下来,该示例性实施例创建唯一的模式的合并列表,并且计算在语料库中多长时间对每一个重复一次。然后,根据它们的出现计数来对这些模式进行排序,并且丢弃奇异模式。接着,把其余模式视作为表示给定职业中的全体成员。
插入框260’示出:示例性的模式结构包括名称结构261、语法结构262、锚项结构263以及相对位置数据264和265。名称结构261是名称在片段中的占位符(placeholder)。语法结构262包括标点、词类部分标识符和可表示名称与锚项结构263之间任何现有语法结构模式的相关联的位置信息。锚项结构263代表并包括一个或多个锚项。
相对位置数据264和265分别表明名称结构261与语法结构262的相对位置以及语法结构262与锚项263。虽然该示例性实施例依据模式结构内数据的顺序而隐式地实现了相对位置数据,但是其它实施例显式地标注了诸如像″在...之前″或″在...之后″的相对位置。一些实施例省略了名称结构和/或介于中间的语法结构,并且根据锚项与隐式名称结构之间的单词或字符间距来定义模式。
在下列表中示出了用于从新闻文章的语料库中识别代理人的描述职业的模式的例子。还示出了利用这些模式而从文档中提取出的相应的语句片段。
表4:描述代理人的模式和语句片段的示例
实际上,该示例性实施例把罕见或较少的有歧义的名称用作为虚拟标记,以便识别或滤出一组示例性的语句片段,这些语句片段包含命名的职业的说明并且可以用作为定义符合语法的描述性模式的基础。一般说来,与检查人名周围的语句片段相比,罕见性过滤器用来更加有效地识别好的范例。这些模式然后就被用来帮助在链接模块1272中自动生成超链接。
B.链接模块结构与操作
总体上讲,链接模块1272(在图1中)接收诸如文档110之类的输入文档,并且根据由描述符模块1271定义的职业名称描述符结构,来把该输入文档中的一个或多个名称超链接到一个或多个职业目录。
图3示出了嵌入在链接模块1272中的示例性方法的流程图300。流程图300包括过程块310-370。
在块310接着执行该示例性方法,这需要从输入文档数据库110那里接收诸如文档112之类的文档。在一些实施例中,链接模块1272在由文档处理软件127发启的一个或多个会话的环境中执行,并且输入文档表示由文档处理程序中活动处理窗口内的文档的一个或多个选定部分或文档处理软件寄宿(hosting)的全部文档。然而,在其它实施例中,从文档处理程序中的当前活动的处理窗口中接收或检索文档或文档部分。在其它的实施例中,链接模块是与耦合于诸如工作站之类的主计算机系统的一个或多个数据库进行交互的独立应用。在块320继续执行。
在块320中,链接模块使用普通的标记来给输入文档中的每一个人、地点和机构名称加标记或标识。该示例性实施例与描述符模块中使用的标记相同。在该示例性实施例中,标记名称还需要解决对输入文档内的相同名称的明显的共同引用。
为此,示例性实施例利用一组名称比较规则来把文档内的引用一起链接到相同个名称。这些链接称为文档内共同引用链或名称链。在加标记过程期间,将每个最新发现的名称的姓与那些已经发现的名称的姓进行比较。如果未发现匹配,则就把最新发现的名称当作为文档中的唯一名称。如果最新发现的姓与现有的姓相匹配,则将与该最新发现的姓配套的名字同与匹配的姓配套的名字相比较。如果名字相匹配或者是相似的,则假定这些名称是相同的。如果名字与任何匹配的姓的名字都不相似,则认为该名称在文档中是唯一的。如果最新发现的名称无明显相关联的名字,那么把该名称当作为是对最近发现的具有相同姓的名称的引用。其它实施例可以使用其它技术来解决文档内的共同引用。
在块330中,链接模块确定一个或多个加标记的名称链的哪一个很可能与一个或多个职业目录相关联。在该示例性实施例中,这需要应用描述符模块1271所生成的一个或多个描述职业的模式。在应用描述性模式的过程中,该示例性实施例试图将对应给定职业的每一个描述性模式匹配或映射到输入文档中每次出现加标记的名称的周围的文本。如果描述性模式成功地映射到名称的出现,则把该名称(及其文档内的共同引用)认定为候选职业者,并将其添加到给定类型的候选职业的列表中。(其它实施例把文档的规则结构或线索特征用作为关于文档中的名称性质的进一步证据。例如,司法意见(判例法)、包括可用来识别和/或区分代理人和法官的案件标题、法律顾问短语、赞同意见和日期。)将候选名称链的列表转发出去,以供在块340中作进一步处理。
块340需要根据候选职业的加标记的名称链和来自文档的相关的共同出现的文本或其它信息,来定义一个或多个名称模板或其它的数据结构。在示例性实施例中,定义名称模板需要为每个加标记的名称链形成文档中的语句的集合,包含该链中的名称,并且形成文档中的段落的集合,包含该链中的名称。在一些实施例中,语句和段落的集合是表示语句和段落的起始和/或结尾的文档位置指示符。
在形成语句和段落集合之后,链接模块为每个名称链定义模板,其中每个模板都具有示例性的名称模板340’的形式。名称模板340’包括:名称记录341、描述符数据记录342、位置数据记录343、机构记录344和名称唯一性(或罕见性)记录345。
名称记录341包括名字字段(第一字段)、中间名称字段(中间字段)、姓字段(最后字段)以及后缀字段(后缀)。其它实施例包括其它名称相关的数据,比如来自于查找表或常见备选缀字的别名。并且还有其它一些实施例排除了示例性实施例中所用的一个或多个字段,比如像后缀。
描述符数据记录342包括一个或多个描述符字段,比如像D1、D2、D3、...Dn。在该示例性实施例中,每个描述符字段都包括利用描述符模块1271为给定的职业生成的一个或多个描述职业的模式而从输入文档中提取的语句片段。对于在多处重复或共同引用一个名称的文档,将描述符结构应用于名称的每次出现以集合成描述符字段组。一些实施例甚至可以将描述符模式应用于对给定名称的代词引用。(在其它实施例中,描述符还包括共同出现在某个的名称间距内的动词。)
对这些模式的应用需要使每个模式的名称部分与语句集合中的名称一致,并且判断该语句的邻近部分(片段)的语法是否与该模式的语法相符。如果相符的话,示例性的链接模块把相应语句片段的一个或多个部分(比如,锚项)拷贝到描述符数据记录342的相应的描述符字段中。
位置数据记录343包括相同语句的字段和相同段落的字段。相同语句字段包括子字段LS1、LS2、...、LSj,其中,每个LS子字段包括共同出现在语句中的所在地名称,该语句具有对名称数据记录341中的名称的引用。相同段落字段包括子字段LP1、LP2、...、LPk。每个LP子字段都包括共同出现在段落中的位置名称,该段落包含对数据记录341中的名称的引用。在示例性实施例中,构建这个记录需要为给定的名称搜索在语句和段落集合中的所在地,并将找到的所在地拷贝到各个子字段中。
机构数据记录344包括相同语句的字段和相同段落的字段。相同语句字段包括子字段OS1、OS2、...、OSj,其中每个子字段都包括共同出现在语句中的机构,该语句具有对名称数据记录341中的名称的引用。相同段落字段包括子字段OP1、OP2、...、OPk。每个OP子字段都包括共同出现在段落中的机构,该段落包含对数据记录341中的名称的引用。
在该示例性实施例中,把一个语句理解成包括语法以及印刷上的语句,而一个段落包括由标点或其它信令设备或技术从一个或多个语句的另一组上划界或隔开的一个或多个语句的任意组。同样,在该示例性实施例中,相同语句和相同段落的所在地和机构不必互相排斥。也就是说,如果在出现名称的语句中出现一项,则该项同样出现在包含该语句的相同段落之内。然而,在其它实施例中,可以将相同语句和相同段落的所在地定义成是互相排斥的。
尽管示例性实施例通过相同字段和相同段落宇段的结构来为所在地和机构提供了隐式的位置信息,但是其它实施例可以运用其它技术来并入与名称模板中的给定名称有关的位置信息。例如,一些实施例使用字符、单词、语句、段落或自该名称开始的页面偏移量,或者更确切地说是一次给定名称的出现。其它实施例将位置信息提供成二进制代码组或标志组,其中每个标志都表明逻辑上相关联或相对应的所在地或机构是否与其相关联的名称一起出现在语句或段落内。还有其它实施例提供了表明该地点在与名称有关的确定的文本窗口或文档区域之内还是之外的标志。而其它实施例还为每个机构或地点提供了相对的文档位置或绝对的文档位置。
名称唯一性(或罕见性)记录345包括分数字段,该字段包含其相关联的名称的唯一性或罕见性的指示符。在该示例性实施例中,这个指示符是用数字表示的量,它表示一个名称匹配从特定目录中取出的候选记录的先验概率。更具体而言,该示例性实施例将该量定义成名称唯一性的概率,并利用如下等式来计算它:
P(nameUniqueness)=1/((H’·P(name))+1)         (9)
其中H’表示描述符匹配所表示的职业类别的大小,并且P(name)定义为:
P(name)=P(first name)·P(second name)         (10)
其中P(first name)表示从表示总人口的名称列表中的所有名字当中随机取出该名字的概率,而P(second name)也表示从表示总人口的名称列表中的所有姓当中随机取出该姓的概率。
尽管该示例性实施例为多种类型的职业使用了诸如名称模板340’之类的模板,但是一些实施例也可以省略或添加其它的模板特征。例如,用于法官的模板可以省略单独的所在地信息,因为诸如法院名称之类的机构信息隐式地包含了所在地信息。其它实施例可以完全省略掉信息,而不是仅仅省略掉它的显式形式。
块350,在于块340中定义名称模板之后执行,该块从一个或多个职业目录130中检索一组候选目录条目。为此,该示例性实施例搜索具有相同姓的目录条目以作为其中一个候选的职业名称。然后,它为这些候选目录条目检索全名、称谓、机构、所在地和条目标识信息,以供在块360中作进一步处理。
块360需要比较每个名称模板与一个或多个检索出的候选记录或数据结构的相似性并且给出分数。在该示例性实施例中,这需要运用一个或多个贝叶斯推理系统,比如像图4中所示的一个。
图4示出了示例性的推理系统400,该推理系统包括输入名称模板410和输入候选记录420,以及一个或多个贝叶斯推理引擎,比如贝叶斯推理引擎430。
输入名称模板410包括:名称数据411、描述符数据412、所在地数据413、机构数据414和名称唯一性数据415。输入候选记录420包括:名称数据421、称谓数据422、所在地数据423、机构数据424和记录标识数据425。
推理引擎430包括:证据比较模块431-434和计算模块435。比较模块431-434包括各个数据和逻辑规则结构,它们定义各种比较状态和相关联的概率。在该示例性实施例中,每个推理引擎被制定成适合于特定的职业目录或其它数据库。同样,该示例性实施例使用具有配置选择的可重新配置的软件模块来实现用来定义比较逻辑和计算的每个引擎。然而,其它实施例可以运用完全不同的推理引擎结构。
每个比较模块通常都包括:表明将候选数据项与各个输入数据项进行比较的可能结果的两个或多个互斥状态。每个状态都与用于该状态的特定比较逻辑和条件概率相关联,假设候选记录与输入名称模板相匹配,并且假定候选记录与输入名称模板不匹配。(一些实施例包括多组状态、逻辑和条件概率,其中的每一组都与特定的职业目录或职业相关联)。示例性状态包括:确切匹配、强模糊匹配、弱模糊匹配、未知的(或未规定的)匹配以及失配。
当数据项或元素确切地匹配时,发生确切匹配。当元素达不到确切匹配然而却是强相容的,则发生强模糊匹配。当元素达不到确切匹配然而却是弱相容的,则发生弱模糊匹配。当不存在足够的信息来确定数据是匹配还是失配时,发生未知的匹配。而当这些项不具有任何相容性时,发生失配。
更确切地说,该示例性实施例为每个证据比较模块定义这些状态中的每一种状态,如下:比较模块431具有三种状态:确切匹配(EX)状态;强模糊(SF)状态;和弱模糊(WF)状态。为了要发生确切匹配,提取出的名称的所有成分都必须确切地是那些候选记录。例如,AbrahamLincoln确切地匹配Abraham Lincoln,而不是Abe Lincoln、AbrahamLincoln、Jr.、或Abraham S.Lincoln。对于强模糊匹配来讲,加标记的文档中的名字和姓必须匹配记录中的名字和姓,而该记录中的所有其它成分都是未规定的或空白的。因此,Abraham Lincoln与AbrahamLincoln、Jr.及Abraham S.Lincoln是一种强模糊匹配。对于弱模糊匹配来讲,只有姓匹配,而所有其它的成分都是未规定的或是具有诸如别名之类的变体形式。因此,Abraham Lincoln对于Abe Lincoln来说是一种弱模糊匹配。(尽管未在图中示出,但是比较模块431典型地包括或有权访问名称和常见别名或变体的数据库,当名称比较显示未确切地匹配所述那些名字时,它就访问该数据库。然而,其它实施例可以把这类别名归入到名称模板本身当中,或者甚至可以完全忽略对别名的考虑。)
比较模块432包括四种状态:确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态和不匹配(NO)状态。在充分规定的描述符的所有元素都匹配的情况下,发生确切匹配。例如,描述符″U.S.SupremeCourt Justice(美国最高法院大法官)″确切地匹配称谓″U.S.SupremeCourt Justice″。在描述符的一些元素而非全部元素和称谓匹配的情况下,发生强模糊匹配。例如,描述符″Supreme Court Justice″对于称谓″U.S.Supreme Court Justice″来说是一种强模糊匹配。当描述符识别与目录所涵盖的职业相一致的通用职业时,发生未知状态。例如,如果描述符是″Judge(法官)″,而目录条目中的称谓是″″U.S.8thCircuit Court judge(美国第八巡回法院法官))″,那么就认为该匹配是未知的或未规定的。当描述符与记录中的具体描述相冲突或不一致时,发生失配或″不匹配″状态。例如,如果描述符是New York Districtjudge(纽约地区法官)而目录条目中的称谓是″U.S.8th Circuit Courtjudge″,那么匹配状态就是失配的。
用于比较所在地证据的比较模块433具有五种匹配状态:确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态、未知的或未规定的(UN)状态和不匹配(NO)状态。当在文档内显式链接于所提取的名称的城市和州所在地证据与目录记录的城市和州匹配的情况下,发生确切匹配。例如,当该所在地共同出现在相同语句中时发生显式链接。当出现在具有所提取的名称的相同段落中的城市或州匹配候选目录中相应的城市或州时,发生强模糊匹配。当出现在相同文档中但位于所提取的名称的相同段落之外的城市或州匹配列在目录条目中的城市或州时,发生弱模糊匹配。当提取的名称未显式链接于特定城市或州并且文本中的任一所在地都不匹配候选记录中的城市或州信息时,发生未知的或未规定的状态。当所提取的名称显式链接于不匹配候选记录中的城市或州信息的城市或州名称时,发生失配。
用于比较机构数据的比较模块434具有五种状态:确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态、未知的或未规定的(UN)状态和不匹配(NO)状态。当所提取的名称显式地链接于文本中的特定机构并且那个机构匹配候选记录中的机构时,发生确切匹配。例如,当所在地共同出现在相同语句中时,发生显式链接。例如,如果文本把代理人描述成在Smith&Jones事务所工作并且目录条目将Smith&Jones列为相关的法律事务所或其它机构,则存在确切匹配。如果所提取的名称像所提取的机构那样出现在相同段落中,并且如果所提取的机构匹配候选记录中的机构,则发生强模糊匹配。如果所提取的名称出现在相同文档但在段落之外,并且如果所提取的机构匹配候选的机构,则发生弱模糊匹配。当所提取的名称未显式地链接于特定机构并且文本中的任一机构名称都不匹配候选记录中的机构信息时,发生未知的匹配。而当所提取的名称显式地链接于机构名称并且那个机构名称不匹配候选记录中的机构名称时,发生失配。
下表概括了对应示例性贝叶斯推理引擎中的每个证据比较模块的各种实际状态。
证据比较模块431-434实施它们各自的比较,并以八个条件概率的形式向计算模块435输出它们的结果。
计算模块435根据这些条件概率以及唯一性或名称罕见性数据,为输入名称模板计算相似性分数或匹配概率。示例性的计算使用贝叶斯规则的下列形式:
P ( M | E ) = P ( M ) Π i = 1 4 P ( Ei | M ) P ( M ) Π i = 1 4 P ( Ei | M ) + P ( - M ) Π i = 1 4 P ( Ei | M ) - - - ( 11 )
其中P(M|E)表示一个模板在假定一组确定的证据的情况下匹配候选记录的概率,所述证据比如像一个输入名称模板和一个候选记录。P(M)表示模板和传记记录匹配(即,是指相同人)的先验概率,而P(-M)表示模板和传记不相配的先验概率。该示例性实施例将P(M)定义成职业人口内的名称唯一性或名称罕见性的概率,而将P(-M)定义为:
P(-M)=1-P(M)       (12)
P(Ei|M)是在假定假定输入名称模板匹配候选记录的情况下Ei呈现特定状态的条件概率。例如,如果E3表示所在地匹配证据,那么P(E3|M)就表示:在假定一个名称模板和候选记录匹配的情况下,名称模板中的所在地信息和候选记录具有由比较模块433确定的匹配状态(确切匹配、强模糊匹配、弱模糊匹配、未知的匹配、或不匹配)的概率。
Figure GSB00000586142600221
表示:假定名称模板不匹配职业目录中的任何记录时,Ei呈现特定状态的条件概率。例如,表示:假定模板与候选记录不匹配时,人员模板中的所在地信息与候选记录相匹配的概率。(其它实施例包括更少或更多数量的状态以及其它类型的共同出现的信息)。
每个候选记录-名称-模板的比较的分数都是与候选记录的候选记录识别424相关联。在图4中,这种关联用分数440和候选记录识别425之间的点划线来表示。在图3中,在块370继续执行。
在块370中,链接模块根据比较分数来把输入文档中已加标记的一个或多个职业名称链接到一个或多个候选的职业目录上。在该示例性实施例中,这需要执行插图370’中所示的过程块371-375。
块371为特定的名称模板从候选记录之中选择最佳的候选记录。具体地说,这需要选择具有最高比较分数的候选记录。如果没有任何一个具有最高分数的候选记录的话,那么该示例性实施例就前进至块372,而不为名称模板选择候选记录。然而,其它实施例可以使用线路中断器(tie breaker)的某种形式(例如,以编年史为基础线路中断器),或者利用减轻在链接准确度方面的不确定性的消息来构建到每个最高等级的候选记录的链接,或者构造一个用于向用户展示最高等级候选记录的菜单的链接。
块372判断所选的候选记录是否符合其它准则。为此,该示例性实施例判断所选的候选记录的分数是否满足给定的阈值准则,比如,大于或等于0.05。然而,其它实施例使用诸如与包括候选记录的职业目录之间具有商业的或按年代先后的关系之类的附加准则。如果候选记录满足链接准则的话,则在块373继续执行。
块373需要构造一个能把在输入文档考虑内的名称的至少一次出现链接到寄宿候选记录的职业目录中的条目的超链接。在该示例性实施例中,这包括:标记文档中名称的所有出现,并把一个标识候选记录的URL(统一资源定位符)嵌入到该文档中。(在一些实施例中,把输入文档的候选引用标识和文档标识号码写入到索引中,所述索引可用于方便基于名称的搜索以及在职业目录与文档数据库之间的进一步的文档链接。)所述标记过程可以采取多种形式,比如像,相对于文档中其它文本的字形改变。其它实施例可以插入一个引用职业目录而不是引用该目录中特定记录的超链接。其它模板包括:字符偏移量信息,供在给定的语句、段落或文档内的正确点上放置超链接的过程中使用。还有其它实施例可以根据一个或多个中间目的地来定义超链接以实现想要的链接,所述中间目的地被转发或者路由到目录或目录记录上。
在块373中构造链接之后(或在块372中判定链接准则不被满足之后),执行前进至块374。块374判断输入文档是否包含用于可能的链接的另一个名称。肯定的判断让执行返回到块371,以便为另一个名称模板选择候选记录,而否定的判断则将执行分支到块375。块375让执行返回到块310,以接收另一篇输入文档,供进一步处理。
C.训练模块结构与操作
图5示出了流程图500,它举例说明了用于定义图4的贝叶斯推理引擎中所使用的条件概率的训练模块1273的示例性的结构与操作。流程图500包括过程块510-560。
在块510,执行首先开始接收一组具有加标记的名称的训练文档,所述加标记的名称对于匹配职业目录中的名称而言都是公知的。在该示例性实施例中,人工地给训练文档加标记;然而,在其它实施例中,可以自动地给这些文档加标记。可以把训练文档保存在当地或远程数据库中,并且经由各种传送技术而传递给训练模块。
块520需要根据该加标记的名称来从训练文档中提取数据。为此,该示例性实施例利用来自链接模块1272的提取模块来为每个加标记的名称生成名称模板,其中每个模板都包括所提取的名称、所提取的描述符文本、所提取的所在地列表、所提取的机构列表。该名称模板的结构类似于图3中的名称模板340’的结构。
块530需要根据训练数据结构中的名称来搜索一个或多个职业目录。在该示例性实施例中,这需要搜索一个或多个职业目录,并检索具有与名该称模板中的姓相匹配的姓的目录条目以供进一步处理。
块540需要为每个证据变量的每个状态确定条件概率。在该示例性实施例中,这一确定过程需要根据人工标记的文档组的名称模板来为每个比较状态确定频率计数。具体地说,对于已经人工地将加标记的名称匹配到候选记录的情况下,该实施例计算对每个证据变量而言发生每种特定证据状态的次数,所述证据变量是:名称、描述符、所在地和机构。然后,该实施例用对每个证据状态的计数值除匹配的总次数以获得P(Ei|M),即在给定一次匹配的情况下,对于每个状态的条件概率值。更确切地说,该示例性实施例利用一个公式来确定条件概率,该公式如下:
P(Ei=特定状态|M)=a·y/z+(1-a)/x    (13)
其中x表示对应证据变量Ei的证据状态的数目;比如,名称的三种状态;y表示目录记录的数目,其中对于所述目录记录发生特定的状态,例如出现确切匹配;z表示代理人匹配对的总数;a是平滑常数,比如0.999999。
同样,该示例性实施例计算当候选名称与模板名称不匹配时每个证据状态发生的次数,并且除以总失配数以得出对应每个状态的
Figure GSB00000586142600241
即给定在名称上的失配的情况下,特定证据状态匹配的概率。为了减少计算量,一些实施例可以例如通过每十条记录选择一条记录的方式,来对匹配和/或失配的候选记录进行采样。
其它应用
图6示出了对本发明具有除方便对名称的超链接的生成以外的应用的教导。具体来讲,图6示出了体现本发明的教导的操作数据检索系统的示例性方法的流程图600。流程图600包括过程块610-670。
在块610中,该示例性方法从接收对信息的查询开始。在该示例性实施例中,所述查询具有布尔形式或自然语言形式,并且包括实体的名称,比如像人员的名称。在一些实施例中,在客户-服务器环境中,由诸如图1中的其中一个访问设备150这类的客户端计算机或访问设备的用户,向诸如图1中的数据库服务器140这类的服务器提供所述查询。在这些情况下,将该示例性方法并入到服务器上的软件中。然而,在其它实施例中,可以在发送到服务器以待执行以前,(根据该示例性方法)先在客户端一方上接收并处理所述查询。在这种情况下,可以将该示例性方法并入到浏览器、浏览器外接式附件、客户端一方的操作系统或搜索软件中。
块620需要判断该查询或在该查询中的一个或多个项的歧义性。在该示例性实施例中,这需要识别该查询中的至少一个名称并根据如下等式来计算名称唯一性的概率:
P(nameUniqueness)=1/((H·P(name))+1)      (14)
其中H表示可能作为该查询的目标的语料库或数据库中被引用的人类人口的估计大小。估计H的一种方式就是:获得可能被引用的社区语料库的大小并按照某个百分率扩大其比例,以解决对所引用的社区之外的人的必然引用。将P(name)定义为:
P(name)=P(first name)·P(second name)        (15)
其中P(first name)表示从诸如职业目录之类的相关搜索领域中的所有名字当中随机取出该名字的概率,而P(second name)也表示从该领域中的所有姓当中随机取出该姓的概率。
块630根据该查询中已判定的名称(或其它部分)的歧义性,判断是否要请求附加信息来帮助答复所述查询。在该示例性实施例中,这需要将所计算出的名称唯一性的概率与阈值进行比较。如果名称唯一性的概率小于该阈值的话,执行前进至块640;否则继续在块660处执行。
块640需要获得关于查询的附加信息。在一个示例性实施例中,获得附加信息需要向用户请求与查询中一个或多个有歧义的部分相关的附加信息,比如查询中的名称。在一些实施例中,将该请求作为一个对话窗口展示出来,该对话窗口请求与该名称相关联的职业、所在地和/或机构相关的信息。
在另一个实施例,获得附加信息需要自动根据已接收到的查询的一个或多个有歧义的部分(比如,识别出的名称或名称的一部分)来将一个或多个查询公式化,并且针对一个或多个数据库执行查询,所述数据库例如是包括与其它数据相关联的名称的职业目录或其它数据库。例如,一个查询能够请求这样的记录或记录的部分,该记录具有这样的姓,这些姓与在所接收的查询中识别出的名称的姓相匹配。在一个实施例中,记录的部分包括所在地、机构和/或职业称谓信息。在获得附加信息之后,执行前进至块650。
块650需要根据附加信息来改变查询。在一个从用户那里请求附加信息的实施例中,改变查询包括:将附加信息的一个或多个部分添加到该查询,例如,做为一个或多个追加的文本串。然而,其它的一些实施例通过添加搜索操作符(例如AND操作符)和附加信息的一个或多个部分来改变查询。在其它的实施例中,特别是通过运用自动子查询来获得附加信息的实施例中,改变查询包括:添加一个或多个子查询,使用诸如在块650获得的城市、州、机构和职业称谓之类的附加信息。在其它的实施例中,改变查询包括:例如根据附加信息通过添加或删除用于该查询的一个或多个目标数据库来改变搜索的范围。
块660根据初始查询或改变后的查询来进行搜索。在一个示例性实施例中,根据改变后的查询进行搜索需要针对初始目标数据库和/或一个或多个其它数据库执行该搜索。在块670继续执行。
块670需要输出这些查询的结果。在该示例性实施例中,这需要在显示器上输出结果。在一个根据附加信息通过添加子查询来改变接收到的查询的实施例中,输出结果包括在显示屏幕的独立区域中显示初始接收到的查询的结果和子查询的结果。在这个实施例的一些变形中,把两个区域中的结果分等级。
本发明的教导的其它应用包括:根据著名的名称、政治人物、名人来为数据库生成新名称目录,填充当前目录中的空白处,识别或发现目录中的空白处。其它应用包括自动生成个体、企业、资产和公众的档案及前后对照,以及私人记录。
结论
在本技术领域的推动过程中,发明人已经给出了各种不同的示例性系统、方法和软件,它们能方便文档或其它数据结构中的名称与诸如职业目录或其它类型的数据库中的记录之类的数据结构的逻辑关联性。另外,发明人已经给出了用于根据诸如实体名称这类有歧义的查询项来处理和补充查询的各种不同系统、方法和软件。
上面描述的实施例仅仅意在举例说明并讲授实践或实施本发明的一种或多种方式,而非限制其广度或范围。本发明涵盖实践或实施本发明的教导的所有方式的实际范围仅仅由下列权利要求及其等效物来加以限定。

Claims (21)

1.一种用于把超链接添加到包含人名的文档的方法,所述方法包括:
识别文档中的名称;
为所述识别的名称确定罕见性指示符,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;
根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数;以及
根据所述罕见性指示符和所述相似性分数来为所述名称定义超链接。
2.如权利要求1所述的方法,其中:所述名称是人名。
3.如权利要求1所述的方法,其中:所述第一部分是所述名称的名字部分,而所述第二部分是所述名称的姓部分。
4.如权利要求1所述的方法,其中根据所述罕见性指示符为所述名称定义超链接包括:
从所述文档中识别出一个或多个非人名的项;
根据所述名称的至少一部分来识别数据库中的一个或多个候选记录;
将每个候选记录的非人名的项与来自所述文档的非人名的项进行比较;
每次均根据人名的罕见性指示符以及其中一个候选记录的非人名的项的比较,来计算一个或多个量;以及
根据一个或多个计算出的量来定义所述超链接。
5.如权利要求4所述的方法,其中:每次均根据所述人名的罕见性指示符以及其中一个候选记录的非人名的项的比较,来计算一个或多个量,包括使用贝叶斯推理引擎。
6.如权利要求4所述的方法,其中根据所述的一个或多个计算出的量来定义所述超链接,包括:
将所述量与阈值进行比较;以及
根据超过所述阈值的量中最大的一个来定义所述超链接。
7.如权利要求6所述的方法,其中根据超过所述阈值的量中最大的一个来定义所述超链接包括:定义一个超链接以指定与所述量中最大的一个相对应的候选记录。
8.一种用于把超链接添加到包含人名的文档的系统,所述系统包括:
用于识别文档中的名称的装置;
用于为所述识别的名称确定罕见性指示符的装置,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;
用于根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数的装置;以及
用于根据所述罕见性指示符和所述相似性分数来为所述名称定义超链接的装置。
9.如权利要求8所述的系统,其中:所述名称是人名。
10.如权利要求8所述的系统,其中用于根据所述罕见性指示符来为所述名称定义超链接的装置包括:
用于从所述文档中识别出一个或多个非人名的项的装置;
用于根据所述名称的至少一部分来识别数据库中的一个或多个候选记录的装置;
用于将每个候选记录的非人名的项与来自所述文档的非人名的项进行比较的装置;
用于每次均根据所述人名的罕见性指示符以及其中一个候选记录的非人名的项的比较来计算一个或多个量的装置;以及
用于根据一个或多个计算出的量来定义所述超链接的装置。
11.一种用于把超链接添加到包含一个或多个人名的一个或多个文档的组的方法,包括:
识别一个或多个文档的组中的一个或多个人名,其中每个识别出的人名比所述文档中的其它人名在一种职业中更可能指代单个人;
根据识别出的人名来从一个或多个文档中识别描述性语言;
根据识别出的描述性语言的一个或多个部分,来在一个或多个文档内识别指代所述职业中的人的其它人名;
为所述一个或多个人名确定罕见性指示符,其中所述罕见性指示符与从总人口的人名列表中随机取出所述人名的第一部分的概率和从总人口的人名列表中随机取出所述人名的第二部分的概率成反比例;
根据所述罕见性指示符以及所述人名匹配人名模板的条件概率来计算相似性分数;以及
根据所述罕见性指示符和所述相似性分数来为所述一个或多个人名定义超链接。
12.如权利要求11所述的方法,其中根据已识别出的人名来从一个或多个文档中识别出描述性语言,包括:识别与已识别出的人名相关的同位语。
13.如权利要求11所述的方法,其中根据所述文档组中已识别出的人名来从一个或多个文档中识别出描述性语言,包括:
识别一组项,包括:在一个或多个已识别出的人名之前的一个或多个第一项,以及在一个或多个已识别出的人名之后的一个或多个第二项。
14.如权利要求13所述的方法,其中:所述的一个或多个第一项包括一个或多个词类,所述一个或多个第二项包括一个或多个词类。
15.一种用于把超链接添加到包含一个或多个人名的一个或多个文档的组的系统,包括:
用于识别一个或多个文档的组中的一个或多个人名的装置,其中每个识别出的人名都比所述文档中的其它人名在一种职业中更可能指代单个人;
用于根据识别出的人名来从一个或多个文档中识别出描述性语言的装置;以及
用于根据识别出的描述性语言的一个或多个部分来在一个或多个文档内识别出指代所述职业中的人员的其它人名的装置;
用于为所述一个或多个人名确定罕见性指示符的装置,其中所述罕见性指示符与从总人口的人名列表中随机取出所述人名的第一部分的概率和从总人口的人名列表中随机取出所述人名的第二部分的概率成反比例;
用于根据所述罕见性指示符以及所述人名匹配人名模板的条件概率来计算相似性分数的装置;以及
用于根据所述罕见性指示符和所述相似性分数来为所述一个或多个人名定义超链接的装置。
16.一种用于根据实体名称来处理和补充查询的方法,包括:
接收包含实体名称的搜索查询;
确定所述名称的罕见性指示符,其中所述罕见性指示符与从总人口的名称列表中随机取出所述名称的第一部分的概率和从总人口的名称列表中随机取出所述名称的第二部分的概率成反比例;
根据所述罕见性指示符以及所述名称匹配名称模板的条件概率来计算相似性分数;以及
响应于所述罕见性指示符和所述相似性分数而获得附加信息以帮助答复所述查询。
17.如权利要求16所述的方法,其中响应于所述罕见性指示符和所述相似性分数而获得附加信息以帮助答复所述查询,包括:
将所述罕见性指示符与阈值进行比较;以及
如果所述罕见性指示符小于所述阈值,则请求附加信息。
18.如权利要求16所述的方法,进一步包括:
根据所述附加信息来更新所述搜索查询。
19.如权利要求16所述的方法,其中获得附加信息包括:请求与职业、所在地、和/或机构有关的信息。
20.如权利要求16所述的方法,其中响应于所述罕见性指示符和所述相似性分数而获得附加信息以帮助答复所述查询包括:
将所述罕见性指示符与阈值进行比较;以及
根据所述名称来搜索一个或多个数据库;
根据搜索所述一个或多个数据库的结果来更新或补充所述查询。
21.如权利要求20所述的方法,其中更新或补充所述查询包括:
定义一个或多个子查询,每个子查询都包括关于与所述名称相关联的职业称谓、机构或所在地的信息。
CN02828266.3A 2001-12-21 2002-12-20 用于超链接名称的系统、方法和软件版权标记和许可 Expired - Lifetime CN1623146B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US34295601P 2001-12-21 2001-12-21
US60/342,956 2001-12-21
US10/171,170 2002-06-13
US10/171,170 US7333966B2 (en) 2001-12-21 2002-06-13 Systems, methods, and software for hyperlinking names
PCT/US2002/041144 WO2003060767A2 (en) 2001-12-21 2002-12-20 System, method and software for automatic hyperlinking of persons’ names in documents to professional directories

Publications (2)

Publication Number Publication Date
CN1623146A CN1623146A (zh) 2005-06-01
CN1623146B true CN1623146B (zh) 2014-04-02

Family

ID=26866803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02828266.3A Expired - Lifetime CN1623146B (zh) 2001-12-21 2002-12-20 用于超链接名称的系统、方法和软件版权标记和许可

Country Status (10)

Country Link
US (2) US7333966B2 (zh)
EP (3) EP1474759B1 (zh)
JP (2) JP4436909B2 (zh)
CN (1) CN1623146B (zh)
AT (1) ATE530989T1 (zh)
AU (3) AU2002364593B2 (zh)
CA (3) CA2471592C (zh)
ES (1) ES2378653T3 (zh)
NZ (3) NZ567455A (zh)
WO (1) WO2003060767A2 (zh)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US6856679B2 (en) * 2002-05-01 2005-02-15 Sbc Services Inc. System and method to provide automated scripting for customer service representatives
US20040205484A1 (en) * 2002-05-01 2004-10-14 Pennington Stanford E. System and method for dynamically generating customized pages
US7766743B2 (en) * 2002-08-29 2010-08-03 Douglas Schoellkopf Jebb Methods and apparatus for evaluating a user's affinity for a property
WO2004049192A2 (en) 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US7792827B2 (en) * 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
AU2011204902B2 (en) * 2003-12-31 2015-01-15 Thomson Reuters Enterprise Centre Gmbh Systems, Methods, Interfaces And Software For Automated Collection And Integration Of Entity Data Into Online Databases And Professional Directories
ATE551658T1 (de) * 2003-12-31 2012-04-15 Thomson Reuters Glo Resources Systeme, verfahren, schnittstellen und software zur automatisierten sammlung und integration von entitätsdaten in online-datenbanken und professionellen verzeichnissen
US20050149851A1 (en) * 2003-12-31 2005-07-07 Google Inc. Generating hyperlinks and anchor text in HTML and non-HTML documents
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
AR052368A1 (es) 2005-01-28 2007-03-14 Thomson Global Resources Sistema, metodo y software para la integracion de jurisprudencia, escritos y/o documentos de juicios en el volumen de trabajo de un estudio juridico
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
AR056123A1 (es) * 2005-10-04 2007-09-19 Thomson Global Resources Sistemas, metodos y software para determinar la ambiguedad de terminos medicos
US8689134B2 (en) 2006-02-24 2014-04-01 Dana W. Paxson Apparatus and method for display navigation
US8091017B2 (en) * 2006-07-25 2012-01-03 Paxson Dana W Method and apparatus for electronic literary macramé component referencing
US7810021B2 (en) * 2006-02-24 2010-10-05 Paxson Dana W Apparatus and method for creating literary macramés
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
AR062635A1 (es) * 2006-09-01 2008-11-19 Thomson Global Resources Sistema, metodos, software e interfases para dar formato a citas de legislacion
US9026514B2 (en) * 2006-10-13 2015-05-05 International Business Machines Corporation Method, apparatus and article for assigning a similarity measure to names
US10635455B2 (en) * 2007-02-13 2020-04-28 Oracle International Corporation Simplifying understanding of procedure dependencies in a form definition
US20110179344A1 (en) * 2007-02-26 2011-07-21 Paxson Dana W Knowledge transfer tool: an apparatus and method for knowledge transfer
US20140257939A9 (en) * 2007-06-05 2014-09-11 Mark Britton Rating system that characterizes attorneys based on attributes
US7912767B1 (en) * 2007-10-29 2011-03-22 Intuit Inc. Tax preparation system facilitating remote assistance
JP5379155B2 (ja) * 2007-12-06 2013-12-25 グーグル・インコーポレーテッド Cjk名前検出
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
EP2235649A1 (en) * 2007-12-21 2010-10-06 Thomson Reuters Global Resources Entity, event, and relationship extraction
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
JP4693065B2 (ja) * 2008-01-29 2011-06-01 日本電信電話株式会社 人名表現同定装置、その方法、プログラム及び記録媒体
WO2009097558A2 (en) * 2008-01-30 2009-08-06 Thomson Reuters Global Resources Financial event and relationship extraction
US8423882B2 (en) * 2008-02-27 2013-04-16 International Business Machines Corporation Online navigation of choice data sets
US20090248595A1 (en) * 2008-03-31 2009-10-01 Yumao Lu Name verification using machine learning
US8843522B2 (en) 2008-09-15 2014-09-23 Thomson Reuters (Markets) Llc Systems and methods for rapid delivery of tiered metadata
US10346835B1 (en) * 2008-10-07 2019-07-09 United Services Automobile Association (Usaa) Systems and methods for presenting recognizable bank account transaction descriptions compiled through customer collaboration
US8234274B2 (en) * 2008-12-18 2012-07-31 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
US8250124B2 (en) * 2009-01-29 2012-08-21 Hewlett-Packard Development Company, L.P. Assigning content to an entry in directory
US8190538B2 (en) * 2009-01-30 2012-05-29 Lexisnexis Group Methods and systems for matching records and normalizing names
US8949241B2 (en) * 2009-05-08 2015-02-03 Thomson Reuters Global Resources Systems and methods for interactive disambiguation of data
MX2012008714A (es) * 2010-01-29 2013-03-12 Dun & Bradstreet Corp Sistema y metodo para agregado y asociacion de datos de afiliacion profesional con contenido de datos comerciales.
JP5182960B2 (ja) * 2010-03-15 2013-04-17 日本電信電話株式会社 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
AU2011239618B2 (en) * 2010-04-14 2014-08-28 The Dun And Bradstreet Corporation Ascribing actionable attributes to data that describes a personal identity
US11386510B2 (en) 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
US10089390B2 (en) * 2010-09-24 2018-10-02 International Business Machines Corporation System and method to extract models from semi-structured documents
US9104979B2 (en) * 2011-06-16 2015-08-11 Microsoft Technology Licensing, Llc Entity recognition using probabilities for out-of-collection data
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9361131B1 (en) * 2011-06-24 2016-06-07 Amazon Technologies, Inc. Network resource access via a mobile shell
US9454528B2 (en) * 2011-10-17 2016-09-27 Xerox Corporation Method and system for creating ordered reading lists from unstructured document sets
US8812496B2 (en) * 2011-10-24 2014-08-19 Xerox Corporation Relevant persons identification leveraging both textual data and social context
US11455350B2 (en) 2012-02-08 2022-09-27 Thomson Reuters Enterprise Centre Gmbh System, method, and interfaces for work product management
JP5870776B2 (ja) * 2012-03-09 2016-03-01 大日本印刷株式会社 リンク付与装置、リンク付与方法、およびプログラム
CN103365831B (zh) * 2012-03-29 2017-07-21 深圳市世纪光速信息技术有限公司 一种为文本添加超级链接的方法和装置
JP5770753B2 (ja) * 2013-01-15 2015-08-26 グーグル・インコーポレーテッド Cjk名前検出
US10089697B2 (en) * 2013-01-25 2018-10-02 Capital One Services, Llc Systems and methods for extracting information from a transaction description
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US9110869B2 (en) 2013-09-27 2015-08-18 Nokia Technologies Oy Visual representation of a character identity and a location identity
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
US10628411B2 (en) * 2013-11-20 2020-04-21 International Business Machines Corporation Repairing a link based on an issue
US9990340B2 (en) 2014-02-03 2018-06-05 Bluebeam, Inc. Batch generation of links to documents based on document name and page content matching
JP5723472B1 (ja) * 2014-08-07 2015-05-27 廣幸 田中 データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US9535903B2 (en) 2015-04-13 2017-01-03 International Business Machines Corporation Scoring unfielded personal names without prior parsing
US20160371618A1 (en) 2015-06-11 2016-12-22 Thomson Reuters Global Resources Risk identification and risk register generation system and engine
CN106709318B (zh) * 2017-01-24 2019-05-03 腾云天宇科技(北京)有限公司 一种用户设备唯一性的识别方法、装置和计算设备
US10599129B2 (en) * 2017-08-04 2020-03-24 Duro Labs, Inc. Method for data normalization
US11176156B2 (en) * 2019-05-10 2021-11-16 Salesforce.Com, Inc. Efficiently and accurately assessing the number of identifiable records for creating personal profiles
US11861296B2 (en) 2021-09-08 2024-01-02 Google Llc People suggestion in collaborative online text editors

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342942A (zh) * 2000-09-08 2002-04-03 百度在线网络技术(北京)有限公司 中文姓名的计算机识别及检索方法

Family Cites Families (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US174105A (en) * 1876-02-29 Improvement in jig-saws
US3872448A (en) * 1972-12-11 1975-03-18 Community Health Computing Inc Hospital data processing system
US4384288A (en) * 1980-12-31 1983-05-17 Walton Charles A Portable radio frequency emitting identifier
US4799258A (en) 1984-02-13 1989-01-17 National Research Development Corporation Apparatus and methods for granting access to computers
US4575621A (en) * 1984-03-07 1986-03-11 Corpra Research, Inc. Portable electronic transaction device and system therefor
US4817050A (en) * 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
US4893270A (en) * 1986-05-12 1990-01-09 American Telephone And Telegraph Company, At&T Bell Laboratories Medical information system
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4958283A (en) 1987-07-08 1990-09-18 Kabushiki Kaisha Toshiba Method and system for storing and communicating medical image data
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US4878175A (en) 1987-11-03 1989-10-31 Emtek Health Care Systems Method for generating patient-specific flowsheets by adding/deleting parameters
US5157783A (en) 1988-02-26 1992-10-20 Wang Laboratories, Inc. Data base system which maintains project query list, desktop list and status of multiple ongoing research projects
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US5146439A (en) 1989-01-04 1992-09-08 Pitney Bowes Inc. Records management system having dictation/transcription capability
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5860136A (en) * 1989-06-16 1999-01-12 Fenner; Peter R. Method and apparatus for use of associated memory with large key spaces
US5842224A (en) 1989-06-16 1998-11-24 Fenner; Peter R. Method and apparatus for source filtering data packets between networks of differing media
US5418942A (en) * 1989-07-06 1995-05-23 Krawchuk; Kenneth V. System and method for storing and managing information
US5065315A (en) 1989-10-24 1991-11-12 Garcia Angela M System and method for scheduling and reporting patient related services including prioritizing services
US5233513A (en) * 1989-12-28 1993-08-03 Doyle William P Business modeling, software engineering and prototyping method and apparatus
US5253362A (en) 1990-01-29 1993-10-12 Emtek Health Care Systems, Inc. Method for storing, retrieving, and indicating a plurality of annotations in a data cell
US5218697A (en) * 1990-04-18 1993-06-08 Microsoft Corporation Method and system for networking computers having varying file architectures
US5291399A (en) * 1990-07-27 1994-03-01 Executone Information Systems, Inc. Method and apparatus for accessing a portable personal database as for a hospital environment
US5317729A (en) * 1990-10-24 1994-05-31 International Business Machines Corporation Method for the storage of multi-versioned data with retrieval based on searched query
US5297249A (en) * 1990-10-31 1994-03-22 International Business Machines Corporation Hypermedia link marker abstract and search services
US5204947A (en) * 1990-10-31 1993-04-20 International Business Machines Corporation Application independent (open) hypermedia enablement services
US5581460A (en) 1990-11-06 1996-12-03 Kabushiki Kaisha Toshiba Medical diagnostic report forming apparatus capable of attaching image data on report
US5414838A (en) * 1991-06-11 1995-05-09 Logical Information Machine System for extracting historical market information with condition and attributed windows
CA2066559A1 (en) * 1991-07-29 1993-01-30 Walter S. Rosenbaum Non-text object storage and retrieval
US5377323A (en) 1991-09-13 1994-12-27 Sun Microsytems, Inc. Apparatus and method for a federated naming system which can resolve a composite name composed of names from any number of disparate naming systems
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
JP3300391B2 (ja) * 1991-10-11 2002-07-08 株式会社東芝 画像処理装置
US5283884A (en) * 1991-12-30 1994-02-01 International Business Machines Corporation CKD channel with predictive track table
US5490250A (en) * 1991-12-31 1996-02-06 Amdahl Corporation Method and apparatus for transferring indication of control error into data path of data switcher
US5361346A (en) 1992-01-15 1994-11-01 Santa Monica Pioneer Research Inc. Portable tester (qualifier) for evaluating and testing SCSI interface magnetic disc drives in accordance with ANSI SCSI-A and SCSI-2 definitions
US5434974A (en) * 1992-03-30 1995-07-18 International Business Machines Corporation Name resolution for a multisystem network
US5319711A (en) * 1992-08-19 1994-06-07 Gte Laboratories Incorporated Wireless device for verifying identification
US5515534A (en) * 1992-09-29 1996-05-07 At&T Corp. Method of translating free-format data records into a normalized format based on weighted attribute variants
US5459860A (en) 1992-10-05 1995-10-17 International Business Machines Corporation Computerized system and process for managing a distributed database system
US5558638A (en) 1993-04-30 1996-09-24 Healthdyne, Inc. Patient monitor and support system
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5361202A (en) 1993-06-18 1994-11-01 Hewlett-Packard Company Computer display system and method for facilitating access to patient data records in a medical information system
US5506984A (en) * 1993-06-30 1996-04-09 Digital Equipment Corporation Method and system for data retrieval in a distributed system using linked location references on a plurality of nodes
US5438655A (en) * 1993-07-29 1995-08-01 Hewlett-Packard Company Methods and apparatus for updating and antialiasing waveforms
US5477215A (en) * 1993-08-02 1995-12-19 At&T Corp. Arrangement for simultaneously interrogating a plurality of portable radio frequency communication devices
US5806079A (en) 1993-11-19 1998-09-08 Smartpatents, Inc. System, method, and computer program product for using intelligent notes to organize, link, and manipulate disparate data objects
US6339767B1 (en) 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5497317A (en) * 1993-12-28 1996-03-05 Thomson Trading Services, Inc. Device and method for improving the speed and reliability of security trade settlements
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6141663A (en) 1994-03-18 2000-10-31 Unimax Systems Corporation Automatic external data synchronization method
EP0674187B1 (en) * 1994-03-22 1998-02-04 Agfa-Gevaert N.V. Radiation image identifying method
CA2125300C (en) * 1994-05-11 1999-10-12 Douglas J. Ballantyne Method and apparatus for the electronic distribution of medical information and patient services
US5557539A (en) 1994-06-13 1996-09-17 Centigram Communications Corporation Apparatus and method for testing an interactive voice messaging system
US5608900A (en) * 1994-06-21 1997-03-04 Internationl Business Machines Corp. Generation and storage of connections between objects in a computer network
US5535372A (en) * 1994-07-06 1996-07-09 International Business Machines Corporation Method and apparatus for efficient updating of CKD data stored on fixed block architecture devices
US5623652A (en) 1994-07-25 1997-04-22 Apple Computer, Inc. Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network
US5434932A (en) * 1994-07-28 1995-07-18 West Publishing Company Line alignment apparatus and process
US5603025A (en) * 1994-07-29 1997-02-11 Borland International, Inc. Methods for hypertext reporting in a relational database management system
US5629981A (en) * 1994-07-29 1997-05-13 Texas Instruments Incorporated Information management and security system
US5715445A (en) * 1994-09-02 1998-02-03 Wolfe; Mark A. Document retrieval system employing a preloading procedure
US5659676A (en) * 1994-09-20 1997-08-19 International Business Machines Corporation Systems and methods for creating and refreshing compound documents
EP0792493B1 (en) 1994-11-08 1999-08-11 Vermeer Technologies, Inc. An online service development tool with fee setting capabilities
US5630852A (en) * 1994-11-23 1997-05-20 Fmc Corporation Organophosphorus additives for improved fuel lubricity
US5617565A (en) * 1994-11-29 1997-04-01 Hitachi America, Ltd. Broadcast interactive multimedia system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
FR2728088A1 (fr) 1994-12-13 1996-06-14 Inst Nat Rech Inf Automat Procede d'echange d'informations en mode client/serveur, entre stations reliees par un reseau de communication
US5530852A (en) 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
GB9426165D0 (en) 1994-12-23 1995-02-22 Anthony Andre C Method of retrieving and displaying data
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5873077A (en) * 1995-01-13 1999-02-16 Ricoh Corporation Method and apparatus for searching for and retrieving documents using a facsimile machine
WO1996023265A1 (en) 1995-01-23 1996-08-01 British Telecommunications Public Limited Company Methods and/or systems for accessing information
JP2947111B2 (ja) 1995-02-17 1999-09-13 日本電気株式会社 交換機のデータ引き継ぎ方法およびシステム
US5963205A (en) 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US5870770A (en) * 1995-06-07 1999-02-09 Wolfe; Mark A. Document research system and method for displaying citing documents
JP3700733B2 (ja) * 1995-06-12 2005-09-28 富士ゼロックス株式会社 文書管理装置及び文書管理方法
US5740549A (en) * 1995-06-12 1998-04-14 Pointcast, Inc. Information and advertising distribution system and method
US5860073A (en) * 1995-07-17 1999-01-12 Microsoft Corporation Style sheets for publishing system
US5878421A (en) * 1995-07-17 1999-03-02 Microsoft Corporation Information map
US5644720A (en) * 1995-07-31 1997-07-01 West Publishing Company Interprocess communications interface for managing transaction requests
US5942986A (en) * 1995-08-09 1999-08-24 Cedars-Sinai Medical Center System and method for automatic critical event notification
US5745360A (en) * 1995-08-14 1998-04-28 International Business Machines Corp. Dynamic hypertext link converter system and process
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
WO1997012334A1 (en) 1995-09-25 1997-04-03 International Compu Research, Inc. Matching and ranking legal citations
US5740252A (en) * 1995-10-13 1998-04-14 C/Net, Inc. Apparatus and method for passing private demographic information between hyperlink destinations
US5764906A (en) * 1995-11-07 1998-06-09 Netword Llc Universal electronic resource denotation, request and delivery system
US5822539A (en) 1995-12-08 1998-10-13 Sun Microsystems, Inc. System for adding requested document cross references to a document by annotation proxy configured to merge and a directory generator and annotation server
US5754857A (en) * 1995-12-08 1998-05-19 Sun Microsystems, Inc. Distributed asynchronous workflow on the net
US5781900A (en) * 1996-01-02 1998-07-14 Sofmap Future Design, Inc. Flexible hyperlink association system
US5751961A (en) * 1996-01-31 1998-05-12 Bell Communications Research, Inc. Integrated internet system for translating logical addresses of internet documents to physical addresses using integrated service control point
US5862325A (en) * 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5926811A (en) 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5875431A (en) 1996-03-15 1999-02-23 Heckman; Frank Legal strategic analysis planning and evaluation control system and method
US5745908A (en) * 1996-03-29 1998-04-28 Systems Focus International Method for converting a word processing file containing markup language tags and conventional computer code
US5867562A (en) * 1996-04-17 1999-02-02 Scherer; Gordon F. Call processing system with call screening
US5905866A (en) * 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
EP0909414A1 (en) * 1996-05-06 1999-04-21 Adobe Systems Incorporated Internet hyperlink drag and drop
EP0810534B1 (en) 1996-05-13 2003-03-19 Oki Electric Industry Co., Ltd. Document display system and electronic dictionary
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5742181A (en) * 1996-06-04 1998-04-21 Hewlett-Packard Co. FPGA with hierarchical interconnect structure and hyperlinks
US5724595A (en) * 1996-06-19 1998-03-03 Sun Microsystems, Inc. Simple method for creating hypertext links
US5907680A (en) 1996-06-24 1999-05-25 Sun Microsystems, Inc. Client-side, server-side and collaborative spell check of URL's
US5963950A (en) 1996-06-26 1999-10-05 Sun Microsystems, Inc. Method and system for facilitating access to selectable elements on a graphical user interface
US5761436A (en) * 1996-07-01 1998-06-02 Sun Microsystems, Inc. Method and apparatus for combining truncated hyperlinks to form a hyperlink aggregate
US5895461A (en) * 1996-07-30 1999-04-20 Telaric, Inc. Method and system for automated data storage and retrieval with uniform addressing scheme
US6434567B1 (en) 1996-07-30 2002-08-13 Carlos De La Huerga Method for specifying enterprise-wide database address formats
US5903889A (en) * 1997-06-09 1999-05-11 Telaric, Inc. System and method for translating, collecting and archiving patient records
US6345268B1 (en) * 1997-06-09 2002-02-05 Carlos De La Huerga Method and system for resolving temporal descriptors of data records in a computer system
US6308171B1 (en) 1996-07-30 2001-10-23 Carlos De La Huerga Method and system for automated data storage and retrieval
US6516321B1 (en) * 1996-07-30 2003-02-04 Carlos De La Huerga Method for database address specification
US6272505B1 (en) * 1998-07-07 2001-08-07 Carlos De La Huerga Document modification based hyperlink limiting method and apparatus
US6353822B1 (en) * 1996-08-22 2002-03-05 Massachusetts Institute Of Technology Program-listing appendix
JP3773602B2 (ja) 1996-09-18 2006-05-10 株式会社東芝 ハイパーテキスト処理装置及びその方法
US5764916A (en) * 1996-09-27 1998-06-09 Ichat, Inc. Method and apparatus for real time communication over a computer network
US6037944A (en) * 1996-11-07 2000-03-14 Natrificial Llc Method and apparatus for displaying a thought network from a thought's perspective
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6216141B1 (en) * 1996-12-06 2001-04-10 Microsoft Corporation System and method for integrating a document into a desktop window on a client computer
EP0848337A1 (en) 1996-12-12 1998-06-17 SONY DEUTSCHLAND GmbH Server with automatic document assembly
AUPO489297A0 (en) 1997-01-31 1997-02-27 Aunty Abha's Electronic Publishing Pty Ltd A system for electronic publishing
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
AU2002301438B2 (en) 1997-03-18 2006-09-21 Trade Me Limited Vehicle Information System Part 1
US5970505A (en) 1997-03-31 1999-10-19 Sun Mirosystems, Inc. Linking related data in a document set including a plurality of books written by different groups of authors in a computer network
US6038573A (en) * 1997-04-04 2000-03-14 Avid Technology, Inc. News story markup language and system and process for editing and processing documents
US5987454A (en) 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6025844A (en) * 1997-06-12 2000-02-15 Netscape Communications Corporation Method and system for creating dynamic link views
US5974413A (en) 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6073140A (en) 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US5905991A (en) * 1997-08-21 1999-05-18 Reynolds; Mark L System and method providing navigation between documents by creating associations based on bridges between combinations of document elements and software
US6009428A (en) 1997-09-15 1999-12-28 International Business Machines Corporation System and method for providing a single application program interface for heterogeneous databases
US6356922B1 (en) * 1997-09-15 2002-03-12 Fuji Xerox Co., Ltd. Method and system for suggesting related documents
US6091412A (en) * 1997-09-30 2000-07-18 The United States Of America As Represented By The Secretary Of The Navy Universal client device permitting a computer to receive and display information from several special applications
US6256631B1 (en) * 1997-09-30 2001-07-03 International Business Machines Corporation Automatic creation of hyperlinks
US5940843A (en) * 1997-10-08 1999-08-17 Multex Systems, Inc. Information delivery system and method including restriction processing
US6014662A (en) * 1997-11-26 2000-01-11 International Business Machines Corporation Configurable briefing presentations of search results on a graphical interface
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
US6092074A (en) * 1998-02-10 2000-07-18 Connect Innovations, Inc. Dynamic insertion and updating of hypertext links for internet servers
US6263212B1 (en) * 1998-02-17 2001-07-17 Alcatel Usa Sourcing, L.P. Short message service center
US6457028B1 (en) 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
JP3744676B2 (ja) * 1998-03-20 2006-02-15 沖電気工業株式会社 情報抽出装置及びその方法
US6122647A (en) 1998-05-19 2000-09-19 Perspecta, Inc. Dynamic generation of contextual links in hypertext documents
US6529911B1 (en) 1998-05-27 2003-03-04 Thomas C. Mielenhausen Data processing system and method for organizing, analyzing, recording, storing and reporting research results
US6205576B1 (en) * 1998-06-05 2001-03-20 Nortel Networks Limited Method and apparatus for identifying indirect messaging relationships between software entities
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
US7003719B1 (en) 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
CA2367046A1 (en) 1999-03-08 2000-09-28 Alexander Sann Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information
NZ515293A (en) 1999-05-05 2004-04-30 West Publishing Company D Document-classification system, method and software
WO2000077690A1 (en) 1999-06-15 2000-12-21 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US6591261B1 (en) 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置
WO2001022285A2 (en) 1999-09-21 2001-03-29 Borthwick Andrew E A probabilistic record linkage model derived from training data
CA2389375C (en) 1999-11-01 2005-12-20 Lockheed Martin Corporation System and method for the storage and access of electronic data in a web-based computer system
US7216115B1 (en) 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
AU6175100A (en) 1999-11-15 2001-05-30 Openpark Limited A graphic language representation and communication method/system and its application to a graphic navigation method for retrieving information in a computer database and an internet search engine
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6738760B1 (en) 2000-03-23 2004-05-18 Albert Krachman Method and system for providing electronic discovery on computer databases and archives using artificial intelligence to recover legally relevant data
US20010037380A1 (en) * 2000-04-24 2001-11-01 Communityiq.Com Web site hosting model
JP2003532195A (ja) 2000-04-27 2003-10-28 ウエブフイート・インコーポレイテツド 複数の別個のデータベースからサーチ結果を検索する方法およびシステム
US20020019827A1 (en) * 2000-06-05 2002-02-14 Shiman Leon G. Method and apparatus for managing documents in a centralized document repository system
US6507837B1 (en) * 2000-06-08 2003-01-14 Hyperphrase Technologies, Llc Tiered and content based database searching
AR029290A1 (es) 2000-06-28 2003-06-18 American Express Travel Relate Sistema y metodo para integrar datos publicos y privados
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM
US6618717B1 (en) 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
JP4200645B2 (ja) 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
TW548557B (en) * 2000-09-13 2003-08-21 Intumit Inc A method and system for electronic document to have fast-search category and mutual link
WO2002025500A2 (en) * 2000-09-20 2002-03-28 A2I, Inc. Method and apparatus for dynamically formatting and displaying tabular data in real time
JP2004515846A (ja) 2000-10-03 2004-05-27 ラングフォード,ロナルド,エヌ ビジュアル・イメージを利用することによりウェブページを捜し出す方法
CN103793865A (zh) 2000-10-11 2014-05-14 健康三重奏有限责任公司 用于健康护理数据的通信的系统
JP2002140339A (ja) 2000-10-31 2002-05-17 Tonfuu:Kk 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム
US20020087469A1 (en) * 2000-12-28 2002-07-04 Ravi Ganesan Technique of registration for and direction of electronic payments in real-time
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6694331B2 (en) 2001-03-21 2004-02-17 Knowledge Management Objects, Llc Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US20020165856A1 (en) 2001-05-04 2002-11-07 Gilfillan Lynne E. Collaborative research systems
US20030041305A1 (en) * 2001-07-18 2003-02-27 Christoph Schnelle Resilient data links
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP4255239B2 (ja) 2002-03-29 2009-04-15 富士通株式会社 文書検索方法
ATE551658T1 (de) 2003-12-31 2012-04-15 Thomson Reuters Glo Resources Systeme, verfahren, schnittstellen und software zur automatisierten sammlung und integration von entitätsdaten in online-datenbanken und professionellen verzeichnissen

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342942A (zh) * 2000-09-08 2002-04-03 百度在线网络技术(北京)有限公司 中文姓名的计算机识别及检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Christine L.Borgman,Susan L. Scegfried.Getty's Synaname and Its Cousins: A Survey of ApplicationsofPersonal Name-Matching Algorithms.Journal of the American society for information science.1992,459-476. *
Christopher Dozier , Robert Haschart.Automatic Extraction and Linking of PersonNames in LegalText.Proceedings of RIAO.2000,1305-1306,1319.
Christopher Dozier ,Robert Haschart.Automatic Extraction and Linking of Person Namesin LegalText.Proceedings of RIAO.2000,1305-1306,1319.
Christopher Dozier, Robert Haschart.Automatic Extraction and Linking of PersonNames in LegalText.Proceedings of RIAO.2000,1305-1306,1319. *
Christopher Dozier,Robert Haschart.Automatic Extraction and Linking of Person Namesin LegalText.Proceedings of RIAO.2000,1305-1306,1319. *

Also Published As

Publication number Publication date
ES2378653T3 (es) 2012-04-16
AU2002364593B2 (en) 2008-10-02
JP2005539283A (ja) 2005-12-22
CA2924140A1 (en) 2003-07-24
NZ567455A (en) 2009-06-26
US7333966B2 (en) 2008-02-19
EP1474759B1 (en) 2011-10-26
EP2336903A1 (en) 2011-06-22
CA2471592C (en) 2011-12-13
ATE530989T1 (de) 2011-11-15
CA2754006A1 (en) 2003-07-24
EP1474759A2 (en) 2004-11-10
US20080301074A1 (en) 2008-12-04
AU2008212604A1 (en) 2008-10-02
JP5252725B2 (ja) 2013-07-31
CA2471592A1 (en) 2003-07-24
US20030135826A1 (en) 2003-07-17
CN1623146A (zh) 2005-06-01
AU2002364593A1 (en) 2003-07-30
CA2754006C (en) 2016-05-31
WO2003060767A3 (en) 2004-08-26
EP2328101A1 (en) 2011-06-01
WO2003060767A2 (en) 2003-07-24
NZ552575A (en) 2008-06-30
AU2008212267A1 (en) 2008-10-02
JP2009259252A (ja) 2009-11-05
JP4436909B2 (ja) 2010-03-24
NZ534222A (en) 2007-05-31
US9002764B2 (en) 2015-04-07

Similar Documents

Publication Publication Date Title
CN1623146B (zh) 用于超链接名称的系统、方法和软件版权标记和许可
US7831545B1 (en) Identifying the unifying subject of a set of facts
Muslea Extraction patterns for information extraction tasks: A survey
Han et al. Automatic document metadata extraction using support vector machines
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
Islam et al. Applications of corpus-based semantic similarity and word segmentation to database schema matching
Moratanch et al. Anaphora resolved abstractive text summarization (AR-ATS) system
Chi et al. Word segmentation and recognition for web document framework
AU2011253689B2 (en) Systems, methods, and software for hyperlinking names
AU2011253680B2 (en) Systems, methods, and software for hyperlinking names
Winkler et al. Semi-automated XML tagging of public text archives: A case study
Deepak et al. Unsupervised Learning from URL Corpora.
CN113868539A (zh) 一种信息推荐方法及系统
Barcala et al. Information retrieval and large text structured corpora
Tri et al. Applying RST relations to semantic search
Leidner Question answering over unstructured data without domain restrictions
Ioannis-Dimitrios et al. Requirements for domain-specific WordNets
Ramanand et al. Data Engineering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: THOMSO GLOBAL RESOURCE CO.,LTD.

Free format text: FORMER OWNER: DBA WEST GROUP WEST PUBLISHING HOUSE

Effective date: 20070511

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20070511

Address after: Switzerland Zug

Applicant after: THOMSON GLOBAL RESOURCES

Address before: American Minnesota

Applicant before: DBA Western Group Western Publishing House

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Switzerland Zug

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Swiss Swiss

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200415

Address after: Chug, Switzerland

Patentee after: Thomson Reuters Enterprise Center Co.,Ltd.

Address before: Bahr, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20140402