CN102486791A - 书签智能分类的方法和服务器 - Google Patents

书签智能分类的方法和服务器 Download PDF

Info

Publication number
CN102486791A
CN102486791A CN201010580033XA CN201010580033A CN102486791A CN 102486791 A CN102486791 A CN 102486791A CN 201010580033X A CN201010580033X A CN 201010580033XA CN 201010580033 A CN201010580033 A CN 201010580033A CN 102486791 A CN102486791 A CN 102486791A
Authority
CN
China
Prior art keywords
classification
bookmark
address
keyword
chained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010580033XA
Other languages
English (en)
Inventor
关磊
莫沙
颜伽艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010580033XA priority Critical patent/CN102486791A/zh
Priority to PCT/CN2011/082620 priority patent/WO2012075884A1/zh
Publication of CN102486791A publication Critical patent/CN102486791A/zh
Priority to US13/910,478 priority patent/US9106698B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • H04L61/3015Name registration, generation or assignment

Abstract

本发明提出了一种书签智能分类的方法和服务器,属于计算机技术领域。本发明的方法包括:获取请求分类的书签链接地址;对请求分类的书签链接地址进行分类处理;将分类结果作为书签类别,返回至客户端。本发明的服务器包括:获取模块,分类模块,返回模块。本发明通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。

Description

书签智能分类的方法和服务器
技术领域
本发明涉及计算机技术领域,特别涉及一种书签智能分类的方法和服务器。
背景技术
随着互联网技术的发展,通过浏览器访问网站是人们获取资讯查找资料的最主要方式。在使用浏览器的过程中,人们通常会将经常访问或需特别关注的网站和网站中的网页进行收藏保存,以便在今后的使用过程中,快捷方便的找到所需内容。
现有技术中浏览器对于收藏的书签的管理大部分基于用户手动管理。例如用户自行对书签进行类别的创建,用户自行判断存储的每一条书签的类别,并将每一条书签手动进行归类处理。
在对现有技术进行分析后,发明人发现现有技术至少具有如下缺点:
现有技术中浏览器对书签不能进行自动的归类处理,需要用户自行对类别判断以及对判断后的归类处理。对于用户来说,既耗费时间又降低了对浏览器使用的体验。
发明内容
本发明实施例提供了一种书签智能分类的方法和服务器。所述技术方案如下:
本发明实施例提出了一种书签智能分类的方法,包括:
获取请求分类的书签链接地址;
对请求分类的书签链接地址进行分类处理;
将分类结果作为书签类别,返回至客户端。
作为上述技术方案的优选,所述对请求分类的书签链接地址进行分类处理之前包括:
预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
作为上述技术方案的优选,所述对请求分类的书签链接地址进行分类处理包括:
将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配;
若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,将所述匹配的链接地址对应的网址类别作为分类结果。
作为上述技术方案的优选,所述将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配,之后包括:
若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
作为上述技术方案的优选,所述对请求分类的书签链接地址进行分类处理,具体包括:
从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
作为上述技术方案的优选,所述对请求分类的书签链接地址进行分类处理,具体包括:
如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,将默认分类作为分类结果。
本发明实施例还提出了一种书签智能分类的服务器,包括:
获取模块,用于获取请求分类的书签链接地址;
分类模块,用于对请求分类的书签链接地址进行分类处理;
返回模块,用于将分类结果作为书签类别,返回至客户端。
作为上述技术方案的优选,所述分类模块之前还包括:
预设置模块,用于执行所述分类模块之前,预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
作为上述技术方案的优选,所述分类模块包括:
第一分类单元,用于将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配;
第一匹配单元,用于若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,将所述匹配的链接地址对应的网址类别作为分类结果。
作为上述技术方案的优选,所述第一分类单元之后,还包括:
第一生成单元,用于执行所述第一分类单元之后,若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
第二匹配单元,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
作为上述技术方案的优选,所述分类模块还包括:
第二生成单元,用于从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
第三匹配单元,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
作为上述技术方案的优选,所述分类模块还包括:
默认处理单元,用于如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,将默认分类作为分类结果。
本发明实施例提供的技术方案的有益效果是:通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是为本发明实施例1提供的书签智能分类的方法流程示意图;
图2是为本发明实施例2提供的书签智能分类的方法流程示意图;
图3是为本发明实施例3提供的书签智能分类的服务器结构示意图;
图4是为本发明实施例4提供的书签智能分类的服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明第一实施例提出了一种书签智能分类的方法,其流程如图1所示,包括:
步骤101、获取请求分类的书签链接地址;
步骤102、对请求分类的书签链接地址进行分类处理;
步骤103、将分类结果作为书签类别,返回至客户端。
本发明实施例中,通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。
实施例2
本发明第二实施例是在第一实施例的基础上改进而来,其流程如图2所示,包括:
步骤201、分类服务器获取请求分类的书签链接地址。
具体的,当用户在使用浏览器进行收藏网页时,浏览器会将所述网页的书签链接地址发送至服务器端,利用服务器端强大的计算能力,对书签进行自动分类。
其中,分类服务器即书签智能分类的服务器。
步骤202、分类服务器预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
具体的,预先设置若干网址类别,例如:科技、教育、娱乐、博客等。并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
进一步的,目前在自然语言处理方向上,文本的表示主要采用向量空间模型,因为自然语言的原始形式不适合直接使用数学方法处理,也因此难以实现自然语言的自动处理。向量空间模型的思想就是用向量的形式来描述文本,(W1,W2,W3......Wm),其中Wm为第m个特征项的权重,特征项可以选择词或词组,一般情况下选取词作为特征项要优于词组。因此,要将所选取的特征项以作为向量空间中的每一个向量。由这些特征项作为向量的维数来表示文本,用词频来表示特征项对应的向量分量,词频计算方法主要运用TF-IDF公式:
W ( t , d ) = tf ( t , d ) × log ( N / n i + 0.01 ) Σ i = 1 m [ tf ( t , d ) × log ( N / n i + 0.01 ) ] 2
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为训练文本的总数,ni为训练文本集中出现t的文本数,i=1,2,...,m(m为词的个数),分母为归一化因子。TF-IDF是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
进一步的,对预设的每一个网址类别中所对应的每一个关键词通过所述TF-IDF公式计算它的权重。将同一词库中所有词的权重组合起来构成所述词库的N维向量,N代表词库中关键词的个数。可以表示为:(词1权重,词2权重,词3权重,词4权重,。。。。,词N权重)由每一个关键词的权重构成所述预置的网址类别向量,用于和用户收藏的网页书签进行相似度的计算。
步骤203、分类服务器对请求分类的书签链接地址进行分类处理。
具体的,服务器端收到客户端发送的请求分类的书签链接地址后,由均衡负载服务器将所述请求分类的书签链接地址分配至不同的分类服务器进行分类处理。
进一步的,本发明实施例通过三种方式对书签进行分类,第一种方式是先对通过链接库进行匹配,第二种方式是若匹配不到则通过向量空间模型与预设类别的关键词进行相似度比较得到分类结果,第三种方式不进行链接的匹配,直接通过向量空间模型与预设类别的关键词进行相似度比较得到分类结果。因此,步骤203可以具体为:
步骤2031、架设均衡负载服务器减轻分类服务器压力。
具体的,服务器端在分类服务器集群之前架设了一个均衡负载服务器来平衡分类服务器的压力。具体用于接收由客户端发送来的请求分类的书签链接地址,然后将所述链接地址根据已配置的均衡策略在分类服务器集群中分发,并对服务器可用性进行维护。
步骤2032、分类服务器将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配。
具体的,分类服务器接收到来自负载均衡服务器分配的请求分类的书签链接地址后,首先将所述链接地址在所述链接库中进行域名匹配。域名是由一串用点分隔的名字组成的网络上某一台计算机或计算机组的名称。
步骤2033、若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,分类服务器将所述匹配的链接地址对应的网址类别作为分类结果。
具体的,进行域名的匹配可找到大部分已知的域名,将所述匹配的链接地址对应的网址类别作为分类结果,可以执行步骤204将分类结果返回客户端。
例如:用户保存的书签链接地址的域名是cnbeta.com,预先在链接库中记录cnbeta.com并将此域名对应到科技新闻类别。服务器端接收到来自客户端的请求后在链接库中匹配到此域名,并找到此域名相对应的网址类别为科技新闻,将此类别返回给客户端。
进一步的,若用户保存的书签链接地址在所述链接库中没有匹配到,则执行步骤2034。
步骤2034、若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,分类服务器从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
因此,步骤2034可以具体为:
步骤20341、抓取书签链接地址对应的网页的关键信息。
具体的,若用户保存的书签链接地址在所述链接库中没有匹配到,说明分类服务器对所述链接地址没有进行收录,无法通过已知的信息判断这个网站是何种类型。那么此时分类服务器会对这个链接地址对应的页面进行分析,自行判断其网站的类型。
进一步的,分类服务器会对所述链接地址进行访问,抓取网页的关键信息,找到网页中的标题,关键词和具体的网页内容等关键信息,并返回到分类服务器进行分析。其中抓取网页信息的方法为现有技术,本发明实施例中并不对此做出限定。
步骤20342、对所述关键信息进行分词生成关键词。
具体的,对抓取来所述关键信息进行中文分词,生成关键词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分类服务器会对分词后的词语进行分析其所属的类别。其中中文分词的方法为现有技术,本发明实施例中并不对此做出限定。
步骤20343、计算所述生成的关键词的向量。
具体的,按照步骤202中所述TF-IDF公式计算关键词中每一个词的权重,得到一个所述生成的关键词的向量(词1权重,词2权重,词3权重,词4权重,...,词N权重)。
步骤2035、分类服务器将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
具体的,使用计算机代替人工对文档或文献等对象进行分类,一般包括自动聚类和自动分类。自动聚类和自动分类的主要区别就是自动聚类不需要事先定义好分类体系,计算相似度,自动聚类方法不需要服务器端预先采集分类的特征词库以及链接地址,但是效果会比自动归类结果差。自动分类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。
在本发明实施例中采用的是自动分类方法通过文本向量空间模型对抓取并分词后网页的关键信息进行计算,确定其所属类型的方法。在进行分类计算之前已经预先确定好了类别体系,并且为每个类别提供了所对应的词库作为训练文集。对文本的分类是在给定的分类体系下,根据文本的内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。
进一步的,将所述生成的关键词的向量分别与所有网址类别的向量计算相似度,得到的所有相似度值按大小排列,可以判断所述书签链接地址所对应的网页属于相似度最大的值所对应的网址类别。
所述计算两个对比文本的相似度是用它们对应向量的夹角的余弦值来表示,计算公式为:
Sim ( d i , d j ) = cos θ = Σ k = 1 n w ik × w jk ( Σ k = 1 n w ik 2 ) ( Σ k = 1 n w jk 2 )
其中,Wik、Wjk分别表示文本di和dj第K个特征项的权值,Sim(di,dj)为两个文本di和dj的相似度。
当然,通过相似度的比较只是确定类别的一种方式,还可以通过其他方式来确定类别,本发明实施例中并不对此做出限定。
步骤2036、分类服务器从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
具体的,对客户端发送来的请求分类的书签链接地址进行分类处理的过程,也可以不进行链接库的匹配,直接进行相似度计算的过程。因此,步骤2036可以具体为:
步骤20361、抓取书签链接地址对应的网页的关键信息。
步骤20362、对所述关键信息进行分词生成关键词。
步骤20363、计算所述生成的关键词的向量。
进一步的,步骤2036与步骤2034方法构思和原理相同,故在这里不再赘述。
步骤2037、分类服务器将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
具体的,步骤2037与步骤2035方法构思和原理相同,故在这里不再赘述。
步骤2038、如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,分类服务器将默认分类作为分类结果。
具体的,若所述书签链接地址通过分类服务器的匹配与计算后,都没有得到结果,那么将此书签的类别归属到默认分类返回给客户端。
步骤204、分类服务器将分类结果作为书签类别,返回至客户端。
具体的,在上述过程中对书签链接地址进行了链接库匹配或/和文本相似度计算,将分类结果返回至客户端。
通过分类服务器的匹配或计算,得到所述书签链接地址的类别,将所述类别返回到均衡负载服务器,再通过均衡负载服务器返回到客户端的浏览器。浏览器在收到所述书签链接地址的类别后,将按照接收到的类别将该书签自动的整理到所述类别文件夹下,从而完成对用户书签的智能整理与分类。
进一步的,若所述书签链接地址通过分类服务器的匹配与计算后,都没有得到结果,那么将此书签的类别归属到默认分类并返回给客户端,客户端将此类未完成分类的书签放在默认分类目录下。
本发明实施例中,通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的。另外对于与预先设置的链接库未匹配到的书签链接地址,通过对书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词,将所述关键词与预置的网址类别所对应的关键词进行相似度计算,从而得到对应的相似度最大的类别,作为所述书签链接地址的类别,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。
实施例3
本发明第三实施例提出了一种书签智能分类的服务器,其结构如图3所示,包括:
获取模块1,用于获取请求分类的书签链接地址;
分类模块2,用于对请求分类的书签链接地址进行分类处理;
返回模块3,用于将分类结果作为书签类别,返回至客户端。
本发明实施例中,通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。
实施例4
本发明第四实施例是在第三实施例的基础上改进而来,其结构如图4所示,书签智能分类的服务器包括:获取模块1、分类模块2和返回模块3,还可以包括预设置模块4。
获取模块1,用于获取请求分类的书签链接地址。
具体的,当用户在使用浏览器进行收藏网页时,浏览器会将所述网页的书签链接地址发送至服务器端,利用服务器端强大的计算能力,对链接进行自动分类。
预设置模块4,用于执行所述分类模块2之前,预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
具体的,预先设置若干网址类别,例如:科技、教育、娱乐、博客等。并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
进一步的,对预设的每一个网址类别中所对应的每一个关键词通过TF-IDF公式计算它的权重。将同一词库中所有词的权重组合起来构成所述词库的N维向量,N代表词库中关键词的个数。可以表示为:(词1权重,词2权重,词3权重,词4权重,。。。。,词N权重)由每一个关键词的权重构成所述预置的网址类别向量,用于和用户收藏的网页书签进行相似度的计算。
分类模块2,用于对请求分类的书签链接地址进行分类处理。
具体的,分类模块2包括第一分类单元22和第一匹配单元23;或者,分类模块2包括第一生成单元24和第二匹配单元25;或者,分类模块2包括第二生成单元26和第三匹配单元27。进一步的,分类模块2还可以包括减压单元21。
减压单元21,用于架设均衡负载服务器减轻云端服务器压力。
具体的,服务器端在分类服务器集群之前架设了一个均衡负载服务器来平衡分类服务器的压力。具体用于接收由客户端发送来的请求分类的书签链接地址,然后将所述链接地址根据已配置的均衡策略在分类服务器集群中分发,并对服务器可用性进行维护。
第一分类单元22,用于将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配。
具体的,分类服务器接收到来自负载均衡服务器分配的请求分类的书签链接地址后,首先将所述链接地址在所述链接库中进行域名匹配。域名是由一串用点分隔的名字组成的网络上某一台计算机或计算机组的名称。
第一匹配单元23,用于若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,将所述匹配的链接地址对应的网址类别作为分类结果。
具体的,进行域名的匹配可找到大部分已知的域名,将所述匹配的链接地址对应的网址类别作为分类结果。
第一生成单元24,用于执行所述第一分类单元之后,若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词。
具体的,第一生成单元24可以具体为:
第一抓取子单元241,用于抓取书签链接地址对应的网页的关键信息。
具体的,若用户保存的书签链接地址在所述链接库中没有匹配到,说明分类服务器对所述链接地址没有进行收录,无法通过已知的信息判断这个网站是何种类型。那么此时分类服务器会对这个链接地址对应的页面进行分析,自行判断其网站的类型。
进一步的,分类服务器会对所述链接地址进行访问,抓取网页的关键信息,找到网页中的标题,关键词和具体的网页内容等关键信息,并返回到分类服务器进行分析。其中抓取网页信息的方法为现有技术,本发明实施例中并不对此做出限定。
第一生成子单元242,用于对所述关键信息进行分词生成关键词。
具体的,对抓取来所述关键信息进行中文分词,生成关键词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分类服务器会对分词后的词语进行分析其所属的类别。其中中文分词的方法为现有技术,本发明实施例中并不对此做出限定。
第一计算子单元243,用于计算所述生成的关键词的向量。
具体的,通过TF-IDF公式计算关键词中每一个词的权重,得到一个所述生成的关键词的向量(词1权重,词2权重,词3权重,词4权重,。。。。,词N权重)。
第二匹配单元25,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
进一步的,将所述生成的关键词的向量分别与所有网址类别的向量计算相似度,得到的所有相似度值按大小排列,可以判断所述书签链接地址所对应的网页属于相似度最大的值所对应的网址类别。
第二生成单元26,用于从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词。
具体的,对客户端发送来的请求分类的书签链接地址进行分类处理的过程,也可以不进行链接库的匹配。
进一步的,第二生成单元26可以具体为:
第二抓取子单元261,用于抓取书签链接地址对应的网页的关键信息;
第二生成子单元262,用于对所述关键信息进行分词生成关键词;
第二计算子单元263,用于计算所述生成的关键词的向量。
进一步的,第二生成单元26与第一生成单元24地方法构思和原理相同,故在这里不再赘述。
第三匹配单元27,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
具体的,第三匹配单元27与第二匹配单元25方法构思和原理相同,故在这里不再赘述。
默认处理单元28,用于如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,将默认分类作为分类结果。
返回模块3,用于将分类结果作为书签类别,返回至客户端。
具体的,通过分类服务器的匹配或计算,得到所述书签链接地址的类别,将所述类别返回到均衡负载服务器,再通过均衡负载服务器返回到客户端的浏览器。浏览器在收到所述书签链接地址的类别后,将按照接收到的类别将该书签自动的整理到所述类别文件夹下,从而完成对用户书签的智能整理与分类。
进一步的,若所述书签链接地址通过分类服务器的匹配与计算后,都没有得到结果,那么将此书签的类别归属到默认分类并返回给客户端,客户端将此类未完成分类的书签放在默认分类目录下。
本发明实施例中,通过获取请求分类的书签链接地址,对请求分类的书签链接地址进行分类处理,将分类结果作为书签类别,返回至客户端,达到对书签智能分类的目的。另外对于与预先设置的链接库未匹配到的书签链接地址,通过对书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词,将所述关键词与预置的网址类别所对应的关键词进行相似度计算,从而得到对应的相似度最大的类别,作为所述书签链接地址的类别,从而摆脱用户手动整理书签带来的时间耗费,同时为用户带来更好的浏览器使用体验。
本发明实施例第三和第四实施例的服务器,与前述的第一和第二实施例的方法构思和原理相同,因此在第三和第四实施例中对与第一和第二实施例中相同的部分不再赘述。
本发明实施例所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,网站,或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种书签智能分类的方法,其特征在于,所述方法包括:
获取请求分类的书签链接地址;
对请求分类的书签链接地址进行分类处理;
将分类结果作为书签类别,返回至客户端。
2.根据权利要求1所述的一种书签智能分类的方法,其特征在于,所述对请求分类的书签链接地址进行分类处理,之前包括:
预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
3.根据权利要求2所述的一种书签智能分类的方法,其特征在于,所述对请求分类的书签链接地址进行分类处理,具体包括:
将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配;
若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,将所述匹配的链接地址对应的网址类别作为分类结果。
4.根据权利要求3所述的一种书签智能分类的方法,其特征在于,所述将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配,之后包括:
若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
5.根据权利要求2所述的一种书签智能分类的方法,其特征在于,所述对请求分类的书签链接地址进行分类处理,具体包括:
从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
6.根据权利要求2所述的一种书签智能分类的方法,其特征在于,所述对请求分类的书签链接地址进行分类处理,具体包括:
如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,将默认分类作为分类结果。
7.一种书签智能分类的服务器,其特征在于,所述服务器包括:
获取模块,用于获取请求分类的书签链接地址;
分类模块,用于对请求分类的书签链接地址进行分类处理;
返回模块,用于将分类结果作为书签类别,返回至客户端。
8.根据权利要求7所述的一种书签智能分类的服务器,其特征在于,所述服务器还包括:
预设置模块,用于执行所述分类模块之前,预先设置网址类别,并设置与所述网址类别对应的关键词或/和链接地址,所述预设的链接地址组成链接库。
9.根据权利要求8所述的一种书签智能分类的服务器,其特征在于,所述分类模块包括:
第一分类单元,用于将所述请求分类的书签链接地址在所述链接库中进行链接地址匹配;
第一匹配单元,用于若所述链接库中存在与所述请求分类的书签链接地址匹配的链接地址,将所述匹配的链接地址对应的网址类别作为分类结果。
10.根据权利要求9所述的一种书签智能分类的服务器,其特征在于,所述分类模块还包括:
第一生成单元,用于执行所述第一分类单元之后,若所述链接库中不存在与所述请求分类的书签链接地址匹配的链接地址,从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
第二匹配单元,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
11.根据权利要求8所述的一种书签智能分类的服务器,其特征在于,所述分类模块包括:
第二生成单元,用于从所述请求分类的书签链接地址对应的网页抓取关键信息,并对所述关键信息进行分词生成关键词;
第三匹配单元,用于将生成的关键词与每一网址类别对应的预设关键词进行相似度比较,并将相似度最大的预设关键词对应的网址类别作为分类结果。
12.根据权利要求8所述的一种书签智能分类的服务器,其特征在于,所述分类模块包括:
默认处理单元,用于如果预设的网址类别中没有与所述请求分类的书签链接地址匹配的网址类别,将默认分类作为分类结果。
CN201010580033XA 2010-12-06 2010-12-06 书签智能分类的方法和服务器 Pending CN102486791A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010580033XA CN102486791A (zh) 2010-12-06 2010-12-06 书签智能分类的方法和服务器
PCT/CN2011/082620 WO2012075884A1 (zh) 2010-12-06 2011-11-22 书签智能分类的方法和服务器
US13/910,478 US9106698B2 (en) 2010-12-06 2013-06-05 Method and server for intelligent categorization of bookmarks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010580033XA CN102486791A (zh) 2010-12-06 2010-12-06 书签智能分类的方法和服务器

Publications (1)

Publication Number Publication Date
CN102486791A true CN102486791A (zh) 2012-06-06

Family

ID=46152284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010580033XA Pending CN102486791A (zh) 2010-12-06 2010-12-06 书签智能分类的方法和服务器

Country Status (3)

Country Link
US (1) US9106698B2 (zh)
CN (1) CN102486791A (zh)
WO (1) WO2012075884A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298614A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种确定网页收藏信息的收藏分类的方法、装置和设备
CN102902796A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN102902788A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN103324669A (zh) * 2013-05-20 2013-09-25 北京奇虎科技有限公司 一种对网页书签进行处理的方法和客户端
CN103577492A (zh) * 2012-08-09 2014-02-12 腾讯科技(深圳)有限公司 网页主页生成方法及装置
CN103853730A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 控制网络链接快捷方式分类的方法和系统
CN104809234A (zh) * 2015-05-11 2015-07-29 中国联合网络通信集团有限公司 浏览器书签的处理方法及终端
CN105224533A (zh) * 2014-05-28 2016-01-06 北京搜狗科技发展有限公司 浏览器收藏夹整理方法和装置
CN105653571A (zh) * 2015-07-31 2016-06-08 广州市动景计算机科技有限公司 书签存储及书签操作指令的响应方法、浏览器
CN105989109A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种显示应用详情的方法及装置
CN106528838A (zh) * 2016-11-23 2017-03-22 北京小米移动软件有限公司 书签保存方法和装置
CN107193814A (zh) * 2016-03-14 2017-09-22 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
CN107436907A (zh) * 2016-05-27 2017-12-05 中国联合网络通信集团有限公司 网络文本分类整合方法及装置
CN108287848A (zh) * 2017-01-10 2018-07-17 中国移动通信集团贵州有限公司 用于语义解析的方法和系统
CN108959316A (zh) * 2017-05-24 2018-12-07 北京搜狗科技发展有限公司 一种将网页添加至收藏夹的方法和装置
CN102929963B (zh) * 2012-10-11 2019-03-29 北京百度网讯科技有限公司 一种网址类型的设置方法及系统
CN109918587A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 网页书签管理方法、装置、电子设备及存储介质
CN112148841A (zh) * 2020-09-30 2020-12-29 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置
CN112148841B (zh) * 2020-09-30 2024-04-19 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645545B2 (en) * 2010-11-24 2014-02-04 International Business Machines Corporation Balancing the loads of servers in a server farm based on an angle between two vectors
US9060203B2 (en) * 2013-10-16 2015-06-16 International Business Machines Corporation Personalized categorization of television programming
US10157235B2 (en) 2015-06-30 2018-12-18 Microsoft Technology Licensing, Llc Automatic grouping of browser bookmarks
CN105677815B (zh) * 2015-12-30 2019-07-16 Oppo广东移动通信有限公司 一种网页书签添加方法及终端
CN106202312B (zh) * 2016-07-01 2019-10-18 天翼智慧家庭科技有限公司 一种用于移动互联网的兴趣点搜索方法和系统
US11210357B2 (en) 2018-09-17 2021-12-28 International Business Machines Corporation Automatically categorizing bookmarks from customized folders and implementation based on web browsing activity
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5801702A (en) * 1995-03-09 1998-09-01 Terrabyte Technology System and method for adding network links in a displayed hierarchy
US6100890A (en) * 1997-11-25 2000-08-08 International Business Machines Corporation Automatic bookmarks
US6832350B1 (en) * 1998-09-30 2004-12-14 International Business Machines Corporation Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria
US6275862B1 (en) * 1999-01-06 2001-08-14 International Business Machines Corporation Automatic categorization of bookmarks in a web browser
US6574625B1 (en) * 2000-09-12 2003-06-03 International Business Machines Corporation Real-time bookmarks
US20030101216A1 (en) * 2001-11-29 2003-05-29 International Business Machines Corporation Apparatus and method of linking sub-folders in a bookmark folder
US20040205499A1 (en) * 2001-11-29 2004-10-14 International Business Machines Corporation Apparatus and method of organizing bookmarked web pages into categories
WO2005008527A1 (ja) * 2003-07-16 2005-01-27 Fujitsu Limited 動的にカテゴライズされるブックマーク管理装置
US7747937B2 (en) * 2005-08-16 2010-06-29 Rojer Alan S Web bookmark manager

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOMINIK BENZ.ETC: "Automatic Bookmark Classification:A Collaborative Approach", 《WWW2006》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298614B (zh) * 2011-07-29 2015-04-22 百度在线网络技术(北京)有限公司 一种确定网页收藏信息的收藏分类的方法、装置和设备
CN102298614A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种确定网页收藏信息的收藏分类的方法、装置和设备
CN103577492A (zh) * 2012-08-09 2014-02-12 腾讯科技(深圳)有限公司 网页主页生成方法及装置
CN103577492B (zh) * 2012-08-09 2018-07-06 腾讯科技(深圳)有限公司 网页主页生成方法及装置
CN102902796A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN102902788A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN102902796B (zh) * 2012-09-29 2016-07-06 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN102902788B (zh) * 2012-09-29 2016-07-06 北京奇虎科技有限公司 浏览器网页标签自动分组系统及方法
CN102929963B (zh) * 2012-10-11 2019-03-29 北京百度网讯科技有限公司 一种网址类型的设置方法及系统
CN103853730A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 控制网络链接快捷方式分类的方法和系统
CN103853730B (zh) * 2012-11-29 2018-09-21 腾讯科技(深圳)有限公司 控制网络链接快捷方式分类的方法和系统
CN103324669A (zh) * 2013-05-20 2013-09-25 北京奇虎科技有限公司 一种对网页书签进行处理的方法和客户端
CN105224533A (zh) * 2014-05-28 2016-01-06 北京搜狗科技发展有限公司 浏览器收藏夹整理方法和装置
CN105224533B (zh) * 2014-05-28 2019-09-03 北京搜狗科技发展有限公司 浏览器收藏夹整理方法和装置
CN105989109A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种显示应用详情的方法及装置
CN105989109B (zh) * 2015-02-12 2019-10-25 Oppo广东移动通信有限公司 一种显示应用详情的方法及装置
CN104809234A (zh) * 2015-05-11 2015-07-29 中国联合网络通信集团有限公司 浏览器书签的处理方法及终端
CN104809234B (zh) * 2015-05-11 2018-02-23 中国联合网络通信集团有限公司 浏览器书签的处理方法及终端
CN105653571A (zh) * 2015-07-31 2016-06-08 广州市动景计算机科技有限公司 书签存储及书签操作指令的响应方法、浏览器
CN107193814A (zh) * 2016-03-14 2017-09-22 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
CN107193814B (zh) * 2016-03-14 2020-07-31 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
CN107436907A (zh) * 2016-05-27 2017-12-05 中国联合网络通信集团有限公司 网络文本分类整合方法及装置
CN106528838A (zh) * 2016-11-23 2017-03-22 北京小米移动软件有限公司 书签保存方法和装置
CN108287848A (zh) * 2017-01-10 2018-07-17 中国移动通信集团贵州有限公司 用于语义解析的方法和系统
CN108959316A (zh) * 2017-05-24 2018-12-07 北京搜狗科技发展有限公司 一种将网页添加至收藏夹的方法和装置
CN108959316B (zh) * 2017-05-24 2021-08-20 北京搜狗科技发展有限公司 一种将网页添加至收藏夹的方法和装置
CN109918587A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 网页书签管理方法、装置、电子设备及存储介质
CN112148841A (zh) * 2020-09-30 2020-12-29 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置
CN112148841B (zh) * 2020-09-30 2024-04-19 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置

Also Published As

Publication number Publication date
WO2012075884A1 (zh) 2012-06-14
US9106698B2 (en) 2015-08-11
US20130297827A1 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
CN102486791A (zh) 书签智能分类的方法和服务器
CN107807987B (zh) 一种字符串分类方法、系统及一种字符串分类设备
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
US8108204B2 (en) Text categorization using external knowledge
CN102799647A (zh) 网页去重方法和设备
US20070294223A1 (en) Text Categorization Using External Knowledge
CN112257419B (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN101930438A (zh) 一种搜索结果生成方法及信息搜索系统
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN110309446A (zh) 文本内容快速去重方法、装置、计算机设备及存储介质
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
CN103810264A (zh) 基于特征选择的网页文本分类方法
Ibrahim et al. Term frequency with average term occurrences for textual information retrieval
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN111241410B (zh) 一种行业新闻推荐方法及终端
Li et al. Snippet-based unsupervised approach for sentiment classification of Chinese online reviews
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111882224A (zh) 对消费场景进行分类的方法和装置
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN103389987A (zh) 文本相似性比较方法及系统
Ma et al. A probabilistic semantic approach for discovering web services
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120606