百炼智能姚从磊:在互联网公开信息中「大海捞针」,为一亿机构人物建立「全息档案」

2018-09-29
智能获客营销获客

「全国各行业的销售大概有 8000 万人,他们每天都面临着同样的问题:我的客户在哪里,我如何能接触到我的客户。而百炼的思路是,利用互联网公开信息来解决这一问题,只不过需要非常深度的提取与推理。」百炼智能的 CTO 姚从磊这样介绍他们的产品…

「全国各行业的销售大概有 8000 万人,他们每天都面临着同样的问题:我的客户在哪里,我如何能接触到我的客户。而百炼的思路是,利用互联网公开信息来解决这一问题,只不过需要非常深度的提取与推理。」百炼智能的 CTO 姚从磊这样介绍他们的产品所解决的问题。


成立半年以来,这家主要成员来自北大和清华的人工智能公司已经拿到了总额超过千万元的天使投资,而他们的产品,是一个在前人工智能时代,乃至前计算机时代就必不可少的存在:档案。


八月,机器之心来到了百炼智能,不同于大多数扎堆在五道口与中关村的人工智能创业公司,他们将地址定在了闹中取静的北京朝阳东二环附近,「这里离我们的客户更近」,CTO 姚从磊说。我们聊了聊百炼提供的「基于公开信息的动态全息档案」里包含哪些信息,如何生成,又是如何在场景里获得应用的。


机器之心:资料显示百炼智能希望提供「基于公开信息的动态全息档案」,能否详细介绍一下这个概念?


百炼希望完成的「基于公开信息的动态全息档案」,是利用公开互联网信息建立的以机构和人物为核心的知识图谱。


全息档案是常见于商业调查中的一个词,通常指用多维度的信息对机构和个人进行的刻画,「档案」体现了信息的权威性和信度,「全息」则强调了全时间线与多维度覆盖。「基于公开信息」是指所有的信息都是能够通过爬虫,从 公开互联网中获取的信息,「动态」意味着档案具有时效性,能够跟随公开信息的变化而进行及时的变更。


机器之心:全息档案中都包含哪些维度的信息?


对于公司来说,首先是公司的简介,第二是公司的产品与业务线,第三是其核心团队。核心团队会不限于工商信息中的相关人员,而是全公司具有决策权的人员,以组织结构图的形式体现出来。


除了上述这些基本信息之外,爬取的字段并不是一开始就确定好的、一成不变的。一开始,我们根据自己的产品需求去定义,然而随着 B 端客户逐渐增加,待爬取的字段也随着爬取的过程逐渐扩充,并逐步达到稳定。


对于人物来说,首先是人物介绍,图片,时间经历(timeline),他/她在公开场合发表过的观点,个人动态,以及公开的同乡、同学、同事、同参加商业活动等类型的社会关系。


机器之心:如何建立全息档案?


建立全息档案的技术框架包括 Web 索引层、知识图谱层和应用层三部分。



Web 索引层是我们逐步做出的一个「搜索引擎」,每天不断爬取互联网中的网页,留下可能与我们感兴趣的机构——我们称为种子机构——相关的部分,经过爬取、解析、清洗、建立索引等步骤入库,向上方的知识图谱层提供接口。


知识图谱层首先会进行命名实体提取与关系分类。


命名实体提取需要从索引中获取与种子机构相关的每一个网页。「种子机构」列表相当于一张在爬取过程中不断变长的名单。从最大型的央企、上市公司以及各领域中的知名公司、各大知名院校开始,在和它们相关的每一个网页中,知识图谱层都会提取出新的命名实体,包括机构、人物,也包括时间、地点。其中尚未出现在「种子机构」名单中的机构,会以迭代循环的方式加入到名单中。而在一个预定长度的窗口内同时出现的任意两个命名实体,则会对其关系进行分类。


由于网络公开信息是杂乱且可信度存疑的,因此在提取和分类后,系统会对提取出来的命名实体、关系和属性信息进行清洗,过滤掉错误的信息,解决冲突,构建知识图谱。根据一些事先确定好的规则,系统也会在知识图谱上进行关系的推理和扩展。例如,两个人是同一个学校、同一个院系毕业,则二者被定义为具有「同系关系」。再比如,两个机构的核心团队成员关系很密切,则视为两个机构存在密切关系。


机器之心:能否举例说明实体提取的输入输出分别是什么?



例如,在上文的新闻网页文本内容中,包含了「链家集团」、「融创中国」、「新希望」等机构,以及「左晖」、「孙宏斌」、「张明贵」等人物。我们希望得到的序列标注输出是,所有非机构和人物的词,比如「公开」、「资料」等,对应的标签都是 UNK,而所有机构和人物中的词,比如「融创」、「中国」等,对应的标签都是机构和人物的相应类型。


机器之心:能否具体说明选用的实体提取与关系分类的技术解决方案?


实体提取/关系分类的解决方案有两种。一种是经典的管道式(pipeline),首先用序列标注的思路来解决命名实体提取问题,再用分类的思路来解决实体关系提取问题。另一种是将实体提取和关系提取统一表述为序列标注问题,用序列标注的解决思路(LSTM+CNN)来统一处理两个问题。


为了确保知识图谱的高质量和可产品化,我们使用了优化后的管道式的处理逻辑:即,在实体提取之后,利用基于第三方数据源训练的分类器剔除错误的实体,以保证在进入到关系提取之前,实体准确率在 95% 以上。


我们的实体提取与分类框架如下图所示:



框架的输入是经过基础分词的词序列,以及其中一些词对应的 HTML 标签信息,包括超链接、字体信息和颜色信息等。每一个词经过词嵌入(word embedding)扩展为词向量后,与 HTML 标签信息一起组成了完整代表每一个词的向量。词向量经过 BiLSTM 层,利用 BiLSTM 的双向序列建模能力,捕捉一个词与前后词序列的相关关系,将每一个词扩展为包含了上下文信息的高维向量。最后,把高维向量输入直链 CRF 层(Linear-chain CRF)层,输出每一个词的对应标签。


词嵌入向量和 HTML 标签向量中拥有丰富的决策所需的信息,而通过整合 BiLSTM 全面刻画上下文时序信息的能力和 CRF 的序列标注建模能力,上述框架的表达能力是非常高的。


机器之心:在实体提取和关系分类的基础上继续进行推理的目的是?


我们将推理机制称为「时空碰撞」。比如两个公司的负责人,并没有代表各自公司在公开场合有交集,但是他们分别于 1999 年和 2000 年加入清华电子系的一个特定实验室,那么我们会认为他们之间有比较强的关联关系。

通过时空碰撞,我们可以为上一步基于事实的知识图谱建立许多新的边,让关系图谱更加细致与密集。


推理工作的难点在于分布式索引:当知识图谱规模变大后,理论上每一个新增的机构和人物都需要和现有图谱之中的所有已知机构和人物进行关系计算和推理,但是这会让计算量指数级的增加。因此我们需要比较好的索引技术,能够快速地定位与新增的公司与个人真正相关的部分节点,以及因为新节点的接入而关系发生变化的原节点。


机器之心:能否给出一些「动态全息档案」的应用场景?


公司现在主要在做销售场景。


我们正在和某著名快消公司进行合作。该公司正在面向企业客户推广一种新零售解决方案,因此它的销售团队希望告诉销售员,应该去当前区域内的哪家公司进行推广、和哪位负责人联系进行推广。


针对第一个问题,我们从公司的全息档案中利用所在地理位置、规模、员工平均年龄、收入水平、学历水平和企业风险等信息,查找切分出「公司规模相对较大、福利较好,愿意接受新零售方案,同时员工平均年龄较低、平均收入较高,是特定产品的消费者」这样的一部分。


针对第二个问题,我们从公开信息中找到公司的行政方面的负责人是谁,告诉销售,这位是你需要联系的负责购买决策的关键人士,并提供触达该关键人物的关系路径。


除此之外,我们也在打磨一个面向销售的线上产品。这个产品能够在短时间内综合各种公开互联网信息,绘制公司组织架构图,定位关键负责人。同时,找到能够连接特定销售与特定的负责人之间的中间人,让销售能够通过中间人的信任背书与负责人建立联系。


机器之心:选择做全息档案的原因?


首先,现在互联网的信息规模是十几年前的几百倍,很多信息出现在互联网上,变成可以发现。其次,许多技术,尤其是 NLP 技术的发展,使得从大量非结构化信息中抽取有效结构化信息的难度降低。


另一方面,全国各行业的销售人员大概有 8000 万,即使能够覆盖到 30%,也是一个非常庞大的规模。而且我们的整套「全息档案」的技术与服务的模式是可以扩展的,不止局限于销售场景,还有很多其他的场景可以应用。


机器之心:「动态全息档案」期望涵盖多少公司与个人?


一开始我们会觉得「多多益善」,但是逐渐我们发现,一份好的「动态全息档案」更多应该是场景驱动的、领域驱动的。


因此我们主要从金融、教育、医疗和快消这些领域入手,选择具有一定规模的、所处领域比较活跃的公司。成立以来,现在我们覆盖的企业数量在 100 万左右,人员超过 1000 万。而按照我们的统计与估计,全国符合条件的公司多达数百万家。一家数百人规模的公司中,拥有决策权的需要覆盖的人数大约在数十人左右。除此之外,我们还要覆盖「如何能够找到一个特定的人」的关系链上的所有人,综合起来,大约需要覆盖 1 亿人。

上一篇   「百炼智能」产品落地,构建“关系链图谱”

下一篇   双博士、双CTO创业,百炼智能为“AI+信息搜索”找到了商用场景

提交成功

我们将在2个工作日内联系您,并为您开通试用账号

北京百炼智能科技有限公司商务合作联系
个人信息保护政策

欢迎您和我们联系!
请您在填写商务合作联系信息前仔细阅读《百炼智能商务合作联系个人信息保护政策》(以下简称“《个人信息保护政策》”)。
本政策仅适用于北京百炼智能科技有限公司官方网站、微信小程序以及微信公众号中商务合作联系功能。
生效日期:2020年11月26日
最近更新和发布日期:2020年11月26日
如果您对我们的《个人信息保护政策》有任何疑问、建议、投诉或举报,请通过以下联系方式与我们联系:
电子邮件: support@bailian.ai
电 话: 010-64934028
本政策将帮助您了解以下内容:
商务合作联系的个人信息收集使用规则
我们如何保护您的个人信息
您的权利
我们如何处理儿童的个人信息
您的个人信息如何在全球范围转移
本政策如何更新
如何联系我们
百炼智能深知个人信息对您的重要性,并会尽全力保护您的个人信息安全可靠。我们致力于维持您对我们的信任,恪守以下原则,保护您的个人信息:权责一致原则、目的明确原则、选择同意原则、最小必要原则、确保安全原则、主体参与原则、公开透明原则等。同时,百炼智能承诺,我们将按业界成熟的安全标准,采取相应的安全保护措施来保护您的个人信息。

一、《个人信息保护政策》的制定目的

感谢您选择和我们合作。为了满足您的商务合作需求,我们需要您留下包括联系方式在内的个人资料。我们希望通过我们的《个人信息保护政策》让您清楚地了解我们对信息的收集、使用方式,以及您可采用什么方式来保护自己的个人信息。如果您不同意我们的《个人信息保护政策》,请勿点击同意按钮或继续填写个人资料。如您在点击同意按钮后,完成个人资料的填写并提交,将视为您已经充分理解并完全接受我们的《个人信息保护政策》,并同意我们通过您提交的个人资料和您联系,接洽合作事宜。

二、《个人信息保护政策》的更新

我们的《个人信息保护政策》将根据产品和服务范围的变化适时更新和调整。当法律法规和监管政策发生变化时,《个人信息保护政策》将随之调整以符合法律法规和政策的要求。我们的个人信息保护政策可能变更。未经您明确同意,我们不会削减您按照本个人信息保护政策所应享有的权利。我们会在本页面上发布对本政策所做的任何变更。
对于重大变更,我们还会提供更为显著的通知,我们会通过电子邮件发送通知,说明个人信息保护政策的具体变更内容。
本政策所指的重大变更包括但不限于:
1、我们的服务模式发生重大变化。如处理个人信息的目的、处理的个人信息类型、个人信息的使用方式等;
2、我们在所有权结构、组织架构等方面发生重大变化。如业务调整、破产并购等引起的所有者变更等;
3、个人信息共享、转让或公开披露的主要对象发生变化;
4、您参与个人信息处理方面的权利及其行使方式发生重大变化;
5、我们负责处理个人信息安全的责任部门、联络方式及投诉渠道发生变化时;
6、个人信息安全影响评估报告表明存在高风险时。
我们还会将本政策的旧版本存档,供您查阅。
如果您不同意更改后的《个人信息保护政策》,请您立即和我们的工作人员联系,我们将及时彻底删除您提交所有的个人资料,但同时也无法继续和您保持联系。

三、信息搜集使用规则
1、我们收集哪些您的个人信息
我们收集并使用您用于商务合作联系的个人资料,是为了保证我们的工作人员及时和您取得联系,以满足您和百炼智能进行商务合作、媒体合作、产品试用或其他合作的需求,个性化您对百炼的体验和与之的互动,以建立和管理您与百炼的商务合作关系并为您提供更好的服务。
必要的联系信息。您选择通过商务合作联系功能和我们取得联系,则需要向我们提供或允许我们收集的必要信息包括:您的姓名、用于商务联系的电话和邮箱、您任职的公司和在公司的职务。共计5类个人信息。
您还可以自主选择【需求描述】中填写并向我们提供更详细的资料。这些信息也可能包括您或他人的个人信息。这并非该业务功能运行所必需,但您对商务合作需求的具体描述对我们了解您的商务合作需求、改善我们的服务质量等有非常重要的意义。我们并未强制要求您提供这些信息,您可以自行选择如何填写。

2、我们如何使用您的个人信息
对于必要的个人信息,我们会用来和您取得联系,以及时回应您的商务合作需求。
对于非必要的个人信息,我们的工作人员或阅读和分析,以更精准地定位您的合作需求。

3、我们如何委托处理、共享、转让、公开披露您的个人信息
(1)委托处理
本商务合作联系的某些具体的模块或功能由外部供应商提供。例如我们会聘请服务提供商来协助我们提供客户支持。对我们委托处理个人信息的公司、组织和个人,我们会与其签署严格的保密协定,要求他们按照我们的要求、本个人信息保护政策以及其他任何相关的保密和安全措施来处理个人信息。
(2)共享
我们不会与本公司以外的任何公司、组织和个人分享您的个人信息,除非获得您的明确同意。
我们可能会根据法律法规规定,或按政府主管部门的强制性要求,对外共享您的个人信息。
(3)转让
我们不会将您的个人信息转让给任何公司、组织和个人,但以下情形除外:
a) 在获取明确同意的情况下转让:获得您的明确同意后,我们会向其他方转让您的个人信息;
b) 在涉及合并、收购或破产清算时,如涉及到个人信息转让,我们会在要求新的持有您个人信息的公司、组织继续受此个人信息保护政策的约束,否则我们将要求该公司、组织重新向您征求授权同意。
(4)公开披露
我们仅会在以下情形下,公开披露您的个人信息:
a) 获得您明确同意后;
b) 基于法律的披露:在法律、法律程序、诉讼或政府主管部门强制性要求的情况下,我们可能会公开披露您的个人信息。

4、请审慎填写和提交您的个人信息!
我们尊重并保护您的隐私,请您在填写和提交个人资料时尽量避免涉及您的个人隐私或敏感信息,请确认您填写和提交的电话和邮箱均系用于商务合作联系的目的,以免我们的同事和您联系时打扰到您的私人生活。

四、个人信息保护规则
我们如何保护您的个人信息
(一)我们已使用符合业界标准的安全防护措施保护您提供的个人信息,防止数据遭到未经授权访问、公开披露、使用、修改、损坏或丢失。我们会采取一切合理可行的措施,保护您的个人信息。
(二)我们已经取得了以下认证:国家信息系统安全等级保护”三级
(三)我们会采取一切合理可行的措施,确保未收集无关的个人信息。我们只会在达成本政策所述目的所需的期限内(通常不超过12个月)保留您的个人信息,除非需要延长保留期或受到法律的允许。
(四)我们将定期更新并公开安全风险、个人信息安全影响评估等报告的有关内容。您可通过以下方式获得:(1)登录访问我们的网页;(2)及时联系我们的客服(电话: 010-64934028 ;电子邮件: support@bailian.ai )。
(五)互联网环境并非百分之百安全,我们将尽力确保或担保您发送给我们的任何信息的安全性。如果我们的物理、技术、或管理防护设施遭到破坏,导致信息被非授权访问、公开披露、篡改、或毁坏,导致您的合法权益受损,我们将承担相应的法律责任。
(六)在不幸发生个人信息安全事件后,我们将按照法律法规的要求,及时向您告知:安全事件的基本情况和可能的影响、我们已采取或将要采取的处置措施、您可自主防范和降低风险的建议、对您的补救措施等。我们将及时将事件相关情况以邮件、信函、电话、推送通知等方式告知您,难以逐一告知个人信息主体时,我们会采取合理、有效的方式发布公告。同时,我们还将按照监管部门要求,主动上报个人信息安全事件的处置情况。

五、个人信息权利的告知
请关注您的权利
按照中国相关的法律、法规、标准,以及其他国家、地区的通行做法,我们保障您对自己的个人信息行使以下权利:
(一)访问您的个人信息
您可以随时使用我们的 Web 表单联系,或发送电子邮件至 support@bailian.ai ,我们将在15天内回复您的访问请求。
对于您在使用我们的产品或服务过程中产生的其他个人信息,只要我们不需要过多投入,我们会向您提供。如果您想行使数据访问权,请发送电子邮件至 support@bailian.ai
(二)更正您的个人信息
当您发现我们处理的关于您的个人信息有错误时,您有权要求我们作出更正。您可以随时使用我们的 Web 表单联系,或发送电子邮件至 support@bailian.ai ,我们将在15天内回复您的更正请求。
(三)删除您的个人信息
在以下情形中,您可以向我们提出删除个人信息的请求:
1、如果我们处理个人信息的行为违反法律法规;
2、如果我们收集、使用您的个人信息,却未征得您的同意;
3、如果我们处理个人信息的行为违反了与您的约定。
若我们决定响应您的删除请求,我们还将同时通知从我们获得您的个人信息的实体,要求其及时删除,除非法律法规另有规定,或这些实体获得您的独立授权。当您从我们的服务中删除信息后,我们可能不会立即在备份系统中删除相应的信息,但会在备份更新时删除这些信息。
(四)改变您授权同意的范围
每个业务功能需要一些基本的个人信息才能得以完成。对于额外收集的个人信息的收集和使用,您可以随时给予或收回您的授权同意。您可以随时使用我们的 Web 表单联系,或发送电子邮件至 support@bailian.ai
当您收回同意后,我们将不再处理相应的个人信息。但您收回同意的决定,不会影响此前基于您的授权而开展的个人信息处理。
如果您不想接受我们给您发送的商业合作信息,您随时使用我们的 Web 表单联系,或发送电子邮件至 support@bailian.ai
(五)约束信息系统自动决策
在某些业务功能中,我们可能仅依据信息系统、算法等在内的非人工自动决策机制作出决定。如果这些决定显著影响您的合法权益,您有权要求我们作出解释,我们也将提供适当的救济方式。
(六)响应您的上述请求
为保障安全,您可能需要提供书面请求,或以其他方式证明您的身份。我们可能会先要求您验证自己的身份,然后再处理您的请求。我们将在15天内作出答复。如您不满意,还可以通过以下途径投诉:电话: 010-64934028 ;电子邮件: support@bailian.ai
对于您合理的请求,我们原则上不收取费用,但对多次重复、超出合理限度的请求,我们将视情收取一定成本费用。对于那些无端重复、需要过多技术手段(例如,需要开发新系统或从根本上改变现行惯例)、给他人合法权益带来风险或者非常不切实际(例如,涉及备份磁带上存放的信息)的请求,我们可能会予以拒绝。
在以下情形中,我们将无法响应您的请求:
1、与个人信息控制者履行法律法规规定的义务相关的;
2、与国家安全、国防安全直接相关的;
3、与公共安全、公共卫生、重大公共利益直接相关的;
4、与刑事侦查、起诉、审判和执行判决等直接相关的;
5、个人信息控制者有充分证据表明个人信息主体存在主观恶意或滥用权利的;
6、出于维护个人信息主体或其他个人的生命、财产等重大合法权益但又很难得到本人同意的;
7、响应个人信息主体的请求将导致个人信息主体或其他个人、组织的合法权益受到严重损害的;
8、涉及商业秘密的。

六、未成年人的个人信息的处理
我们的产品、网站和服务主要面向商务组织和商务人士。我们不搜集或接收未成年人的个人信息。尽管当地法律和习俗对未成年人的定义不同,但我们将不满 18 周岁的任何人均视为未成年人。
如果我们发现自己在未事先获得可证实的父母同意的情况下收集了儿童的个人信息,则会设法尽快删除相关数据。

七、您的个人信息如何在全球范围转移
原则上,我们在中华人民共和国境内收集和产生的个人信息,将存储在中华人民共和国境内。
由于我们通过遍布全球的资源和服务器提供产品或服务,这意味着,在获得您的授权同意后,您的个人信息可能会被转移到您使用产品或服务所在国家/地区的境外管辖区,或者受到来自这些管辖区的访问。
此类管辖区可能设有不同的数据保护法,甚至未设立相关法律。在此类情况下,我们会确保您的个人信息得到在中华人民共和国境内足够同等的保护。例如,我们会请求您对跨境转移个人信息的同意,或者在跨境数据转移之前实施数据去标识化等安全举措。

八、《个人信息保护政策》的执行和监督
我们会定期检查本《个人信息保护政策》的执行情况。如果您对我们的《个人信息保护政策》有任何疑问、建议、投诉或举报,请联系我们(电话: 010-64934028 ;电子邮件: support@bailian.ai )。
一般情况下,我们将在十五天内回复。
如果您对我们的回复不满意,特别是我们的个人信息处理行为损害了您的合法权益,希望您能和我们联系,我们将秉持最大善意寻求协商解决。如争议无法通过协商解决,您还可以向政府相关管理机构投诉或通过仲裁、诉讼等争议解决方式