首页>行情 >内容

从8亿篇部落文大数据炼金更要靠AI打造一条龙服务

行情2021-02-18 14:11:16
最佳答案Pixnet研发中心副总经理黄凯泽 (摄影/洪政伟)

Pixnet研发中心副总经理黄凯泽 (摄影/洪政伟)

16年前,正值网际网路兴起的高峰,痞客邦刊出了第一篇部落格文章。16年后的今天,累积了8.1亿篇文章,涵盖食、衣、住、行各类生活议题,每天还不断产生2亿笔用户行为资料。Pixnet研发中心副总经理黄凯泽笑说,如此庞大的数据,就是最大优势,「我们要用这个优势,成为台湾食衣住行最具权威的嚮导。」

十年酝酿数据炼金,一年转亏为盈

诞生于2003年的痞客邦,是Pixnet优像数位媒体旗下最成功的服务之一,更是台湾最老牌、最受欢迎的社群网站,不仅坐拥上亿篇吃喝玩乐部落客文章,这个数量每天还在增加中。根据国际流量排名网站Alexa,痞客邦造访流量仅次于Google和YouTube,是台湾第三名。

人气如此旺盛的痞客邦,虽然替Pixnet带来响亮名声,却没办法交出亮眼的成绩单。好几年来,公司营收并不理想,而自痞客邦上线以来,内部也一直酝酿着,要利用大数据分析来开发新服务的想法,但一直没有採取行动,迟迟犹豫是否要从部落格平台营运商,转型为大数据分析公司。

直到6年前,公司面临极大的营运压力,Pixnet执行长周守珍却毅然决然决定,要投入数据人力、成立资料团队,来发展大数据分析平台。「当时,大家内心很忐忑,」黄凯泽解释:「因为发展新服务,不只是人员、业务的调整,而是要投资一大笔钱来重整IT基础架构,根本不知道能不能回本。」

即便如此,团队还是如火如荼地执行了。这个大数据平台的目标很简单,就是锁定痞客邦网站访客和部落格文章,分析这两者的特徵,挖掘出访客兴趣、找出社群趋势,来进行加值服务,比如推荐文章、广告或商品等。

数据分析系统建置之初,黄凯泽表示,团队先以痞客邦部落格分类机制为基础,人工定义了138个指标(Index),比如年纪、性别、兴趣等,再进一步以自然语言处理(NLP)方法,将部落格文章自动分类到相对应的指标,同时也针对访客行为特徵来分类,再推荐文章给拥有同指标的访客。

「但是,兴趣会随着潮流快速改变,指标失準的速度越来越快,甚至不到2个月就不适用了。」黄凯泽指出,这个现象,让团队不得不放弃人为定义指标的方法,改採关係网路分析(SNA),透过演算法来计算访客本身以及与文章互动的参数,将拥有相似行为、兴趣的访客群聚在一起,形成独特的兴趣群,并根据群的链结,自动产生该群的兴趣名称,比如美白、馒头、生酮饮食等。「慢慢地我们不需要人为介入,纯粹以数据看数据,不必每3个月就校正一次,」他说。除了用更精準的方法来挖掘社群趋势,团队还透过10种演算法来推荐内容。

在应用层面上,大数据分析平台从兴趣挖掘出发,用来推荐部落格文章之外,还能根据特定受众,衍生出广告推荐、商品推荐、市场趋势分析等应用。「数据分析平台上线隔年,企业营收就由负转正。」Pixnet也在接下来几年,陆续推出独立的社群商务服务、广告行销服务平台,以痞客邦经年累月的巨量资料为基础,瞄準精準行销市场,量身打造出口碑调查、消费者行为剖析、广告投递、行销建议等服务,行销操作的细緻程度,远胜于传统只靠网站曝光度的效果。

如果痞客邦的巨量资料是石油,那么这套大数据平台,就是Pixnet的数据石油炼金术。

重整IT储存架构,积极上云抢攻即时分析

为进行大量资料分析,Pixnet在资料储存架构上也有自己的设计。黄凯泽指出,起初,团队将资料分别储存于AWS Redshift云端资料仓储,以及本地端机房的储存系统。其中,Redshift存放了超过百亿笔的使用者浏览记录(Log)等分析性资料,而本地机房则是储存网站资料的元资料(Metadata)。

当时採取这个设计的考量是,研发团队希望将主要资料和较常更新的资料存放于本地端资料仓储,而需要后续分析的资料,则转移到Redshift上。

不过,随着时间推进,越来越多业务讲求即时分析、即时行销,这让原本Pixnet的储存架构,越来越难满足速度的要求。「以前,大数据分析平台以分析离线资料为主,」黄凯泽表示,这些作业通常从半夜2点开始,分析前一天的网站浏览资料,早上产出深度分析报告,作为当天内容推荐的参考。

但是,「现在要进行即时内容推荐,不可能花一天来分析。」他强调, Pixnet的目标是,即便单日高达2亿笔访客浏览资料,也要在20秒内完成每位访客的贴标、分类,然后精準推荐内容。

于是,近几年,团队重新调整了储存架构,将资料储存分为3部分,分别储存在Google云端平台(GCP)、本地端储存系统,以及Google的BigQuery数据分析仓储,要借重云端大数据平台的内建功能,来缩短架设基础架构时间和资料分析时间。

在资料配置上,原本网站的元资料、部落格文章及图片等,仍旧存放于自家内部机房。至于原本存放于Redshift的分析性资料,现在搬迁到了GCP。黄凯泽表示,BigQuery提供的数据分析工具,可以让资料分析、模型训练等作业更便利,再加上内建完善的基础架构,团队不需要重新建置,就能快速使用。

不只如此,就连在查询(Query)速度上,也有显着的差异。他举例,假设团队要从过去1个月(相当于60亿笔)的访客浏览记录中,查询特定资料,透过MySQL资料库须花上整整1个月才查得到;但透过BigQuery,「几10秒就完成了,」再再突显速度的差异性。

虽然BigQuery带来即时分析所需的快速与便利,但也所费不赀。黄凯泽话锋一转指出,传统机器虽然慢,但容易计算使用的资源成本。相比之下,云端服务虽然快,却难以衡量运算资源,导致团队在使用初期,产生了极大成本。

后来,他发现,云端费用与资料储存位置有关,经过1、2个月尝试,黄凯泽制定出一套资料储存机制,根据资料特性来分别梳理,再储存至对应的位置,才逐渐降低了使用成本。

专职资料分析团队,不只懂数据还要让数据说话

即便资料分析技术再厉害,也要搭起向外沟通的桥樑,才能释放资料分析的价值。─── Pixnet研发中心副总经理 黄凯泽 (摄影/洪政伟)

有了储存架构的调整,Pixnet发展大数据的另一关键,就是新设的资料分析团队。这个团队由12人组成,隶属于研发中心,下设3个小组,分别是资料工程小组、演算法小组、资料分析小组。

就工作职掌来说,资料工程小组负责后端作业,包括架构处理、资料梳理等,负责将痞客邦一天产生的上亿笔资料,进行梳理、存放至对应的资料仓储中,打好资料分析的基础。

接着,就轮到演算法小组出场。这个小组的目标,是要利用这些处理过的资料,来设计、开发模型。

再来,就是黄凯泽今年初指定成立的资料分析小组。「这个组很特别,因为小组成员兼具数据背景,以及业务领域背景,来负责对外沟通。」他解释,Pixnet许多业务,是以研发团队的大数据分析成果为基础,需要懂数据的人来解释才有效果。但过去,对外沟通由后端资料工程师负责,「他们对机器、架构等工程领域较为熟悉,对数据解读较不拿手,」因此与其他部门沟通时,常显得力不从心。黄凯泽坦言,这也是他上任后遇到的最大困难。

后来,为改善这个问题,他设立了一个「角色超然」的资料分析师小组,做为桥樑,来与内部业务部门沟通,必要时也会向外部客户解说,「以对方听得懂的语言,来解释数据分析的结果。」

不只如此,为更进一步强化沟通效果,资料分析小组还採用了开源视觉化工具Gephi,将社群兴趣资料的分析结果,以画面和影片方式呈现,将资料视觉化,让听众更容易理解。

举例来说,资料分析团队曾探索对美食感兴趣的目标受众,当时,资料分析师就利用Gephi,从痞客邦整体的社群兴趣星云中,锁定出对食谱非常有兴趣的社群星群。这些社群同样由密密麻麻的小点凝聚而成,群中的每一点,代表一位使用者,点上显示着年龄和最显着的兴趣,只要与其他点拥有共同兴趣,就会产生连结;要是点与点颜色相同,就表示强大的连结力。

这个方法,有助于锁定内容投递的对象。因为,「同一个产品需求,来自许多受众,」黄凯泽解释,比如从痞客邦的食谱族群中,还能延伸出美食、减肥、生酮饮食族群,甚至是癌症,要是投递相关内容,就可锁定这些族群。

对Pixnet来说,资料视觉化之后,不只可以彰显示资料分析的价值,更能让数据自己来说话。

多方探索AI可能性,目标要成为食衣住行权威嚮导

不只在大数据分析上下功夫,这几年,研发中心也在探索AI的各种可能。比如去年,研发团队打造一款美食语音问答机器人,爬梳站内15万篇餐厅美食文章,利用国产的中研院自动断词工具CKIP,以及Google语音辨识系统,整理出2,500家餐厅名称、400多万个句子、3千多个关键字,以及7万多个食物名称,并用这些资料和迁移学习,来训练聊天机器人AI模型。这款聊天机器人的準确率达92%,团队也持续优化中。

另外,研发中心也聚焦另一个AI领域:电脑视觉。黄凯泽指出,痞客邦不只有巨量文字资料,还有数十亿张的影像。于是,团队利用站内大量美食图片,来训练AI模型,学习辨识餐厅环境和菜单。虽然仍处于研究阶段,黄凯泽透露,模型已能準确辨识餐厅内外部,以及特定料理,比如义大利餐点等。

之后,Pixnet还考虑运用这个模型,设计一套自动选图工具,可以在进行内容推荐时,不只能自动选出符合叙述的照片,还要能挑出部落格中,人气最高的图片作为代表。

Pixnet从6年前跨入大数据分析事业至今,黄凯泽揭露,未来还要往一条龙服务商迈进。他指出,痞客邦拥有大量美食、旅游、美妆和3C等内容,每天吸引许多访客浏览;在他看来,「每一次浏览,都代表使用者的潜在需求,」比如查看自由行文章的访客,可能计画出国,对住宿、机票等就可能感兴趣。

瞄準这一点,研发中心正强化即时推荐演算法,不只要快速推荐精準的内容,还要包办使用者搜寻、浏览、评比的需求,甚至要在痞客邦站上,直接提供消费、订位功能,打造一站式服务,「要成为台湾最具权威的生活百科嚮导。」

 

CTO小档案

黄凯泽

Pixnet研发中心副总经理

学历:台湾大学资讯工程研究所博士

经历:曾任讯舟科技物联网事业群总经理、凌通科技(凌阳集团)IC设计处处长,于2018年加入Pixnet,担任研发中心副总经理一职,带领研发中心开发AI与大数据分析产品面,要提供更好的使用体验。另一方面,也积极与交通大学、成功大学等学术单位进行产学合作交流。

 

公司档案

Pixnet优像数位媒体科技

● 地址:台北市中山区民生东路三段51号12楼

● 成立时间:2003年

● 主要业务:以社群为核心,发展痞客邦社群服务、PIXinsight大数据分析系统、广告行销平台PIXmarketing、社群商务服务PIXgoods

● 网址:www.pixnet.net

● 员工数:约150人

● 执行长:周守珍

● 研发部门名称:Pixnet研发中心

● 研发部门人数:47人

● 研发部门分工:分为平台组、行动组、网站组、前端组、SRE组、软体测试组、研究组。平台组负责Pixnet旗下各产品的功能开发,研究组成员包含大数据资料工程师、演算法工程师、资料分析师,负责大数据资料分析及AI演算法。

研发部门大事记

● 2006年:成立技术研发部,由全端工程师负责开发、营运各项平台产品

● 2010年:设置平台组、软体测试组、前端组、行动组等

● 2013年:投入人力开发大数据分析平台PIXinsight

● 2014年:社群大数据平台PIXinsight正式上线

● 2016年:中心成立研究组,负责资料分析、AI演算法研发

● 2017年:社群商务服务PIXgoods上线

● 2018年:全新痞客邦上线,推出会员经验值制度

● 2019年:痞客邦App与广告行销平台PIXmarketing上线,成立资料分析师小组

免责声明:本文由用户上传,如有侵权请联系删除!