当前位置: > 专业技术 >

专业技术

江苏广电总台全国两会报道新闻云平台(4)

发布时间:2016-04-18 文章来源:慧聪广电网:董全武
 
    采集的深度与广度
 
    平台除了采集互联网门户信息外,还采集了新媒体——微博的数据,采集的内容包括文本、视频和图片,采集的方式更是有针对性的实现栏目级别的采集,既使采集的内容更符合用户需求,也使采集的深度、广度进一步扩大。
 
    内容汇聚平台的功能及特点如下:
 
    内容采集系统,是整个平台的数据基石,采用专业爬虫系统有针对性的、实时采集内容、加工内容并完成内容的入库与发布至平台,可根据用户需求实时新增采集站点。
 
    数据清洗和过滤,对于爬取的数据中的“脏数据”进行清洗和过滤。发现并纠正数据文件中可识别的错误,检查内容的一致性,处理无效值、重复值和缺失值等。
 
    数据仓储和信息索引,经过处理和分类的数据将被存储在不同的数据仓库中,数据仓库分为数据库、文本仓库、图片仓库和索引仓库四种。通过索引的建立将文本内容、图片内容、视频内容关联起来并存储到特定的存储单元。在数据检索过程中,输入计算模型后通过索引快速检索并输出结果,提升计算效率。
 
    大数据分析,深度分析抓取数据,通过新闻分析、信息提取算法,进行大规模互联网和UGC文本数据的分析。提供热词、热点事件、热门微博、热门微信等实时数据排行。
 
    与OnAir权限管理系统相连,实现了数据级和功能级的权限控制,包括:用户管理、角色管理、权限管理、日志管理、统一认证等。
 
    3.2.内容生产平台
 
    新闻云平台充分考虑到新闻报道方式多样性、灵活性需求的特点,此次两会,新闻云平台打通了北京两会现场、江苏台驻京的制作基地以及江苏广电总台的南京总部三地的地域限制,采取传统制作与云制作相结合的方式,实现了大规模的跨平台新闻制作,通过线索管理、文稿管理、移动记者站、远程节目回传等一系列举措与核心新闻系统交互对接,实现了新闻内外场的实时通讯和高效的节目制作,对两会热点内容进行全新呈现。同时,新闻云平台基于云架构的设计方案,使得新闻业务可以灵活开通、按需布署,平台具备PB级存贮容量,可以实现无限扩展,轻松应对突发网络浪涌,减少资源占用,有效降低了使用成本。

〖 浏览次数: