羽山数据-合规、权威、安全,数据科技赋能产业升级。羽山数据践行数据要素市场化合规流通,为金融、保险、人事、安防、互联网等行业提供企业数字化解决方案。

slider
New
  • Ion Stoica首次启动,准备展开流媒体数据之翼

    发布时间: 2023-04-24

    在共同创建ApacheSpark和共同创建Databricks之前,计算机科学家IonStoicaco创建了Conviva,这是NBCan和Disney+等出版商用来跟踪用户度量和服务质量的视频流。Having在互联网视频中解决了一些实时数据处理的挑战,并查看了实时数据的地理数据,Conviva不希望在行业中应用流媒体数据平台Conviva成立于2006年,当时正值互联网视频时代。尽管今天在网络上播放视频,但当时的体验却大不相同。Netflix(刚刚关闭了其DVD服务)还没有流媒体,YouTuber才刚刚起步。首席产品官兼联合创始人Ganjam说,确保良好的客户体验对早期的视频互联网先驱来说至关重要

    他说:“提供视频的公司不控制网络,因为它是一家由[公司]控制管道、机顶盒的公司。他们对一切都进行了编码。”。“在互联网上,Disney+不会控制网络,他们不会控制ISP,他们不会在家里控制设备。所以,只要输入数据,就可以通知家庭,优化视频播放器。”

    说服从各种来源收集数据,包括播放器、应用程序和内容交付网络(CDN),然后将其关联起来,以帮助客户找出与服务质量有关的任何问题,如缓冲区或比特率问题。Ganjam说:“这是一个很小的东西,它可以让你保持一个连续的基本习惯,确保你可以获得更高的质量。”

     

    ComputerscientistsIonStoica’;sfirststartupiSnviva

     

    按下一个按钮,Conviva必须在长时间的会话中解决复杂的问题。在某些情况下,一次会话需要几个小时,而Conviva需要能够执行将整个会话记入帐户的问题。这比做起来容易

    我用食品配送公司的例子来解释复杂的、有状态的查询对输入数据流的重要性。相对简单的指标,比如顾客在下订单时和拿到食物时等待平均时间的长短,可以通过实时流系统立即处理Ganjam说:“但如果你想回答这样一个问题,比如食品订单在柜台上等待了很长时间还是在结账之前?或者在所有人都改变了订单的情况下,交付给所有人都在等待或完成订单了吗?这是一个相当复杂的指标。”。“现在你需要记住许多事实……这不是任何数据平台都会感到震惊的事情。它们之间存在着某种复杂的相关性。”

    与其他公司一样,Conviva最初的解决方案是以大使架构的方式将两个框架工作结合在一起,以应对视频分析中的这一挑战。它使用面积时间“速度”层来回答简单的问题,而使用单独的数据层来回答更复杂的问题。该公司推出了各种框架工作来应对这一挑战,包括ApacheHadoo通过了较低但更彻底的批处理层,ApacheSpark和ApacheFlink作为较快但更不完整的专用层。Ganjam说,没有什么能真正满足环境的要求,尤其是使用SQL来处理数据他说:“如果你写的是SQL,那么它实际上就退出了复杂的SQL查询。”。“它可以是一个。NottosaySQL不能做,但它很复杂。Anditensupbeinghardtowrite。Itgetsmorerrorpone…Italsendsupsufferingtermsofperformance.Soebuiltaplatform。”

     

    视频内容分发中TimeStateAnalytics挑战的演示示例(来源:Convivacaper“;in”用TimelineFramework”;提高时间状态分析的抽象水平)

     

    Conviva构建的平台也可以使用两个阶段。Conviva的创新在于存储组件,它称之为满足时间的状态处理器。另一个组件Aditya是所有满足时间系列的数据库,如ApacheDruidorLickHouse(也称为实时分析数据库)。时间状态处理器处理复杂的状态计算,而时间系列数据库处理OLAP类型的查询Ganjam说:“大多数系列的标签都是伟大的多维分析,使用它,不需要发明(轮子)。”。“但他们放弃了实时状态分析,也放弃了构建的新作品。我们将它们结合在一起,可以进行实时状态和多维分析。”

    Conviva的关键创新在于它能够在大量的状态数据上提供复杂的查询。Ganjam说,它还创建了数据查询语言和可视化界面,使其成为创建复杂度量的更好用户

    他说:“我们的时间线是更高级别的抽象,我们对抽象的理解和理解要比SQL这样的低级别抽象更好,所以实现数据挖掘的代码要优化得多。”时间线框架工作的当前迭代是使用ScalandunstopAkka开发的,它提供了比Conviva迄今为止尝试的任何东西都更好的性能。他说:“我们实际上在Spark和Flink上都没有做过表面框架工作,现在的表现已经接近我们可以降到Akka的水平了。”该公司的几位创始人最近发表了一篇论文,解释了如何预测未来的工作。Stoica在加州大学伯克利分校开始目前的教学工作之前,毕业于卡内基梅洛大学,是《用时间线框架提高时间状态分析的抽象水平》的作者之一,你可以此处阅读。

    Convivato是一家成功的公司,每年有1亿美元的经常性收入。该公司声称,它能够处理5万亿件事,每天从5亿观众中挑选70亿个传感器。它的技术正在发展,为超级碗和世界杯等大众观众提供一个令人愉快的互联网视频体验凭借高性能的基于Akka的时间线处理或时间线查询语言,该语言与UI相结合,以方便开发复杂的状态查询,大众认为他们有一些东西可以在视频分析空间之外工作Ganjam说:“Wesee(复杂时间状态查询)在许多行业。”。“用户行为分析,安全行为分析,例如,物联网–;有很多情况下,时间状态分析的类型已经过时,而我们’;已经解决了一个非常有效和高规模的窗口构建平台。”

    该公司目前正在将其产品应用于广泛的保险丝行业。Ganjam说:“我们正在努力让它变得更加普遍。”。“我们将推出更通用的平台。”

    相关项目:

    攀登抽象的阶梯

    实时流媒体是否已结束

    为了提高数据可用性,考虑‘正确的时间’而不是‘实时’

    -

  • 1 - 1
note

本专栏搜集引用互联网上公开发表的数据服务行业精选文章,博采众长,兼收並蓄。引用文章仅代表作者观点,不代表羽山数据官方立场。

如有侵权、违规及其他不当言论内容,请广大读者监督,一经证实,平台会立即下线。监督电话:400-110-8298