大多数组织都在与多种分析工具的复杂性作斗争,无法从数据中获得充分的价值。

原因有很多:

R和Python

使用R和Python的数据科学团队很难进行协作并始终如一地与利益相关者分享他们的工作。阅读更多

BI与数据科学

BI和数据科学团队被困在竖井中无法合作,甚至无法争夺资源和高管的注意力。阅读更多

RStudio在云端

数据科学的工作被困在本地硬件上,并且没有集成到您组织的云策略中。阅读更多

利用你的数据

分析团队努力在可复制的数据管道中访问和组合所有数据.这些数据可以以结构化、非结构化和非传统数据源的形式分布在Excel文件、企业数据源和云中。阅读更多

Kubernetes

数据科学团队发现很难利用DevOps/ it提供的作业管理系统。这些使用Kubernetes和Slurm等框架构建的系统可能处于闲置状态,而数据科学团队则在努力寻找他们需要的计算能力来创建见解。阅读更多

通过API的集成

数据科学的见解停留在笔记本电脑上,而不是支持驱动组织决策的人工和自动化工作流。阅读更多

想了解更多吗?

RStudio的模块化平台补充了您的其他分析投资,并帮助您最大化数据的价值

通过采用严肃的科学数据,开源,代码优先,在RStudio的专业产品上伸缩和管理,您的组织可以实现您的分析投资的承诺价值。

礼来公司的研究科学家Eric Nantz在rstudio::conf 2020上谈到了互操作性在研发中的重要性。

利用数据增强实力

利用所有数据
访问,转换和结合您的所有数据,为您的特定应用程序量身定制

根据Forrester最近的一份报告,“坊间证据显示,在所有可用于推动可操作见解的企业数据中,用于此目的的数据不超过20%。”(弗雷斯特鲍里斯·埃弗森和辛尼·利特尔报道)。

分析团队努力在可复制的数据管道中访问和组合他们的所有数据,特别是当这些数据以结构化、非结构化和非传统数据源(如web抓取)的形式分布在Excel文件、企业数据源和云上时。

RStudio的开源、代码优先的方法为您提供了利用所有数据所需的访问权限和灵活性,并构建可复制的数据管道来满足您的所有分析需求。

  • 数据访问: RStudio的专业数据库驱动程序是针对最流行的数据源的ODBC数据连接器。这些驱动程序将帮助您探索数据,向涉众部署数据驱动的交互应用程序,并使用R在生产中构建数据管道。了解更多
  • 使用数据库的最佳实践RStudio通过我们的产品和提供关于最佳实践的建议,使使用数据库变得容易。学习更多在db.rstudio.com
  • 本地和可扩展的R接口到Spark: Sparklyr允许您轻松地过滤和聚合Spark数据集和流,将它们带入R进行分析和可视化,大规模训练模型,并在Spark中生产机器学习管道。所有这些都可以使用熟悉的R工具完成,如dplyr、DBI、broom和parsnip。Sparklyr是可扩展的,允许将功能扩展到特定的领域,如时间序列和地理空间分析。学习更多在spark.rstudio.com
  • 开源的力量:tidyverse包集合提供了一致的、直观的、低代码的方式来访问、组合和转换数据,使数据科学更容易学习和实现。与dplyr包中,你可以使用相同的语法来转换内存中的数据,在数据库中在火花,等等。
  • 可再生的数据管道:一旦你创建了你的数据管道,你可以使用一个可复制的RMarkdown文档记录它,并安排它定期运行RStudio连接.了解更多关于调度数据科学任务
你的工作范围

规模与Kubernetes, Slurm和更多
使用您熟悉的开发工具中所有可用的计算资源

像Spark或Kubernetes这样的分析基础设施需要大量的资源来建立和维护。如果数据科学家不得不离开他们的原生工具来访问这个基础设施,他们必须切换上下文并记住如何使用他们可能很少接触的系统。通常,这意味着他们不会充分利用可用的资源,导致这些资源未得到充分利用。

通过从数据科学家每天使用的语言和开发环境提供对这些工具的本地访问,数据科学家无需切换上下文就可以利用这些工具。数据科学家得到了他们需要的计算能力,同时更好地利用IT资源。这种更高的利用率帮助组织从这些分析投资中获得预期的ROI。

  • RStudio工作台允许数据科学家使用他们喜欢的开发环境(RStudio IDE、Jupyter或VS Code),同时通过RStudio Job Launcher利用Kubernetes或Slurm集群中的it管理计算资源。了解更多关于RStudio工作台,以及我们的支持Kubernetes而且Slurm
  • 本地和可扩展的R接口到Spark: Sparklyr允许您轻松地过滤和聚合Spark数据集和流,将它们带入R进行分析和可视化,大规模训练模型,并在Spark中生产机器学习管道。所有这些都可以使用熟悉的R工具完成,如dplyr、DBI、bloom和parsnip。Sparklyr是可扩展的,允许将功能扩展到特定的领域,如时间序列和地理空间分析。学习更多在spark.rstudio.com
  • 码头工人部署: RStudio产品可以在容器和Kubernetes中运行,因此它们可以集成到组织标准的DevOps框架中。了解更多
  • 与您自己的工作调度系统集成:使用RStudio Launcher Plugin SDK。如果您的需求超出Slurm和Kubernetes,这个SDK允许开发人员在C/ c++中为自定义作业调度系统的RStudio作业启动器编写插件。了解更多
API的

通过api集成数据科学
将您的数据科学见解直接传递到它们能增加价值的地方

一旦创建了预测模型或其他分析,就有许多不同的方法来共享该分析,以便它能够产生影响。数据科学家可能

  • 准备并向业务利益相关者展示。
  • 创建一个可重复的报告,广泛共享和分发。
  • 开发并共享一个交互的仪表板或应用程序,为其他人提供对分析结果和发现的自助服务访问。

然而,共享分析的最可扩展的方法之一是创建一个API。api可以支持与统计模型和分析结果的实时交互。这使得组织内部或外部的其他开发人员可以直接集成已经完成的工作并在其基础上进行构建,而不需要成本高昂的重新实现。

  • RStudio连接允许您的数据科学家与您的决策者共享基于R或Python构建的报告、仪表板、应用程序和api。了解更多
  • 介绍api: api是数据科学家增加其分析影响的几种方法之一。了解更多
  • 与水管工的R api管道工包允许您轻松地从您现有的R源代码创建一个web API。看网络研讨会,或看例子
  • Python api与Flask, FastAPI, Quart, Falcon, Sanic:类似地,有很多框架允许你从现有的Python模型创建web api,这些模型可以部署在RStudio Connect上。了解更多
  • TensorFlow模型api:保存的TensorFlow模型也可以部署为RStudio Connect上的api。了解更多
  • 将api与分析应用程序集成一旦有了API,就可以很容易地将这些API集成到现有的应用程序中。RStudio提供了将api集成到R、Python、Java或其他语言和系统的示例代码。了解更多

更多的可能性
与其他建模环境、Git、CI/CD工作流等集成

使用开源R和Python的一大好处是这些环境提供了大量的集成选项。新的集成被不断地添加,或者直接由社区添加,或者由RStudio这样的供应商添加。

正因为如此,没有一个集成点列表是真正全面的,但是您可以确信,如果您需要将R或Python集成到另一个系统中,很有可能其他人已经为您解决了问题。

  • Git: RStudio IDE允许您直接使用存储在远程Git存储库中的代码。您还可以直接从远程Git存储库将内容发布到RStudio Connect,并使用RStudio包管理器构建存储在远程Git存储库中的R包。了解更多
  • 与CI/CD流程集成:按钮发布、Git部署和api支持的发布提供了多种选项,可以与组织现有的CI/CD流程保持一致。了解更多
  • 深度学习: RStudio还提供原生R接口TensorFlowKeras,火炬,允许R用户从他们喜欢的R和Python中利用这些深度学习框架。
  • 多种语言的可复制R标记文件:除了R和Python, R Markdown允许您在一个笔记本中组合多种分析语言,包括访问数据库的SQL代码,shell脚本的BASH代码,使用Rcpp包的C和c++代码,用于贝叶斯建模的STAN代码和rstan,用于web编程的Javascript,以及更多的语言。了解更多
  • 网站解决方案RStudio解决方案工程团队维护着solutions.rstudio.com网站,其中有大量的文章,包括参考体系结构产品集成而且关于模型管理的提示了解更多

RStudio固有的工具让我们的统计学家和数据科学家无需学习任何新的语言或计算机科学技能就可以转变为应用程序开发人员和数据工程师。”

保罗•Ditterline布朗-福曼
阅读全文在这里

Baidu
map