AWSが機械学習のデータ準備サービスSageMaker Data Wranglerを公開

2020年12月3日 by Akio Hoshi

米国時間12月1日、AWSはデータサイエンティストが機械学習のトレーニングに使用するデータを簡単に準備できるようにする新しいサービスのAmazon SageMaker Data Wranglerを公開した。同社はこれに加えて、SageMaker Studioで利用でき、機械学習機能の命名、整理、発見、共有を簡単にする新しいサービスのSageMaker Feature Storeも公開した。

AWSはさらにSagemaker Pipelinesも公開した。こちらはプラットフォームの他の部分と統合される新しいサービスで、ワークフローを作って自動化できるように機械学習のCI/CDサービスを提供し、トレーニングデータや構成といったモデルコンポーネントの監査証跡も利用できる。

AWS re:InventカンファレンスのキーノートでCEOのAndy Jassy（アンディー・ジャシー）氏が指摘したように、機械学習の分野ではデータ準備が大きな課題として残っている。ユーザーはクエリやコードを書いてまずデータをデータストアから取得し、それからクエリを書いてコードを変換し、必要な機能と組み合わせる必要がある。これらはいずれもモデルを実際に構築する作業ではなく、モデルを構築する基盤の作業だ。

Data Wranglerにはあらかじめ構成されたデータ変換が300以上組み込まれていて、ユーザーはカラム型を変換したり足りないデータを平均値や中間値で補完したりすることができる。視覚化ツールもあり、潜在的なエラーを特定できるほか、モデルをデプロイする前にデータの不整合を見つけたり診断したりするツールにもなる。

このようなワークフローはすべてノートブックに保存したりスクリプトにしたりして複製できる。またSageMaker Pipelinesでワークフローの自動化に利用される。

同様の問題に取り組んでいるスタートアップがいくつもあることには注目したい。結局のところ、機械学習のデータの扱いはこの分野で最もよくある問題の1つだ。しかし大半の企業は今も独自のツールを作っているため、マネージドサービスの登場には適したタイミングだ。

カテゴリー：ネットサービス

タグ：AWS re:Invent、AWS、Amazon、機械学習

［原文へ］

（翻訳：Kaori Koyama）

カテゴリー：ネットサービス

タグ：AWS re:Invent、AWS、Amazon、機械学習

近日開催のイベント