イメージ
イメージ
キヤノンマーケティングジャパン presents Solution in my life
カラー
カラー
カラー
Every Monday 8:38 〜8:48
Every Monday 8:38 〜8:48
「ITの浸透により、人々の生活をより良い方向に向かわせる」
そんな概念である“デジタルトランスフォーメーション”と
いう言葉が広がり、
私たちの暮らしは、より豊かに、より便利に、
日々ポジティブに変化しています。
このコーナーでは、暮らし、仕事、社会、私たちの身近な
ところにあるデジタル化の動きを紹介していきます。
2024年度以降はこちら
2022 12.05
料理の動画をもとに自動でレシピを作成できる技術

このコーナーでは「暮らし、仕事、社会」、私達の身近なところにあるデジタル化の動きをご紹介しています。

これまでもAIを活用した取り組みをたくさん紹介してきましたが、今回ご紹介するのは、料理の動画から自動でレシピを作成しようという取り組みです。
AIが重要な工程を抜き出して、手順に合ったレシピの文章を自動で作り出すという技術で、約1300の料理映像のそれぞれについて、重要な10前後の工程を抜き出し、人が作成したレシピの文章とひも付けて、それをAIに学ばせているんだそうです。例えば、ポークカツレツをつくる映像の場合だと、AIが複数の工程を抜き出し、「豚肉にパン粉をまぶす」とか「豚肉をフライパンで揚げる」といった文章を自動で作成してくれます。

実はこの技術、料理動画のレシピ作成が最終的な目的ではなくて、工場内での作業手順の作成や技術の伝承などでの利用も見込まれていて、今、注目されているんです。

そこで今回は、この技術を京都大学との共同で研究、開発したオムロン サイニックエックス株式会社の橋本敦史さんにお話を伺いました。

null

まずは、自動でレシピを作成できるこの技術で、具体的にどんなことが可能になるのでしょうか?

「現時点でできそうだなと思っている応用は2つあって、まず、カーナビならぬ料理ナビゲーションみたいなものができると思っています。というのは、今回の技術は、映像からテキスト(文章)を出力する技術なんですが、使い方を変えると、テキストから映像を検索できる。つまり、今やっている調理の作業内容を撮影しておいて、そこからレシピのどの部分をやっているかをテキストで検索したりすることができるんですね。そうすると、料理をやりながら今どこをやっているかというのが分かるので、そのやり方を表示するといった料理ナビゲーションができると思っています。あるいは、テキストで検索して、自分がやり方を知りたい工程を、他の人がどうやっているかというのをたくさん見比べることもできるようになると思っています。
そして、もう1つが単純にそのレシピを書き下すことによって、自分のオリジナルレシピを作成するという使い方もあるんですけれども、これには、ちょっと違う使い方として、飲食店とかで、料理をレシピ通りに作っているかチェックするみたいな、そういう応用もあるのではないかと考えています。そうすることで、料理品質の管理とか向上に役に立つんじゃないかなといったことも考えています」

冒頭で、この技術は工場内での作業手順の作成や技術の伝承などの利用も見込まれていると紹介しましたが、実は、こんなことにも活用できるのではないかと橋本さんはお話されていました。

「こういう技術がどんどん活用される事で、社会は多分これまで以上に作業している動画をどんどん蓄積するようになると思います。そうすると、この社会変化によって、科学技術者がその蓄積された動画をどう使うかのところで、どんどん研究が進展して、そうすると、いろんな人がやった作業の中から、今やろうとしていることに対して、1番いいやり方を見つけるとか、あるいは、ある製品プロダクトをポンと見せたらそれを組み立てる一番いいやり方のプロセスを自動生成するとか。あるいは、そのプロセスを考えて、プロダクトのデザイン自体にも踏み込んで、こういう風なプロダクトにすると、すごく生産コストが低くできる、みたいな最適化をする方法とかが生まれてくると思うんですね。
そういうふうに、今回の技術は、シーン検索をできるようにしているということだけだとちょっと小さい変化に思えるかもしれないんですけれども、これが撮影して動画を蓄積することを促すはずです。人が作業するところの撮影が促させれば、それによって溜まったデータの再活用方法がどんどん進展して、最終的にはその作り方や、プロダクトのデザイン自体も変えていくというような変化が起きるんじゃないかな、と、と予想しています」

橋本さんは、この技術を発展させることで、今後、急速に広がると言われているロボットの運用にも応用できないかと考えているそうです。

「自分たちも、今後この技術をさらに発展させて、近い将来こうなればいいなと思って、研究を現在進行系で進めていることがあります。実は、ロボット応用にも取り組み始めています。今回の技術は、言語と行動を結びつける技術なんですけれども、これをうまくロボットの制御と組み合わせることで、例えば、町の中華料理屋さんがロボットに、そこの野菜をお肉で巻いておいてと言うと、ロボットが事前に、人が野菜を肉で巻いている動画をたくさん見て、これが野菜を肉で巻くという作業だと理解していれば、ロボットはその言語指示でその作業をできるわけですよね。
こんな風に、ロボットとかプログラミングを学んでいない、専門家ではない人が専門知識を学ぶ必要なく、誰でもロボットに作業を代替させられるようにすれば、これからどんどん働き手が減っていく中で、1人当たりの生産性というのを大幅に拡大して、人が減っても、今よりもっと豊かな社会を実現できるんじゃないかな、と期待して、今は研究を進めています」

動画をテキスト化する技術って、シーン検索ができるようになることで様々な活用が期待できるだけではなくて、さらに様々なシーンで活用される可能性があるという話、とても興味深かったです。今後の展開を期待させる技術ですね。

橋本さん、貴重なお話、ありがとうございました。

ツイッター Facebook
Top