top of page

AIの未来をリードする—メルマガ登録で最新情報をゲット!

AIの未来をリードする
メルマガ登録で最新情報をゲット!

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません

OpenAI、新ビデオ生成ツール『Sora』を発表:ストーリーボードやリミックスなどの機能を徹底解説!

2024年12月10日、「12 Days of OpenAI」の3日目として、OpenAIは新たなビデオ生成ツール「Sora」を発表しました。このプロダクトは、AIを活用したクリエイティブなビデオ生成体験を可能にし、AGI(汎用人工知能)への道筋としても重要な役割を果たします。本記事では、Soraの特徴、機能、そしてそれがもたらす可能性について解説します。


OpenAIのサム・アルトマン氏のコメント

OpenAIのCEO、サム・アルトマン氏は、自身のX(旧Twitter)アカウントでSoraについて以下のようにコメントしています。

「この製品で最もエキサイティングだと思うのは、他の人々と簡単に共同創作できる点です。それはとても新しい体験のように感じます!」 「これはまだ初期段階です――ビデオ版のGPT-1と考えてみてください――ですが、私はすでにフィードがとても魅力的だと思っています。」

「ビデオ版のGPT-1」という表現には驚きました。


GPT-1は、自然言語処理の分野での基盤を築いた初期のモデルですが、当時はまだ性能的に限定的で、それが示す可能性こそが大きな注目を集めていました。サム・アルトマン氏がSoraを「ビデオ版GPT-1」と表現したということは、Soraがビデオ生成において同じような位置づけにあるということでしょう。


これからの進化の道筋を考えると、Soraは間違いなく今後もアップデートを重ね、さらなる可能性を開拓していくのだろうと感じます。現時点でもExploreフィードを見ているだけで楽しく、無限のインスピレーションが得られるツールですが、これがもっと進化していったらどうなるのか、想像するだけでワクワクします。


共同創作の容易さや、新しい体験を提供するという点も非常に興味深いです。このコメントから、Soraは単なる技術革新ではなく、クリエイティブな活動や人と人をつなぐプラットフォームとしても大きな可能性を秘めていると感じました。


Soraの概要と背景

Soraは、クリエイティブツールとしてのAIの新たな地平を切り開くことを目指して開発されました。ビデオはOpenAIによって重要な分野であり、なぜ重要なのかを以下のように語っています。


  1. クリエイター向けツールの提供 OpenAIは創造性を拡張するツールを作ることを重視しています。Soraは、人間とAIの新しい共同創作の可能性を示すものであり、クリエイターの手法に革新をもたらします。

  2. テキストだけではないAIの世界 AIとのインタラクションがテキストに限定されている現状を打破し、動画の生成と理解を通じてコンピュータの使い方を大きく変えることを目指しています。

  3. AGIロードマップにおける重要性 ビデオ生成は、AIが世界やその物理法則を学ぶための重要な環境です。このプロジェクトはAGI開発の基盤としても注目されています。


Soraの主要機能

Soraは、以下のような幅広い機能を提供します。

Exploreフィード

Exploreフィードでは、コミュニティが共有したビデオを通じて、他のユーザーの作品から多くのインスピレーションを得ることができます。このフィードは単なるビデオ閲覧の場ではなく、クリエイター同士が学び合い、刺激を受けるためのスペースです。

soraのExploreフィード。コミュニティが共有したビデオを閲覧できる。
soraのExploreフィードでコミュニティが共有したビデオを閲覧できる

特に、生成されたビデオをクリックするとライトボックス表示で詳細を確認でき、どのような手法やプロンプトが使われたのかを具体的に知ることができます。この機能を活用することで、自分のクリエイティブなワークフローに新しいアイデアを取り入れたり、技術を応用したりすることが可能になります。


この宇宙飛行士のサンプル動画で「movie trailer of an astronaut exploring hostile terrain on a newly discovered planet, cinematic」というプロンプトで生成されたものであると確認できます。

日本語訳:「新しく発見された惑星の過酷な地形を探索する宇宙飛行士の映画予告編、映画のような」


Exploreフィードは、創造性を広げるための貴重なツールとして設計されています。

soraのExploreフィードではライトボックス機能があり、生成された動画のプロンプトを確認できる
soraのExploreフィードではライトボックス機能があり、生成された動画のプロンプトを確認できる

生成ツール

Soraでは、テキストプロンプトを入力したり、画像をアップロードするだけで、簡単に動画を生成することができます。このツールでは、解像度を480pから1080pまで選択できるほか、水平、正方形、垂直といったアスペクト比や、動画の長さを5秒から20秒の範囲で自由に調整することが可能です。


また、一度に複数のバリエーションを生成する機能があり、これによって異なるアイデアやスタイルを比較しながら、最も気に入ったものを選ぶことができます。この柔軟な設定と選択肢により、ユーザーの多様なニーズに応じたカスタマイズが可能です。



Storyboard

Storyboardは、タイムラインを利用してビデオ全体のシーケンスにわたる複数のアクションを指示できるツールです。この機能により、ユーザーはビデオの演出を細部までコントロールでき、視覚的に洗練されたストーリーを作成することが可能です。

sora ストーリーボード
sora ストーリーボード

画面上部にはStoryboardカードが表示されており、ここで環境、キャラクター、アクションなどを記述して、特定の場面を設定します。その下にはタイムラインが配置され、ビデオ全体の流れを視覚的に把握しながら各場面を順序付けることができます。また、そのさらに下には生成設定が表示されており、詳細な調整が可能です。


たとえば、最初のStoryboardカードに「美しい白い鶴が小川に立っている」と記述し、尾の色を黄色に指定することができます。このカードには、必要に応じて詳細を具体的に記述することも、簡潔にまとめることも可能です。簡潔な記述ではSoraが詳細を補完し、詳細な記述では指示に忠実に従った動作を生成します。


タイムライン上では、任意の位置をクリックして新しいStoryboardカードを追加し、「鶴が頭を水中に浸けて魚を捕まえる」といった次のアクションを指示することもできます。タイムラインを見ると、カードごとにアクションが設定されており、カード間のスペースがアクションをつなぐための重要な役割を果たします。この間隔を調整することで、連続したショットや映画的なカットを作成することが可能です。


画像を元にしたビデオ生成

Storyboardでは、画像を元にしたビデオ生成も可能です。

soraの画像を元にした自動生成
soraの画像を元にした自動生成

たとえば、デスクトップから灯台の写真をアップロードすると、Soraがその画像を自動的に最初のStoryboardカードに取り込みます。そして続きのカードを生成し、画像に動きを加えたり、次のアクションを追加したりします。これにより、静止画をもとにした美しいビデオを簡単に作成することができます。

生成されたカードには、Soraが推測した動きや続きのアクションが含まれており、ユーザーは必要に応じてこれらの内容を編集したり、タイムライン上でカードの位置を調整することも可能です。この柔軟性により、細部にわたってクリエイティブなコントロールを行いながら、カスタマイズされたビデオを作成することができます。生成を開始すれば、どのように仕上がるかをすぐに確認できるため、制作プロセスが非常に直感的でスムーズになります。


Storyboardは、直感的かつ柔軟にビデオを構築するための強力なツールであり、ユーザーのクリエイティビティを大いに拡張します。


リミックス機能

リミックス機能を使えば、既存の動画に変更を加えて簡単にシーンをリメイクすることができます。たとえば、「マンモスをロボットに変える」といった大胆な変更も、わずかな操作で実現可能です。

soraで生成された砂漠を歩くマンモス
soraで生成された砂漠を歩くマンモス
soraのRemix機能で砂漠を歩くマンモスをロボットに変更
soraのRemix機能で砂漠を歩くマンモスをロボットに変更

この機能では、変更の強度を設定することができるため、微調整から大幅な変更まで、目的に応じた柔軟な編集が行えます。リミックスは、既存のビデオに新しい要素を追加したり、全く異なるビジュアルに変化させたりするための、非常に便利なクリエイティブツールです。


利用条件と提供体制

  • アクセス sora.comを通じて本日から利用可能。現在はアメリカおよび多くの国で展開されています(ヨーロッパと英国は後日対応予定)。

  • 料金 ChatGPT Plusサブスクリプションでは月50回の生成が可能。Proアカウントでは無制限の生成(スローモード)および月500回の高速生成が可能。

  • 安全性 OpenAIはSoraの悪用防止とモデレーションに注力しており、クリエイティブな自由を尊重しつつ、安全性を確保しています。


Soraの技術的特徴と仕組み

Soraは、OpenAIが開発した高度なビデオ生成モデルであり、テキスト、画像、動画を入力として受け取り、新しい動画を出力します。ユーザーは、最大1080pの解像度で20秒間の動画を生成でき、さまざまな形式に対応しています。また、テキストからの生成だけでなく、既存の素材を活用してリミックス、拡張、結合する機能も備えています。


拡張された生成モデル

Soraは、DALL·EやGPTモデルの学びを応用し、ストーリーテリングや創造的表現を強化するツールとして設計されています。特に、DALL·E 3の「再キャプション技術」を採用しており、視覚データから詳細な説明文を生成することで、テキスト指示に忠実に従ったビデオを作成可能です。


Soraの生成プロセス

  • Soraは「拡散モデル」に基づいており、初期状態としてノイズに満ちたベースビデオを生成し、そのノイズを徐々に取り除くことで動画を生成します。

  • GPTモデルに似たトランスフォーマーアーキテクチャを採用しており、スケーラブルな性能を発揮します。

  • 特に、複数フレームを一度に処理することで、対象が一時的に画面外に消える場合でも、一貫した表現を保つことができます。


Soraのデータとトレーニング

Soraは、幅広いデータセットを使用してトレーニングされました。これには、以下のようなデータが含まれます。


  • 公開データ: 業界標準の機械学習データセットやウェブクローリングで収集されたデータ。

  • 独自データ: パートナーシップを通じてアクセス可能なデータ。例として、ShutterstockやPond5との協力が挙げられます。

  • ヒューマンデータ: AIトレーナーや社内外のフィードバックを活用して調整。


さらに、トレーニング前のデータセットにはフィルタリングが施されており、暴力的、露骨、またはその他のセンシティブな内容を排除することで、安全性を確保しています。


Soraのリスクと安全対策

Soraの高度な機能は新しいリスクも伴います。特に以下のようなリスクが想定され、OpenAIはこれらに対応するための安全対策を講じています。


主要なリスク領域

  1. 誤解を招く内容の生成: 公人の肖像を用いた偽動画やディープフェイクのリスク。

  2. 不適切なコンテンツ: 暴力的、性的、またはその他の違法コンテンツの生成。

  3. 子供の安全: 子供に関連する不適切な生成物の防止。


安全対策

  • 多層的なモデレーション: テキスト、画像、動画に対する多モーダルモデレーションクラスターを使用して、ポリシー違反の検出とブロックを行います。

  • コンテンツフィルタリング: 特定のトピックに対する精密なフィルタリングを実現。

  • ブロックリストの活用: 既存のDALL·Eモデルでの経験を活かし、幅広いカテゴリに対応するブロックリストを導入。

  • 製品ポリシー: 18歳以上のユーザーのみへの提供や、Exploreフィードの厳格なモデレーション。


リスク評価とフィードバックの活用

OpenAIは、Soraの開発において多国籍の外部レッドチームと連携し、安全性の確認を行いました。レッドチームは、異なるシナリオでモデルのリスクを評価し、以下の分野での問題を特定しました。

  • 適切でないプロンプトや画像を使用した安全策の回避。

  • テキストプロンプトやメタファーを活用した安全システムの回避テスト。

  • 既存の素材を活用した規制違反コンテンツの生成。

これらのフィードバックを基に、OpenAIはモデルの安全性と精度を向上させるための改良を進めています。


創造的な可能性と未来への展望

Soraは、特にアーティストや映像クリエイターにとって、ストーリーテリングや創造的表現を支える重要なツールとなる可能性を秘めています。一方で、モデルのリスクを最小化し、ユーザーが安心して利用できる環境を整えることが、今後の課題とされています。OpenAIは安全性と創造性の両立を目指し、Soraの機能を進化させ続けています。


この記事は以下の公式発表を参考に作成されています。


AIboxのご紹介 – 問い合わせ業務効率化の新時代へ

AIboxは、Soraのような最新テクノロジーを活用したクリエイティブな取り組みを支える、社内情報の一元化と問い合わせ自動対応に特化したツールです。バックオフィス業務を効率化し、社員がより創造的な仕事に集中できる環境を提供します。

AIbox
AIbox

AIbox導入のメリット

  1. RAG機能で高精度な回答が可能 「AIbox」はRetrieval-Augmented Generation(RAG)という技術を搭載。社内のマニュアルや過去の問い合わせデータ、FAQなどを参照して、内容に基づいた精度の高い回答を提供します。これにより、従来のチャットボットよりも使いやすく、頼れるサポートが実現します。

  2. スムーズな社内コミュニケーション 社内でよく利用されるSlackとの連携機能により、AIboxはSlack内の情報も検索対象にすることが可能です。例えば「経費申請の締め切りを知りたい」といった質問も、Slackから直接AIに問い合わせることで即座に回答を得られ、業務が止まることなく進みます。

  3. 徹底サポートと安全性 AIboxは、Azure OpenAIサービスを活用した高いセキュリティ性も特徴です。利用データが外部のOpenAI社に送信されることはなく、企業内の機密文書も安心して取り扱うことができます。さらに、導入時や運用後のデータ整備についても専門スタッフが支援し、スムーズな導入と安心運用が可能です。


こんな部門での活用が進んでいます

  • 経理、総務、人事などのバックオフィス:各部門で必要なFAQやマニュアルをAIboxに登録することで、社員からのよくある問い合わせ対応が自動化され、日常的な業務負担が軽減されます。

  • カスタマーサポート:エクセルや問い合わせ履歴などのデータをAIに読み込ませておくことで、過去の対応履歴から適切な回答をAIが自動生成。お客様からの問い合わせに、的確で素早い回答を提供できます。


スノーリーズ株式会社について


バックオフィス向けソリューション AIboxについて、お問合せはこちら


参照元について

本記事は、OpenAIの公式発表「Sora System Card」と「YouTubeのSora–12 Days of OpenAI: Day 3」に基づいて作成されています。公式発表の情報をもとに、Soraの技術的背景や主要な機能、安全対策などをわかりやすくまとめています。詳細な内容については、公式サイトもぜひご参照ください。

Comentarios


b367c377-a8c4-411a-a21e-e5d603bcd498 (1).jpg

スノーリーズ株式会社​

代表取締役

石黒翔也

​執筆者プロフィール

約7年間にわたりモバイルアプリケーションやWebアプリケーションの開発、AzureやAWSを活用したサーバー構築に従事。

その後、2021年にスノーリーズ株式会社を設立し、AIで問い合わせ業務の効率化を実現する「AIbox」を開発。

AIboxは最新のRAG技術(Retrieval-Augmented Generation)を活用し、問い合わせ業務に課題を抱える企業に採用されています。

現在は、企業の技術顧問としても活動しながら、AIやクラウド技術の普及に取り組んでいます。

bottom of page