AWS GenAIIC の技術支援で実現する建設・BIM 特化基盤モデル開発 — GENIAC 第 3 期 ONESTRUCTION Ishigaki-IDS 事例

本ブログは ONESTRUCTION 株式会社様と Amazon Web Services Japan 合同会社が共同で執筆しました。GENIAC（Generative AI Accelerator Challenge）第 3 期の取り組みとして、ONESTRUCTION が AWS の Generative AI Innovation Center（以下、GenAIIC）から技術アドバイスを受けながら開発した、建設・BIM 特化型基盤モデル「Ishigaki-IDS」の開発事例をご紹介します。

背景

ONESTRUCTION 株式会社（note）は、openBIM を中心に建設分野の課題解決に取り組む建設テックスタートアップです。建設業界の人手不足が続く中、設計・施工・維持管理の各段階で情報を一元的に扱える BIM（Building Information Modeling）の活用が、国レベルでも推進されています。一方で、BIM の導入や運用には専門知識が必要であり、習得コストの高さが普及の壁となっていました。
BIM モデル（IFC モデル）に対する情報の付与・照査の内容を定義する XML 形式の規格が IDS（Information Delivery Specifications）です。IDS の作成には、独自の文法に加えて IFC（Industry Foundation Classes）に関する知識やルールの理解が求められます。本プロジェクトでは、この専門知識の障壁を基盤モデルの力で下げ、BIM の専門家でなくても属性情報の確認と管理を行えるようにすることを目指しました。

課題

開発では主に 3 つの課題に直面しました。1 つ目はデータ不足です。IDS は 2024 年に公開された比較的新しい規格であり、建設業はもともと Web 上の公開情報が限られる領域です。金融・医療・法律のような主要ドメインでは数 B から数百 B トークン規模のコーパスが用いられることも珍しくない一方、IDS 領域ではそれに匹敵する量の公開データが存在しません。最新の Web コーパスを収集しても得られる情報はごく少量かつ浅いものにとどまり、大量のデータがなければモデルが IDS や関連情報を十分に学習できず、小手先のテクニックではカバーできない理解不足・精度不足に陥ります。2 つ目は数千規模の IFC 語彙の注入です。例えば「梁」は「IfcBeam」、「エアコン」は「IfcUnitaryEquipment」のように、建設領域の用語を IFC 上の語彙へ正確に対応付ける必要があります。従来は専門家が一つひとつ手作業で紐づけてきた知識を、モデル側に学習させなければなりません。3 つ目は IDS 独自文法の習得です。IDS は単なる XML ではなく、情報付与や確認の対象・記述内容に応じてタグ構造が変化する専用ルールを持ちます。繰り返しや専用タグの使い分けが求められるため、汎用の基盤モデルでは正確に生成することが難しい領域でした。

解決策

学習パイプライン

汎用言語性能とモデルサイズの選択肢を考慮し、Qwen3（8B / 14B / 32B）をベースに 3 段階の学習パイプラインで Ishigaki-IDS を開発しました。

継続事前学習（CPT）：Web コーパスに加え、社内のドメインエキスパートと協働して構築した大量の合成データを用い、IDS と IFC に関するドメイン知識をモデルに注入しました。具体的には、妥当性のある IDS を大量に生成するとともに、IDS 関連ドキュメントを多角的に説明する合成データセットを整備し、学習データの多くを合成で補いました。
教師ありファインチューニング（SFT）：CSV または自然言語による IDS 作成指示と、出力すべき IDS のペアデータでモデルを学習させ、IDS の「型」を安定して生成できるようにしました。SFT 単独では、XML タグの選択ミスや誤った属性値の付与など、それらしいが不正な生成が残ることが分かっており、後段の学習で補強する前提で設計しています。
検証可能な報酬による強化学習（RLVR）：国際標準団体 buildingSMART が提供する IDS-Audit-Tool を報酬関数に組み込みました。同ツールは XML としての整合性、IDS 形式としての妥当性、意味的な整合性の 3 観点を自動検証できるため、モデル自身が出力を試行し、機械的な正誤フィードバックを受けながら改善を重ねられます。RLVR は大量の教師データがなくても出力品質を洗練できるため、データが乏しい IDS 生成タスクとの相性が非常に良いと考えています。

アーキテクチャと評価

学習基盤は、Amazon EC2 P5en インスタンス（p5en.48xlarge × 2 ノード、NVIDIA H200 GPU 搭載）を AWS ParallelCluster でオーケストレーションし、学習データ・合成データ・チェックポイントは Amazon FSx for Lustre 上で高スループットに共有する構成としました。これにより、複数ノードでの分散学習と大容量データの並列アクセスを安定して回しています。評価軸は、社内の IDS 専門家と協働で独自ベンチマーク「IDS-Bench」として構築し、IFC バージョン × 建設分類（意匠／構造／設備／共通）× 言語（日本語／英語）× Implement／Structure／Content の多軸で、実業務に耐え得る精度を測定しました。

結果

開発した Ishigaki-IDS-8B と IDS-Bench は Hugging Face で公開しています。

評価の結果、汎用フロンティアモデルでは十分に対応できないケースが多い一方、Ishigaki-IDS は IDS を適切に生成できることを確認しました。IDS が専門性の高い比較的新しい領域であるため、ドメイン特化モデルであれば解決可能な課題設定であったと考えられます。また、YaRN によるコンテキスト長スケーリングにも対応しており、最大 120k トークンほどの入出力でも問題なく生成できることを確認しました。buildingSMART と実施した実証実験でも、IDS の専門家・非専門家の双方から、業務への活用可能性や、曖昧な表現からでも意図通りの IDS を生成できる点について、ポジティブな反応を得ました。同時に、今後の改善や展開に繋がる多くの示唆もいただき、開発したモデルの実用性と意義を改めて確認できました。

IDS-Bench 評価結果。Ishigaki-IDS（8B / 14B / 32B）は XML 構造準拠・IDS 構造準拠・IDS 内容整合性準拠のいずれでも高いスコアを達成している一方、汎用フロンティアモデルでは低いスコアにとどまっている。

GenAIIC からの技術アドバイザリー

ONESTRUCTION が建設・BIM ドメインの知見をもとに開発を主導し、GenAIIC から基盤モデル開発に関する技術アドバイザリーを Bi-weekly で受けながら進めました。開発の節目ごとに学習結果や評価データを持ち寄り、以下の 5 つの観点から GenAIIC の専門的な助言を得ています。

学習データ設計：IDS ドメインにおける合成データ活用と、CPT／SFT／RLVR 各段階のデータ配合・多様性設計
評価ベンチマーク：IFC／IDS 知識、構造化生成、汎用対話を多面的に評価する指標設計
学習段階と学習テクニック：CPT／SFT／RLVR の学習設計と、長文対応・報酬設計・構造化生成の最適化
学習インフラ：大規模分散学習における並列化設計と、スループット・安定性の最適化
実験結果の診断と次段の方向提示：学習・評価結果に基づく課題要因の特定と、次イテレーション方針の整理

これらの観点で「どの方向に振れば IDS 生成の精度と実用性が一段上がるか」を継続的に議論できたことが、データの乏しいニッチ領域でドメイン特化の基盤モデルを短期間で成立させる推進力となりました。

まとめと今後

専門家との協働・合成データ・検証ツール連動型の RLVR の組み合わせが、データが乏しい専門領域のドメイン特化モデル開発に有効であることを確認しました。本開発は、GenAIIC から技術アドバイスを継続的にいただきながら進められたことで、短期間でも高い品質の基盤モデルを完成させることができました。ONESTRUCTION では今後も、AWS との連携を活かしながら、AI を活用した建設 DX の推進に取り組んでまいります。