WO2005001723A1

WO2005001723A1 - 並列処理システムの生成方法

Info

Publication number: WO2005001723A1
Application number: PCT/JP2004/009000
Authority: WO
Inventors: Hiroshi Shimura
Original assignee: Ipflex Inc.
Priority date: 2003-06-27
Filing date: 2004-06-25
Publication date: 2005-01-06
Also published as: EP1640885A4; US20110197047A1; US20060253836A1; EP1640885A1; TWI291655B; US8527972B2; TW200508974A; JP2005018626A

Abstract

　本発明の定義ファイルは、独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有し、複数の並列記述は、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第１の並列処理を示す第１の並列記述を含んでおり、それら複数のデータ入力には並列処理システムに入力されてからのレイテンシーが同一のデータが入力されることを示す。したがって、複数種類の要素の情報を記録したハードウェアライブラリに基づき、並列処理を実行するための複数種類の要素の少なくともいずれかを備えた回路構成を含むハードウェア構成情報を生成する第１の工程と、第１の並列処理を実行するための回路構成の複数のデータ入力に、並列処理システムに入力されてからのレイテンシーが同一のデータが入力されるように、ハードウェア構成情報に遅延要素を加える第２の工程とを有する生成方法によりハードウェア構成情報を生成できる。

Description

明細書

並列処理システムの生成方法

技術分野

[0001] 本発明は、並列処理システムの設計に関し、定義ファイルに基づき並列処理システムのハードウェア構成情報を生成する方法および装置、さらに、定義ファイルに基づき並列処理システムをシミュレートする方法に関するものである。

背景技術

[0002] LSIあるいは ASICを設計するために幾つかの言語が用いられている。 C言語などの抽象度の高い高級言語と称されるものは、手続き的レベルの言語であり、 1命令毎にいかに処理全体が順番に実行されていくかを示すのに適している。このレベルの記述は、一般的にハードウェア依存性がなぐ適当なコンピュータで受け入れられるアプリケーションプログラムであり、 LSIの仕様、または LSIにおいて実行する処理全体を一般的に記述するために用いられる。 Verilog-HDLあるいは VHDLなどのハ一ドウエア記述言語（HDL)は、 RTLと称されることもありレジスタトランスファレベルで、特定のハードウェアにより特定の命令が実行されているデータパスやパスを駆動するシーケンスを記述するために用いられる。

[0003] アルゴリズムは、問題を解くために明確に規定され、順序付けられた有限個の規則力なる集合として定義されており、従来、並列処理は、アルゴリズムにより記述された処理全体 (アプリケーション)を順番に進める上で、独立して実行可能な部分 (処理 )を並列に実行し、処理時間を短縮する目的で用いられる。予め並列処理に適したハードウェアリソースを備えたシステムでアプリケーションを実行する場合は、コンパィラなどにより並列処理ができる部分は並列化され、実行速度を向上することがトライされる。

[0004] また、特定のアプリケーションの実行を目的としたハードウェアを設計する場合は、独立して実行できる部分を並列に処理するように回路を設計して処理時間の短縮を目指す。特開平 10 - 116302号公報に記載された技術は、並列処理および同期通信等により実行時間が定まらない処理を記述可能な HDLにより回路を設計する方法である。同期通信とは、 2つのファンクションを並行に実行する際に、それらに含まれるプロセスを送信側が準備できるまで受信側が待ち、通信が完了した後にプロセスが進行する。したがって、これらのファンクションは並列に記述されても独立して実行されず、実行時間が可変の処理となる。一方、同期通信を行わない処理は並列処理として独立して行われる。これらは、ソース言語で与えられた処理全体の内、ソース上では並列に実行するように記載された処理を、ハードウェア設計において並列に、あるいは同期通信を用いて実行して実行サイクル数を短縮することを目的とした技術である。

[0005] 近年、 LSIを構成する回路の一部をソフトウェアにより再構成できるハードウェアが提供されている。さらに、国際公開 WO03Z007155号には、再構成する基本単位を、ゲートレベルから ALUなどのある程度の規模の演算機能を備えた演算ユニットにして、複数種類の演算ユニットをマトリクス状に配置し、再構成に要する時間を短縮することが開示されてレ、る。複数の演算ユニットがマトリクス状に配置されたシステムは、それぞれの演算ユニットが並列に処理を実行できるので、膨大な数の並列処理に適したハードウェアリソースを備えたシステムと捉えることが可能である。しかしながら、この種の並列処理に適したシステムを設計するのに適した設計システムは提供されていない。

[0006] C言語などのソフトウェア設計に適した高級言語は、アルゴリズムを、それに含まれる規則を時間的な順番に処理することを前提としている。したがって、プログラムカウンタを進めて命令がシーケンシャルに実行されるように構成されており、シーケンシャルではない並列という概念を導入することは難しい。命令を並列的に記述することが許容されたとしても、それは、時間的な順番に齟齬をきたさない範囲で、独立して実行できる処理を空間的に並列に広げて実行できる程度であり、並列処理に適したハ一ドウエアリソースを積極的に使用することはできなレ、。さらに、高級言語であれば、ハードウェアに依存しない命令が記述されるために、並列に記述した命令がハードウエアで実際に開始されたり、終了したりするタイミングは不明である。したがって、処理できる範囲を空間的に広げても、設計者はハードウェア上で実際にどのように並列処理が実行されるのかは定義できなレ、し、把握することもできなレ、。 [0007] HDLは独立して動作する回路構成を記述するので、本来、並列処理を記述するものである。また、ハードウェアが明確になるので、処理が実行されるタイミングを調べたり、調整できる。このため、高級言語で与えられたアルゴリズムを実現する HDLを記述すること力 Sできる。し力、しながら、逆に、特定のハードウェアを前提として記述されるので、汎用性はなぐハードウェアが異なれば同一のアルゴリズムを実現することは不可能である。また、 HDLが対象としているハードウェアが分からなければ HDLに含まれてレ、るアルゴリズムを理解することもできなレ、。

[0008] 高級言語を特定のハードウェア用にコンパイルした結果として得られるマイクロプログラムのレベルでは、完全に独立して実行可能な命令を並列に記述する VLIW技術、複数の命令を同時にフェッチして並列実行できる命令を見つけ出して実行するス一パスケーラ技術がある。これらは時間的に並んだ処理のうち、それを実行するために用意された複数のパイプラインで空間的に並列に実行できるものを並列に処理して実行速度を改善する技術であり、時間的な順番に齟齬がおきない範囲を空間的に広げる点では高級言語と変わりはない。すなわち、マイクロプログラムもプログラム言語であり、プログラムカウンタを進めて命令を順番に実行するシーケンシャルな処理は VLIWやスーパスケーラにおいても同様に必要とされる。さらに、マイクロプロダラムは、特定のハードウェアを前提としており、 HDLと同様に汎用性は少ない。

[0009] このように、プログラムカウンタを進めて実行するプログラム言語では、高級言語であれば汎用性があり、ソフトウェア設計は行い易レ、が、並列処理に展開できる部分はプログラムカウンタを進めても独立して実行できる処理に限られてしまい、多数の並列処理に適した演算ユニットを有効に利用することは難しい。ハードウェア依存のない高級言語では、さらに、並列処理のタイミングも分からないので、マトリクス状に配置された多数の演算ユニットを並列に動作させてアプリケーションを効果的に実行する設計は不可能である。一方、 HDLは並列処理の記述は可能である力ァルゴリズムを記述したとしても特定のハードウェアを前提としてアルゴリズムが記述できるだけなので、特定のハードウェアの知識が必要である。したがって、マトリクス状に配置された多種類の演算ユニットの機能および入出力のタイミングなどをソフトウェア技術者が理解し、アプリケーションを HDLで設計することは無理がある。発明の開示

[0010] 本発明においては、並列に動作する複数の要素を備えたシステムにより、同期して独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有する定義ファイルを提供する。複数の並列記述は、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1 の並列記述であって、それら複数のデータ入力には当該システムに入力されてからのレイテンシ一が同一のデータが入力されることを示す第 1の並列記述を含む。この定義ファイルにより、ハードウェア依存性のない記述により、プログラムカウンタの必要のない形態でアルゴリズムを定義することができる。すなわち、この定義ファイルにより、従来の高級言語と類似した記述ではあるが、時間順序性のない並列記述により、ァルゴリズムに含まれる順序を時間的にではなく空間的に記述できる。

[0011] この定義ファイルは、処理させる仕事（アプリケーション）の手順を定義している点では、従来のプログラム言語と共通する。し力しながら、プログラム言語は、記述されたコンピュータに対する命令が、原則として最初から順番に、すなわち、時間的経過と共に実行されるものとして記述している。したがって、プログラム言語により定義されたアルゴリズムを実行するためには、実行する命令の順番を示すプログラムカウンタによる制御が必要となる。一方、プログラムに記述された命令はプログラムカウンタにより順番に実行されるので、変数を含む命令を実行する際は、その命令に時間的に先行して実行される命令により変数の状態は一義的に決まる。したがって、定義されたアルゴリズムは確実に実行され、実行できなくなるようなことは起こらなレ、。

[0012] 本発明の定義ファイルは、同期して独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有する。したがって、本発明の定義ファイルに定義された並列処理を実行するには、時間的な順番を示すプログラムカウンタは必要としなレ、。さらに、この定義ファイルでは、他の並列処理の出力データが入力される並列処理を示す並列記述を含むことによりアルゴリズムを定義できる。し力しながら、変数を含む並列記述では、変数の経過が一義的に定まらないとアルゴリズムが意図した通りに実行できなくなる可能性がある。そこで、複数のデータ入力を備えた第 1の並列処理を示す第 1の並列記述においては、それら複数のデータ入力には、当該システムに入力されてからのレイテンシ一が同一であるデータが入力されると解することにより、変数が不安定あるいは不確定になることを防止している。したがって、本発明の定義フアイルでは、並列記述毎に変数が一義的に定まり、アルゴリズムを並列記述により正確に定義できる。また、本発明の定義ファイルでは、並列記述にしたがって並列処理は完全に独立して実行され、同期通信などの余分な処理がなくても、また、ハードウエアを特定することによりタイミング問題を解決しなくても、アルゴリズムを正確に記述できる。

[0013] 本明細書において、入力されるデータのレイテンシ一が同一とは、それらの入力されるデータが、同期してシステムにロードされたデータ（データ群）である力、、または、その同期してロードされたデータ（データ群）のいずれかであり、 1つまたは複数の並列処理により処理されたデータであることを言う。すなわち、レイテンシ一が同一のデータとは、システムに入力されたタイミングが同一のデータ、またはそれらのデータが他の並列処理により加工されたものである。

[0014] 本発明の定義ファイルは、 HDLと同様に複数の並列記述からなり、複数の並列記述により並列処理を実行するためのプログラムカウンタは不要である。したがって、定義ファイルは、ハードウェアを記述していると言える。さらに、定義ファイルは、他の並列処理の出力データが入力されるデータ入力を備えた並列処理を示す並列記述を含み、複数のデータ入力がある場合もそれらに入力されるデータは一義的に決まる。したがって、本発明により、アルゴリズムを正確に、そして、ユーザが見て分かるように定義できるハードウェア記述言語を提供できる。さらに、ハードウェアの詳細が分からなくても各々の並列処理に入力されるデータは一義的に決まるので、実際に並列処理を行うハードウェアの詳細な情報あるいは知識は不要である。したがって、本発明の定義ファイルは、実際のハードウェアに依存せず、特定のハードウェアを前提にしないでハードウェアを記述できる。このため、ハードウェアインディペンデントで、極めて汎用的なハードウェア記述言語である。したがって、ソフトウェア技術者が簡単に L SIあるいは ASIC、特に、並列処理要素を多数含んだ LSIあるいは ASICの設計あるいは生成するのに適したツールあるいは記述となる。

[0015] さらに、本発明の定義ファイルに含まれる複数の並列記述を、それらに入力されるデータのレイテンシ一の順番に並べると、複数の並列記述が、それに含まれる変数の時間経過の順番で並ぶことになる。この状態は、命令が実行される順番に並んだプログラムと同じである。したがって、ソフトウェア技術者は、普通にプログラムを作成するのと同じ感覚で、本発明の定義ファイルを作成することが可能である。この点でも、定義ファイルは、ソフトウェア技術者が簡単に LSIあるいは ASICを設計あるいは生成するのに正に適したツールとなる。そして、本発明の定義ファイルにより、並列処理が可能な複数の要素により、アルゴリズムを空間的に割り付けることが可能となり、多数の並列に動作する要素を備えたシステムを有効に活用してアプリケーションを高速で実行できる。

[0016] 本発明の定義ファイルにおいては、並列記述毎に、入力データのレイテンシ一が同一と判断され、タイミングが調整される。したがって、定義ファイルに従いハードウヱァを生成する場合は、並列記述により規定される並列処理の単位で入力データのタイミングを調整する必要がある。並列処理を実行するための要素は、ビット単位で演算を行う演算ユニットであっても良い。 ALUなどのある程度の規模の演算機能を備えた演算ユニットがマトリクス状に配置された並列処理システムにおいては、並列記述に対して 1つまたは数個の演算ユニットを割り当てることにより並列処理を実行できる。したがって、並列記述単位でタイミングを調整するためには、遅延用の演算ユニットをカ卩えれば良ぐ本発明の定義ファイルは、複数種類の演算ユニットを接続してアブリケーシヨンに適したハードウェア構成を実現する並列処理システムを記述するのに適している。このため、本発明の定義ファイルにより、並列処理システムを効率的に設計および開発することができ、また、シミュレートすることが可能となる。

[0017] 本発明の定義ファイルは、コンピュータ読み取り可能な記録媒体に記録して提供すること力 Sでき、定義ファイルに基づき、コンピュータを用レ、て、並列に動作する複数種類の要素を備えた並列処理システムを生成できる。すなわち、定義ファイルの複数の並列記述には、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1の並列記述が含まれている。この定義ファイルに従レ、、複数種類の要素の情報を記録したハードウェアライブラリに基づき、定義ファイルの並列記述に規定された並列処理を実行するための回路構成 (ハードウェア構成)であって、複数種類の要素の少なくともいずれ力を備えた回路構成を含むハードウェア構成情報を生成する第 1の工程と、第 1の並列処理を実行するための回路構成の複数のデータ入力に、当該並列処理システムに入力されてからのレイテンシ一が同一のデータが入力されるように、ハードウェア構成情報に遅延要素をカ卩える第 2の工程とを有する生成方法により、定義ファイルに定義されたアルゴリズムを複数種類の要素により空間的に割り付けるためのハードウェアを構成する情報を生成でき、アプリケーションを実行する並列処理システムを生成できる。

[0018] 特定のハードウェアに関する情報が格納されたハードウェアライブラリにより各種類の要素で消費される時間（サイクル数）が分かる。したがって、並列処理が複数のデータ入力を備えている場合に、ハードウェアライブラリを参照することにより、それら複数のデータ入力に入力されるデータのレイテンシ一が一致するように、特定のハードウェアを前提とした遅延要素をカ卩えることができ、特定のハードウェアに定義フアイノレに定義されたアルゴリズムを正確に割付できる。複数の要素がクロックに同期して処理を実行するハードウェアであれば、ハードウェアライブラリには、複数種類の要素のそれぞれにおいて消費されるサイクル数を含む情報が格納されており、第 2の工程では、複数種類の要素の少なくともいずれかにおいて消費されるサイクル数に相当する遅延要素が加えられる。

[0019] 並列処理システムは、ハードウェア構成が固定されるものであってもよレ、。並列処理システムは、複数種類の要素の接続を変えることにより異なるハードウェア構成を再構成可能なものであっても良レ、。再構成可能な並列処理システムに対しては、複数の異なるハードウェア構成を示す情報を備えているハードウェア構成情報が出力される。

[0020] 並列処理システムを生成する本発明の方法は、並列に動作する複数種類の要素を備えたシステムを生成する装置、例えばコンパイラとしても提供することが可能である。このコンパイラは、定義ファイルに基づき、並列に動作する複数種類の要素を備えた並列処理システムを生成する生成装置であって、複数種類の要素の情報を記録したハードウェアライブラリに基づき、定義ファイルの並列記述に規定された並列処理を実行するための回路構成であって、複数種類の要素の少なくともいずれ力、を備えた回路構成を含むハードウェア構成情報を生成する第 1の手段と、第 1の並列処理を実行するための回路構成の複数のデータ入力に、当該並列処理システムに入力されてからのレイテンシ一が同一のデータが入力されるように、ハードウェア構成情報に遅延要素を加える第 2の手段とを有する。また、並列システムを設計するプロセスを適当なリソースを備えたコンピュータにより実現するためのプログラムあるいはプログラム製品として適当な記録媒体に記録したり、コンピュータネットワークを用いて提供することが可能である。この並列処理システムを設計するためのプログラムは、上述した第 1の工程と、第 2の工程と備えたプロセスをコンピュータにおいて実行可能な命令を有するプログラムである。

[0021] 本発明の定義ファイルは、複数種類の要素が、単体で 1つの並列処理を処理可能な規模の複数種類の演算ユニットを備えた並列処理システムを生成するのに適している。したがって、ハードウェアライブラリには、単体で 1つの並列処理を処理可能な程度の規模の複数種類の演算ユニットの情報を用意することが望ましい。また、複数種類の要素はビット単位で演算するものであっても良レ、。し力ながら、定義ファイルに記述される並列処理は一般にバイトあるいはワード単位のデータ処理である。したがって、ハードウェアライブラリには、バイトあるいはワード単位で異なった演算を実行可能な複数種類の演算ユニットの情報を用意し、複数の演算ユニットが配置された並列処理システムを生成することが望ましい。

[0022] 予め複数種類の演算ユニットがマトリクス状に配置され、演算ユニットを接続するネットワークあるいは回路配線の構成を変更することにより、異なるハードウェア構成を再構成可能な並列処理システムに対しては、コンパイラまたはコンパイラ用のプログラムにより、定義ファイルの内容を実行するのに適した、複数の異なるハードウェア構成を示す情報を備えたハードウェア構成情報を出力することができる。

[0023] 定義ファイルに基づいて並列処理システムを生成する際には、幾つかの最適化を施すことができる。複数の並列記述が、第 3の並列記述により規定された第 3の並列処理の少なくとも一部と同じ共通処理を含む第 2の並列処理を規定する第 2の並列記述を含んでいる場合は、第 1の工程では、共通処理に対して、複数種類の要素の少なくともいずれかを含む共通の回路構成を生成し、第 2の工程では、第 2の並列処理および共通処理の差分を実行するための回路構成を、第 1の並列処理を実行するための回路構成として、遅延要素をカ卩えることができる。第 2の並列処理および共通処理の差分を実行するための回路構成は、第 1の並列処理と同様に複数のデータ入力を備えたものとなるからである。これにより、回路を構成するための要素および、要素を繋ぐ配線などのハードウェアリソースの消費を抑制できる。

[0024] 並列処理システムを構成する複数種類の演算ユニットは、外部入力により処理を変更する手段を備えていても良い。それに対応して、複数の並列記述には、外部入力により処理が変更する並列処理を記述する並列記述を含められるようにすることが望ましい。ネットワークあるいは回路配線を変更しないでも処理内容を変更することができる並列処理システムの設計が可能となる。ネットワークあるいは回路配線と共に演算ユニットの処理内容を変更することも可能であり、さらにフレキシブルにリコンフイダラブルな並列処理システムの設計が可能となる。

[0025] 本発明の定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをシミュレートすることが可能である。定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをシミュレートする方法およびシミュレータは、定義ファィルに含まれる複数の並行処理を同期して実行する工程または手段を有し、この実行する工程では、複数の入力データを備えた並列記述を実行する際に、それら複数の入力データに、当該システムに入力されてからのレイテンシ一が同一のデータを用いる。また、定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをコンピュータによりシミュレートするためのプログラムあるいはプログラム製品も本発明により提供され、 CD— ROMなどの適当な記録媒体に記録したり、コンピュータネットワークを介して提供することができる。

図面の簡単な説明

[0026] [図 1]図 1は、定義ファイルである DIDLからハードウェア構成情報である DDDLを生成する概略構成を示す。

[図 2]図 2は、再構成可能な並列処理システムの概要を示す。

[図 3]図 3は、独立に並列に動作する複数のエレメントがマトリクス状に配置された並列処理システムを示す。 [図 4]図 4 (a)は、 DIDLの例を示し、図 4 (b)は、 DIDLの異なる例を示す。

[図 5]図 5は、コンパイラの概略処理を示すフローチャートである。

[図 6]図 6は、コンパイラの概略構成を示すブロック図である。

[図 7]図 7 (a)は、 DIDLの例を示し、図 7 (b)は、それに対応する回路構成を示す。

[図 8]図 8 (a)は、 DIDLの異なる例を示し、図 8 (b)は、最適化された例を示し、図 8 ( c)は、それに対応する回路構成を示す。

[図 9]図 9 (a)は、 DIDLのさらに異なる例を示し、図 9 (b)は、それに対応する回路構成を示す。

[図 10]図 10は、 DIDLのさらに異なる例を示す。

[図 11]図 11は、図 10に示す DIDLに対応する回路構成を示す。

[図 12]図 12は、図 11に示す回路構成をマトリクスユニットに割り付けた状態を示す。

[図 13]図 13は、 DIDLレベルでシミュレートする概略構成を示す。

[図 14]図 14は、 DIDLレベルのシミュレータの処理の概要を示すフローチャートである。

発明を実施するための最良の形態

[0027] 図 1に、本発明の定義ファイルを用いてハードウェアを設計する過程を示してある。

疋義ノアノレ I f DIDL (Device Independent Description

Language)と称されており、コンパイラ 2によりハードウェアライブラリ 3の情報を参照して、ライブラリ 3に格納されたハードウェアを用いたハードウェア構成情報 4に変換される。ハードウェア構成情報 4は、 DDDL (Device Dependent Description

Language)と称されている。コンパイラ 2は適当なハードウェア資源を備えた汎用的なコンピュータ 9を用いて実現されており、 DIDL1を解釈して DDDL4を出力する並列システム設計用のプログラム 5がインストールされることによりコンパイラとして機能する。したがって、 DIDL1は、コンピュータ読み取り可能な記録媒体 6、例えば CD— R OMあるいは磁気ディスクなどに記録されて提供される。インターネットなどのコンビュータネットワークによる通信を用いて提供することも可能であり、提供された DIDL1は、コンピュータ 9の一部となる適当な記録媒体に記録されて使用される。

[0028] 図 2に、並列処理システムを備えたプロセッサの一例を示してある。このプロセッサは、本出願人の国際公開 WO03/007155号に開示されている再構成可能なプロセッサ（RP、 Reconfigurable Processor)である。この RP20は、プログラムなどによつて与えられる命令セットに基づきエラー処理を含めた汎用的な処理を行う汎用的な構成の基本プロセッサ 21と、マトリクス状に配置された演算あるいは論理エレメントにより特定のデータ処理に適合した 1つまたは複数のデータパス（データフローあるいは擬似データフロー）がバリアブルに形成される AAP (Adaptive Application Processor)ユニット（以降では AAP) 50と、この AAP50からの割り込み処理を制御する割り込み制御ユニット 22と、 AAP50に作動用のクロック信号を供給するクロック発生部 28と、この RP20で提供可能な演算回路のフレキシビリティーをさらに向上するための FPGAユニット 27と、外部に対するデータの入出力を制御するバス制御ュニット 29とを備えてレヽる。基本プロセッサ 21と AAP50は、これらの間でデータを交換可能なデータバス 24aと、基本プロセッサ 21から AAP50の構成および動作を制御するための命令バス 24bとにより接続されている。また、 AAP50から割り込み制御ュニット 22に信号線 25を介して割り込み信号が供給され、 AAP50における処理が終了したり、処理中にエラーが発生したときは AAP50の状態を基本プロセッサ 21にフィードバックできるようになってレ、る。

[0029] AAP50と FPGA27との間もデータバス 26により接続されており、 AAP50力ら FP GA27にデータを供給して処理を行い、その結果を AAP50に返せるようになつている。さらに、 AAP50は、ロードバス 23aおよびストアバス 23bによってバス制御ュニット 29と接続されており、 RP20の外部のデータバスとの間でデータを交換できるようになっている。基本プロセッサ 21もバス 21aによりバス制御ユニット 29と接続されており、外部のデータパスとの間でデータを交換できる。

[0030] 図 3に AAP50の概要を示してある。 AAP50は、複数の算術および Zまたは論理演算を行う論理要素（論理ブロックあるいは論理ユニット（以降ではエレメントと称する ) )がマトリクス状に配置されたマトリクス部 51と、そのマトリクス部 51に対してデータを供給する入力バッファ 52aと、マトリクス部 51から出力されるデータを格納する出カバッファ 52bを備えている。これら入力バッファ 52aおよび出力バッファ 52bは、それぞれ 4つの小容量の入力メモリにより構成されており、アクセス調停ユニット 54を介して入出力バス 23aおよび 23bに接続される。

[0031] このマトリクス部 51が、データパスあるいはデータフローを再構成可能な並列処理システムの中心となる集積回路区画であり、並列に動作する複数種類の演算ユニットであるエレメント 55が縦方向に 4つのラインを構成するようにアレイ状あるいはマトリクス状に配置されている。そして、マトリクス 51に含まれている複数種類のエレメントの情報がハードウェアライブラリ 3に格納されている。このマトリクス部 51は、これらのェレメント 55の間に配置された、横方向に延びた行配線群 57と、縦方向に延びた列配線群 58とを備えている。列配線群 58は、列方向に並んだ演算ユニット 55の左右に分かれて配置された配線群 58xおよび 58yが 1対になっている。行配線群 57および列配線群 58との交点にはスイッチングユニット 59が配置されており、行配線群 57の任意のチャンネルを、列配線群 58の任意のチャンネルに切り替えて接続できるようになっている。各々のスイッチングユニット 59は、設定を記憶するコンフィグレイシヨン R AMを備えており、プロセッサ部 21から供給されるデータによりコンフィグレイシヨン R AMの内容を書き換えることにより、行配線群 57と列配線群 58の接続を動的に任意に制御できる。このため、このマトリクス部 51においては、複数のエレメント 55の全部あるいは一部が配線群 57および 58により接続されて形成されるデータフローの構成を任意に動的に変更することができる。

[0032] RP20においては、これらのエレメント 55が並列に動作し、各種類のエレメント 55の機能、遅延、入出力データの条件などの情報がハードウェアライブラリ 3に格納されている。また、これらのエレメント 55は、クロック発生部 28から供給されるクロック信号に同期して稼動するので、種類あるいはエレメント内部で実行される処理により消費されるサイクル数 (クロック数）が決まる。したがって、ハードウェアライブラリ 3には各種類のエレメント毎に、入力データを処理して出力するために消費されるサイクル数が遅延情報として格納されている。さらに、各種類のエレメント 55の配置と、配線群 57 および 58、スイッチングユニット 59の情報もハードウェアライブラリ 3に格納されており、コンパイラ 2からは、 DIDL1に定義されたアルゴリズムを実現するための、エレメント 55の接続情報（データフロー構成）がハードウェア構成情報 (DDDL) 4として出力される。このため、 DDDL4に従ってエレメント 55が配線群 57および 58で接続されるようにマトリクス部 51を制御することにより、 DIDL1に定義されたアルゴリズムをマトリクス部 51のエレメント 55により空間的に割り付けることが可能となる。

[0033] 各エレメント 55は、 1組の列配線群 58xおよび 58yのそれぞれ力入力データを選択するための 1組のセレクタ 53と、選択された入力データに特定の算術および/または論理演算処理を施し、出力データとして行配線群 57に出力する内部データパス部 56を備えている。そして、本例のマトリクス部 51には、各行毎に異なる処理を行うための内部データパス部 56を備えた種類の異なるエレメント 55が並んで配置されている。例えば、第 1行目に配列されたエレメント 55は、入力バッファ 52aからのデータを受信する処理に適したデータパス部（LD) 56iを備えている。第 2行目に配置されたエレメント 55aは、入力バッファ 52aに外部デバイスからデータを書き込むためのェレメントであり、ブロックロードするためのアドレスを発生するのに適した内部データパスを具備するデータパス部（BLA) 56aを備えている。マトリクス 51を構成する全てのエレメント 55は、内部データパスの構成あるいは初期値などがある程度変更できるようになつている。その設定は、各々のエレメント 55のコンフィグレイシヨン RAMに、制御バス 24bを介して基本プロセッサ 21から制御信号により指示される。

[0034] 第 3行目に配置されたエレメント 55bは、入力 RAMの各々より所望のデータをマトリタス部 51へロードする入力読み出しアドレスを発生するデータパス部（LDA) 56bを備えている。第 4行目および第 5行目に配列されたエレメント 55cは、算術演算および論理演算に適したデータパス部（SMA) 56cを備えている。このデータパス部 56cは、たとえば、シフト回路、マスク回路、論理演算ユニット ALUおよび ALUで処理する演算をセットするコンフィグレイシヨン RAMを備えている。したがって、プロセッサ 21 が書き込んだ命令により、マトリクス部 51へ入力されたデータを加算あるいは減算したり、比較したり、論理和あるいは論理積を取ったりすることができ、その結果がエレメント 55の出力信号として出力される。

[0035] その下の行に配列されたエレメント 55dは、データが伝送されるタイミングを遅延する処理に適したデータパス部（DEL) 56dを備えている。その下の行に配列されたェレメント 55eは、乗算器などを含む乗算処理に適したデータパス部（MUL) 56eを備えている。さらに異なるエレメント 55fとしては、マトリクス部 51の外部に用意された FP GA27とのインターフェイス用のデータパス部 56fを備えたエレメントも用意されており、データをいつたん FPGA27に供給して処理した後、再びマトリクス部 51に戻して処理を継続することができる。

[0036] 再構成可能な集積回路区画であるマトリクス部 51には、さらに、ストア用のアドレスを発生するのに適したデータパス部 56gおよび 56hをそれぞれ備えたエレメント 55g および 55hが配置されている。これらは、出力バッファ 52bを介して外部デバイスにデータを出力するための制御を行う。そして、最下段には、ストア用にデータを出力するのに適したデータパス部（ST) 56sを備えたエレメント 55が配列されている。したがつて、マトリクス部 51を用いて、エレメント 55の接続を動的に変更することにより、様々なデータフローをフレキシブルに構成でき、様々な処理を行うことができる。

[0037] 図 4 (a)および図 4 (b)に、 DIDLの簡単な例を示してある。図 4 (a)に示した DIDL1 Oaは 2行の並列記述 11aおよび l ibを有している。並列記述 11 aは、変数 aに変数 b を代入する処理 12aを規定している。また、並列記述 l ibは、変数 cに変数 aを代入する処理 12bを規定している。したがって、処理 12bは、他の処理 12aの出力データをデータ入力とする処理となる。これらの処理 12aおよび 12bは、並列に動作する要素により同期して独立に行われる並列処理であり、 DIDLlOaはそれらの並列処理 1 2aおよび 12bを同期して独立に実行するハードウェア構成を示している。この DIDL 10aにより定義されたハードウェアにおいては、あるサイクル tOで変数（a、 b、 c)が（1 、 2、 3)であれば、次のサイクル tlで変数（a、 b、 c)は（2、 2、 1)となる。

[0038] 一方、この DIDLlOaの記載がプログラム 19aだと理解すると、変数 cは 2になるので、得られる結果は異なる。し力ながら、サイクル tlに続く次のサイクル t2において、 DIDLlOaにより定義されたハードウェアにおいては、変数（a、 b、 c)は（2、 2、 2)となり、 DIDLlOaの記載がプログラム 19aであると理解した場合と同じ結果が得られる。

[0039] 図 4 (b)に示した DIDLlOa'は、並列記述 1 laおよび 1 lbの順番が入れ替わっている力それぞれの記述に対応する処理 12aおよび 12bが独立して行われるので各サイクル tO— 12における演算結果は変わりなレ、。これに対し、図 4 (b)の記述がプログラム 19bであると理解すると、処理 12aと 12bの順番が入れ替わるので、変数（a、 b 、 c)は（2、 2、 1)となる。すなわち、処理が入れ替わったプログラムの結果は、 DIDL 10aまたは 10bのサイクル tlにおける値に合致する。

[0040] このように、 DIDLlOaにより、プログラム 19aおよび 19bのいずれのアルゴリズムも実現するハードウェアを記述できる力プログラム 19aおよび 19bと同一の結果が得られるサイクルが異なる。そこで、本発明においては、 DIDLlOaを、少なくとも 1つの他の並列処理の出力データを少なくとも 1つのデータ入力とする並列処理を示す並列記述によりアルゴリズムを並列システムに割り付ける定義ファイルとし、さらに、複数のデータ入力を備えた並列処理 (第 1の並列処理）を示す並列記述（第 1の並列記述）においては、それら複数のデータ入力には、システム、すなわちマトリクス 51に入力されてからのレイテンシ一が同一であるデータが入力されると規定することにより、プログラムと同一のアルゴリズムにより演算が可能なハードウェア構成を定義できるようにしている。

[0041] 図 5に、 DIDL用のコンパイラ 9の概略処理を示してある。まず、ステップ 31で DIDL 1を読み込み、ステップ 32で DIDL1に含まれた並列記述を解釈する。そして、ハードウェアライブラリ 3に格納されたハードウェア構成に基づき、並列記述に示された並列処理を行う回路構成を生成する。図 3に示した再構成可能なプロセッサのマトリクス部 51により並列処理を行うハードウェア構成情報 4を生成するために、ハードウェアライブラリ 3に格納された、各種のエレメント 55の情報と、酉己線 57および 58とスィッチ 59 の情報とを用レ、、エレメント 55を備え、並列に動作する回路構成を生成し、ハードウエア構成情報の DDDL4としてコンパイラ 2の適当なメモリに格納する。各エレメント 5 5の情報としては、例えば、演算機能、入力条件、処理サイクルがある。マトリクス部 5 1では、各エレメント 55の個数および配置は決まっているので、並列処理を行う回路構成のハードウェア情報 4としては、並列処理のために選択されたエレメント 55と、その位置および選択されたエレメント 55を接続する配線ノレートといった回路情報を含むものが生成される。

[0042] ステップ 32において生成された回路構成が複数のデータ入力を備えている場合は、ステップ 33において、それら複数のデータ入力に、並列処理システム、すなわちマトリタス部 51に入力されてからのレイテンシ一が同一のデータが入力されるように、遅延要素となるデータパス部（DEL) 56dを備えたエレメント 55dの情報を DDDL4に加える。したがって、 DIDL1に、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1の並列記述が含まれている場合は、第 1の並列処理を実行するためにステップ 32において生成された回路構成の複数のデータ入力に、並列処理システムに入力されてからのレイテンシ一が同一のデータが入力されるように、ステップ 33において、ハードウェア構成情報である DDDL4に遅延要素を加える。

[0043] さらに、ステップ 32および 33では、幾つかの最適化が行われる。 DIDL1に含まれる並列記述により規定された並列処理（第 2の並列処理）が、他の並列記述により規定された並列処理 (第 3の並列処理）の少なくとも一部と同じ共通処理を含む場合は、ステップ 32では、共通処理に同一のエレメント 55を含む共通な回路構成を割り当て、ステップ 33では、共通構成に含まれないエレメント 55、すなわち、第 2の並列処理および共通処理の差分を実行するための回路構成に対して、必要であれば遅延エレメント 55dを加えてレイテンシーを調整する。

[0044] そして、ステップ 34において、ステップ 32および 33で生成された回路構成とそれらを接続する情報を含む DDDL4を出力する。マトリクス部 51は、複数のエレメント 55 の接続を変えることにより異なるハードウェア構成を再構成可能となっている。このため、 DDDL4は、複数の異なるハードウェア構成を示す情報となっており、 DDDL4 によりマトリクス部 51を再構成することができる。これらのステップは、 DIDL1に含まれる並列記述を個別に読み込んで行うことも可能であり、 DIDL1に含まれる全てあるいは一部の並列記述を読み込んで行うことも可能である。

[0045] これらのステップ 31— 34を含む並列処理システムの生成方法は、ステップ 31— 34 の各工程を汎用コンピュータ 9で実行可能なコンパイラプログラムあるいはプログラム製品 5として適当な記録媒体に記録して提供することができる。また、ネットワークを介してプログラム製品を提供することも可能である。そして、汎用コンピュータ 9にプログラム 5をインストールすることにより汎用コンピュータをコンパイラ 2として使用できる。したがって、コンパイラプログラム 5をインストールされたコンピュータ 9は、図 6に示すように、 DIDL1を読み込む機能 35と、ハードウェアライブラリ 3に基づき、 DIDL1に記述された並列処理を実行するための回路構成を生成する機能 (第 1の手段） 36と、回路構成が複数のデータ入力を備えている場合は、それら複数のデータ入力に対し、マトリクス部 51に入力されてからのレイテンシ一が一致するデータが供給されるように遅延エレメント 55dを加える機能（第 2の手段） 37と、生成された回路構成を、エレメント間の接続情報を含めて DDDL4として出力する機能 38を備えたコンパイラ 2として動作する。

[0046] 図 7 (a)に、異なる DIDLの例を示してある。この DIDLlObには、システム、本例ではマトリクス部 51に入力される変数を示す記述 11cと、内部変数を示す記述 l idと、足し算を示す記述 l ieとが含まれている。この DIDLlObがコンパイラ 2に読み込まれて処理されると、図 7 (b)に示すように、算術演算が可能なデータパス 56cを備えた演算エレメント 55cを有する回路構成 18bが生成される。この回路構成 18bは、演算ェレメント 55cに、変数 bと cが入力される 2つのデータ入力と、変数 aが出力されるデータ出力とを備えている。

[0047] 図 8 (a)に、さらに異なる DIDLの例を示してある。この DIDLlOcには、変数に関する記述 11cおよび l idに加え、 2つの並列処理 12fおよび 12gを示す並列記述 l lfおよび l lgが含まれている。この DIDLlOcがコンパイラ 2に読み込まれると、並列処理 12fおよび 12gは共通した処理を含んでいるので、ステップ 32において、共通の部分に対して共通の回路構成 17cが生成される。すなわち、 DIDLlOcは、図 8 (b)に示すように、並列処理 12gが並列処理 12g'に最適化される。

[0048] 差分の処理を行う並列処理 12_§Ίま、他の並列処理 12fの出力データ「a」が入力されるデータ入力と、他の並列処理 12fを経ないデータ「d」が入力されるデータ入力とを含む複数のデータ入力を備えた第 1の並列処理となる。したがって、並列処理 12g 'を実行する回路構成に含まれる演算エレメント 55cは、変数 aが供給される入力と、変数 dが供給される入力とを備えている。変数 aは、マトリクス部 51に入力される変数 bおよび cに対し、演算エレメント 55cの処理サイクル分だけ遅れる変数である。また、変数 dは、他の変数 bおよび cと同時にマトリクス 51に入力される変数である。このため、ステップ 33においては、並列処理 12g'を行うエレメント 55cに入力される変数 aと変数 dとのレイテンシーを調整するように、マトリクス部 51に入力される変数 dを、並列処理 12fを行う演算エレメント 55cのサイクル数分だけ遅らせる遅延エレメント 55dが揷入される。

[0049] 演算エレメント 55cで足し算を行った場合に消費されるサイクル数は、ハードウェアライブラリ 3に格納されている。このため、ステップ 33においては、ハードウェアライブラリ 3に格納されている情報に基づき、足し算のエレメントにおいて消費されるサイクル数に相当するサイクルを消費する遅延エレメント 55dが DDDL4に追加される。その結果、 DDDL4は、図 8 (c)に示す回路構成 18cを含むハードウェア構成情報を含んで生成され、ステップ 34においてコンパイラ 2から出力される。なお、以降では、説明を簡単にするために、特に記載しないかぎり、エレメントにおいては 1サイクルで処理されるものとして説明する。

[0050] 図 9 (a)に、さらに異なる DIDLの例を示してある。この DIDLlOdには、変数に関する記述 11cおよび l idにカ卩え、 4つの並列処理 12h— 12kを示す並列記述 l lh— 11 kが含まれている。この DIDLlOcがコンパイラ 2に読み込まれると、まずは、回路構成を生成するステップ 32において、並列処理 12h— 12kを実行するための演算エレメント 55cを用いた回路構成が生成される。並列処理 12kに入力される 1つの変数 cは、マトリクス 51に入力された変数（以降ではシステム入力変数) aを入力とする並列処理 12hの出力である。また、並列処理 12kに入力される他の変数 eは、システム入力変数 aおよび bを入力とする並列処理 12iの出力をさらに入力とする並列処理 1 ¾の出力である。したがって、レイテンシーを調整する工程 33においては、並列処理 12k に入力される変数 cと変数 eとのレイテンシーを調整するために、変数 eに対して変数 cを遅らせて最後の足し算を行うエレメント 55cのデータ入力に供給するための遅延エレメント 55dが追加される。その結果、図 9 (b)に示す回路構成 18dが生成され、複数のエレメント 55を接続するハードウェア構成情報、すなわち DDDL4としてコンパィラ 2から出力される。

[0051] 図 9 (a)の記述をプログラム 19dとして考えた場合、処理 12h— 12kは時間軸に従つて上から順番に行われる。したがって、処理 12kで演算される変数 cおよび変数 e は、それぞれ、先行する処理 12hおよび 1¾によりそれぞれ決定されたものとなる。一方、図 9 (a)の記述を単に並列実行される複数の処理の記述であると考えると、並列処理 12kの変数 cおよび変数 eは、 1サイクル前に定まった値となり、プログラム 19dとして考えた場合と処理 12kの出力が異なる。これに対し、図 9 (a)の記述が本発明の定義ファイル、すなわち DIDLlOdであるとすると、並列処理 12kの変数 cおよび変数 eは、レイテンシ一が同一であると解釈される。したがって、 2サイクル前に確定した変数 cが遅延エレメント 55dを介して 1サイクル前に確定した変数 eと同期を取って並列処理 12kに入力される。その結果、並列処理 12kの出力 fは、変数 aおよび bを入力してから 3サイクル後にプログラム 19dと同じになり、並列処理を記述した DIDLlOdによりプログラム 19dと同じ結果が得られる。

[0052] 並列処理を記述した DIDLlOdは、それに含まれる記述 l lh I lkの順番を変えても処理される内容は同じである。これに対し、プログラム 19dは、処理がならんだ順番、すなわち、時系列でアルゴリズムを定義しているので、記述を入れ替えると処理される内容は異なる。し力、しながら、複数の並列記述に対して入力変数のレイテンシーが同一になるという定義を導入することにより、プログラムとして記述されたファイルを、並列処理を定義するファイル、すなわち、ハードウェアを定義するファイルとして理解すること力可能となる。この結果、プログラマ一は、普通に時系列に従ってアルゴリズムを示したプログラムを記述することにより、並列処理システムのハードウェアを記述する本発明の定義ファイルを作成することが可能となる。したがって、本発明の定義ファイルである DIDLを用いることにより、プログラマ一はプログラムを作成するのと同じ感覚でハードウェア設計を行うことができる。

[0053] さらに、定義ファイルでは、並列処理に入力される変数のレイテンシ一が同一と理解されるだけであり、特定のハードウェアを前提としなレ、。すなわち、レイテンシ一が同一の入力変数は、同期して、あるシステム（本例ではマトリクスユニット 51)にロードされたデータ群に含まれるもの力、、またはその同期してロードされたデータ群のいずれかが、他の並列処理により処理されたものである、同期してシステムに入力された変数由来であること以外は、実際のハードウェアを前提として設計するとき以外に理解する必要がない。したがって、本発明の定義ファイルは、ハードウェアに依存しないハードウェア記述言語であると言うことができる。すなわち、どのようなハードウェアを前提としても解釈することができ、ハードウェアが特定されれば、そのハードウェアに定義ファイルに記述されたアルゴリズムを割り付けることができる。したがって、本例の DIDLのような定義ファイルは、時間的ではなぐ空間的にアルゴリズムを展開できる言語ということができる。このため、プログラムで記述できるアルゴリズムは、本例の DIDLを用いることにより、すべて、並列に動作する複数の要素、本例であればエレメント 55を組み合わせた回路により実行させることができ、 DIDLにより、実行するためのハードウェア構成を記述することができる。

[0054] 図 10に、さらに異なる DIDLの例を示してある。この DIDLlOeには、外部から与えられる所定の数（numOfData)の入力変数 inの最大値 aを検索する処理が記述されている。初期値をセットする記述 111に続く部分が並列処理を記述した部分であり、入力変数 inとそれまでの最大値 aとを比較して最大値をセットする並列処理 12mの並列記述 11mと、カウンターを進める並列処理 12ηの並列記述 1 Inと、処理 12ηのカウントアップした値が所定の数 numOfDataに達したら処理 12mの最大値 aを出力する並歹 IJ処理 12οの並歹 IJ記述 l loとを備えてレヽる。処理 12οでは、上記の処理 12mおよび 12ηに要するサイクル数の差を吸収するために、遅延素子を挿入して 2つのデータ入力に供給される変数のレイテンシ一が調整される。

[0055] 図 11に、この DIDLlOeがコンパイルされたハードウェア構成 18eを模式的に示してある。回路構成を生成するステップ 32において、並列処理 12mは、演算エレメント 55cを用いて回路構成され、並列処理 12ηは、アドレス生成用のエレメント 55bを用いて回路構成され、並列処理 12οは 2つの演算エレメント 55cを用いて回路構成され、それらの回路構成を示す DDDL4が生成される。処理 12mを行う演算エレメント 55 cにおいて消費されるサイクル数力処理 12ηのカウント処理を行うエレメント 55bにおいて消費されるサイクル数より多レ、。このため、遅延エレメント 55dが並列処理 12ο のカウンター値を入力する側に追加される。これにより、並列処理 12οのデータ入力に供給されるデータ、すなわち、処理 12mの出力と処理 12ηの出力のレイテンシーが調整される。なお、処理 12οの出力側に配置された 2つの遅延エレメント 55dは、マトリタス部 51が 3つのセグメントに別れており、最初のセグメントで処理 12m— 12οの回路が構成されるので、他のセグメントを通過して出力用のエレメント 56sにデータを転送するためのものである。

[0056] 図 12は、図 3に示したマトリクス部 51に配置されたエレメント 55に図 11に示した回路構成を割り付けた状態が示されている。本例においては、エレメント 55が既にマトリタス状に配置された再構成可能なプロセッサ 20のマトリクス部 51に、 DIDLlOeのァルゴリズムを割り当てている。したがって、図 11に示したハードウェア構成の情報は、図 12に示したように、選択されたエレメントの配置と、それらを接続する配線ノレートの情報としてコンパイラ 2で生成され、 DDDL4として出力される。なお、アドレスを生成するエレメント 55aおよび 55bは、入力変数 inを外部から入力するために使用されている。また、本図には示していないが、出力用のアドレスを生成するエレメント 55gおよび 55hも同様に使用されている。

[0057] 本例の並列処理システム 20は、エレメント 55がマトリクス状に配置された再構成可能なプロセッサ (集積回路装置）であり、各エレメント 55は、上述したように、 ALUなどのある程度の規模の演算機能を備えており、 1つのエレメントにより 1つの並列処理をほぼ実行できる規模となっている。また、各エレメント 55は、データを 8ビット、 16ビットあるいは 32ビットなどのバイトあるいはワード単位で、特定の目的のために処理するのに適した演算ユニットである。そして、入力データと出力データとをフリップフロップなどを使ってラッチし、クロック信号で同期している。すなわち、各エレメント 55における入力と出力はクロックで同期されている。したがって、各エレメント 55で消費されるサイクルは予め予想することができる。さらに、各エレメントは特定の処理を行うのに適したある程度の規模の演算機能を備えてレ、るので、 DIDL1に記述された並列処理にエレメントの単位でハードウェアを割り当てて回路構成することができる。したがつて、本例の並列処理システムであるマトリクスユニット 51を前提として DIDL1を解釈すると並列処理で消費されるサイクルは容易に予想でき、回路構成を生成するのが容易であり、さらにレイテンシー調整も容易に行える。このため、ある程度の規模の演算能力を備えて、 1つの並列処理をエレメント単位でほぼ実行できるマトリクス部 51を備えたデータ処理装置である RP20は、本発明の定義ファイルからハードウェアを生成するのに適したアーキテクチャであると言える。

[0058] また、エレメント 55の単位で並列処理が割り付けられ、サイクル数も管理されるので、 DIDL1で定義されたアプリケーションを実行している途中で、あるエレメント 55の機能を外部入力により変えても、他の並列処理に予期しない影響を及ぼさずにアプリケーシヨンを実行させることができる。機能を変えたエレメント 55におけるサイクル数が変動するのであれば、それに対応できるように遅延エレメント 55dを接続しておき、遅延エレメント 55dの内部のサイクル数を同様に外部入力により変更し、他のエレメント 55で形成されたデータフローに影響を及ぼさずに特定のエレメント 55の処理をダイナミックに変更することが可能である。

[0059] 図 13に、 DIDLレベルのシミュレータ 67を示してある。このシミュレータ 67は汎用のコンピュータ 9にシミュレータ用のプログラム 68をインストールすることにより構成される。したがって、本発明の定義ファイルである DIDL1に基づき、並列に動作する複数種類の要素を備えたシステムをコンピュータ 9によりシミュレートするためのプログラムあるいはプログラム製品 68も、 CD-ROMなどの適当な記録媒体に記録したり、コンピュータネットワークを介して提供することができる。

[0060] 図 14にシミュレータ 67の概略動作をフローチャートにより示してある。まず、ステツプ 71で DIDL1を読み込む。次に、ステップ 72で、 DIDL1に記述された複数の並列処理を同期して実行する。この際、第 1の並列記述に示された、複数のデータ入力を備えた第 1の並列処理については、それら複数のデータ入力に、システムに入力されてからのレイテンシ一が同一のデータを入力する。例えば、システムに入力され、他の並列処理で加工されないデータとして定義されているデータ（システム入力変数 )に対するレイテンシ一が同一になるデータを用いる。ステップ 73で終了条件、例えば、所定の回数、並列処理を繰り返して実行したり、 DIDL1に記述された並列処理の結果が所定の値に達するなどの条件が成立すると、ステップ 74でシミュレーションした結果を出力する。これにより、ハードウェアに依存しないで、 DIDL1に記述されたハードウェアの動作をシミュレートすることができる。

[0061] 以上に説明したように、本発明においては、同期して独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有する定義ファイルであって、複数のデータ入力を備えた並列記述においては、それら複数のデータ入力に対してシステムに入力されてからのレイテンシ一が同一のデータが供給されると解釈する定義フアイルを提案している。この定義ファイルは、並列処理を記述するものであり、ハードゥエァ記述ファイルであると理解することができ、また、そこにはハードウェア自体は表れないのでハードウェア依存性のないハードウェア記述であると言うことができる。さらに、並列記述であるので、プログラムカウンタの必要のない形態でアルゴリズムを定義すること力 Sできる。

したがって、本発明の定義ファイルにより、従来の高級言語と類似した記述ではあるが、時間順序性のない並列記述により、アルゴリズムに含まれる順序を時間的にではなく空間的に記述でき、並列に動作する複数の要素を備えた並列処理システムの生成を短期間で容易に行うことが可能となる。特に、 ALUなどのある程度の規模の演算機能を備えた演算ユニットがマトリクス状に配置された並列処理システム、さらには、演算ユニットの接続を変えられる再構成可能なデータ処理システムを設計したり開発したりするのに本発明の定義ファイルは有用である。

Claims

請求の範囲

[1] 定義ファイルに従い、並列に動作する複数種類の要素を備えた並列処理システムを生成する方法であって、

前記定義ファイルは、独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有し、前記複数の並列記述は、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1 の並列記述を含んでおり、

前記複数種類の要素の情報を記録したハードウェアライブラリに基づき、前記定義ファイルの並列記述に規定された並列処理を実行するための回路構成であって、前記複数種類の要素の少なくともいずれ力を備えた回路構成を含むハードウェア構成情報を生成する第 1の工程と、

前記第 1の並列処理を実行するための回路構成の複数のデータ入力に、当該並列処理システムに入力されてからのレイテンシ一が同一のデータが入力されるように

、前記ハードウェア構成情報に遅延要素を加える第 2の工程とを有する、生成方法。

[2] 前記並列処理システムは、前記複数種類の要素の接続を変えることにより異なるハ一ドウエア構成を再構成可能であり、前記ハードウェア構成情報は、複数の前記異なるハードウェア構成を示す情報を備えている、請求項 1の生成方法。

[3] 前記複数種類の要素は、単体で前記定義ファイルの 1つの並列記述に規定された並列処理を処理可能な規模の複数種類の演算ユニットを含んでレ、る、請求項 1の生成方法。

[4] 前記複数種類の要素は、バイトあるいはワード単位で異なった演算を実行可能な複数種類の演算ユニットを含んでいる、請求項 1の生成方法。

[5] 前記ハードウェアライブラリには、前記複数種類の要素のそれぞれにおいて消費されるサイクル数を含む情報が格納されており、

前記第 2の工程では、前記複数種類の要素の少なくともいずれかにおいて消費されるサイクル数に相当する前記遅延要素を加える、請求項 1の生成方法。

[6] 前記複数の並列記述は、第 3の並列記述により規定された第 3の並列処理の少なくとも一部と同じ共通処理を含む第 2の並列処理を規定する第 2の並列記述を含んでおり、

前記第 1の工程では、前記共通処理に対して、前記複数種類の要素の少なくともいずれかを含む共通の回路構成を生成し、

前記第 2の工程では、前記第 2の並列処理および前記共通処理の差分を実行するための回路構成を、前記第 1の並列処理を実行するための回路構成として、前記遅延要素を加える、請求項 1の生成方法。

[7] 定義ファイルに従い、並列に動作する複数種類の要素を備えた並列処理システムを生成する装置であって、

前記複数種類の要素の情報を記録したハードウェアライブラリに基づき、前記定義ファイルの並列記述に規定された並列処理を実行するための回路構成であって、前記複数種類の要素の少なくともいずれ力を備えた回路構成を含むハードウェア構成情報を生成する第 1の手段と、

、前記ハードウェア構成情報に遅延要素を加える第 2の手段とを有する、生成装置。

[8] 前記並列処理システムは、前記複数種類の要素の接続を変えることにより異なるハ一ドウエア構成を再構成可能であり、前記ハードウェア構成情報は、複数の前記異なるハードウェア構成を示す情報を備えている、請求項 7の生成装置。

[9] 定義ファイルに従い、並列に動作する複数種類の要素を備えたシステムを設計するプロセスをコンピュータにより実行するためのプログラムであって、

前記定義ファイルは、独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有し、前記複数の並列記述は、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1 の並列記述を含んでおり、前記システムを設計するプロセスは、前記複数種類の要素の情報を記録したハードウエアライブラリに基づき、前記定義ファイルの並列記述に規定された並列処理を実行するための回路構成であって、前記複数種類の要素の少なくともいずれかを備えた回路構成を含むハードウェア構成情報を生成する第 1の工程と、

、前記ハードウェア構成情報に遅延要素を加える第 2の工程とを有する、プログラム。

[10] 並列に動作する複数の要素を備えたシステムにより、同期して独立に行われる複数の並列処理をそれぞれ規定した複数の並列記述を有する定義ファイルであって、前記複数の並列記述は、他の並列処理の出力データが入力されるデータ入力を少なくとも含む複数のデータ入力を備えた第 1の並列処理を示す第 1の並列記述であって、それら複数のデータ入力には当該システムに入力されてからのレイテンシ一が同一のデータが入力されることを示す第 1の並列記述を含む、定義ファイルが記録されてレ、るコンピュータ読み取り可能な記録媒体。

[11] 前記複数の並列記述は、前記複数の要素が動作するクロックに同期して実行される前記複数の並列処理をそれぞれ規定する、請求項 10の記録媒体。

[12] 定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをシミュレートする方法であって、

前記定義ファイルに規定された前記複数の並行処理を同期して実行する工程を有し、この工程では、前記第 1の並列処理の複数のデータ入力に、当該システムに入力されてからのレイテンシ一が同一のデータを入力する、シミュレーション方法。

[13] 定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをシミュレートするシミュレータであって、

前記定義ファイルに規定された前記複数の並行処理を同期して実行する手段を有し、この実行する手段では、前記第 1の並列処理の複数のデータ入力に、当該システムに入力されてからのレイテンシ一が同一のデータを入力する、シミュレータ。定義ファイルに基づき、並列に動作する複数種類の要素を備えたシステムをコンビユータによりシミュレートするためのプログラムであって、

前記定義ファイルに規定された前記複数の並行処理を同期して実行する工程をコンピュータにおいてシミュレートする際に、前記第 1の並列処理の複数のデータ入力に、当該システムに入力されてからのレイテンシ一が同一のデータを入力する、プログラム。