JEITA 知識情報処理技術に関するシンポジウム
「リンクするデータ・リンクするサービス」
ちょっと覗いてみたので、いい加減なメモと感想を載せときます。
主催 電子情報技術産業協会(JEITA) 知識情報処理技術専門委員会
日時 2011年3月1日
★特別講演1 「リンクするデータの現状と展望」
ゼノン・リミテッド・パートナーズ代表 神崎 正英 氏
<メモ>
■セマンティック・ウェブとリンクするデータ
・技術群としてのセマンティック・ウェブは複雑だけど、基本層(URI、RDF)だけでも現実的に利用できる。
・WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する
・URIを識別だけでなくリンク(参照解決可能)にも用いる
■Linking Open Date (LOD)プロジェクト
・データのサイロからリンクする公開データへ
■データ共有のアプローチ
・項目名:スキーマの共有
。著者と作者とcreator 横断検索やデータベース統合のために項目名を標準化
・データ値:統制語彙の利用
。タグの付け方、値を共有
・対象:UNAとデータ名
。ウェブではUNA(Unique Name Assumption 唯一名仮説)が成り立たない
。対象実態が同じものに別の名前が使われる(書誌ID、登録番号)
■アプローチの色々
・LODのハブ DBpedia(Wikipediaの情報ボックスを中心に構造化可能なデータをRDFとして抽出)
・件名標目のウェブ WebNDLSH、LCSH
。シソーラスを連携させる
・名称典拠
。同姓同名の識別、同一人物の複数の名前(ペンネーム)の集約
・地名典拠としてのGeonames
。地名にURIを与える
※地名の典拠は難しい。東京は東京都を指すのか、東京駅をさすのか
・音楽データの共有 MusicBrainz
■何がつながっているか、何がつながってほしいか
・シソーラス同士のつながりが中心
・Wikipediaで完結しても面白くない。いろんなコンテンツがリンクして思わぬ発見がある。
・多様なコンテンツがLODを介してつながらないか
。BBCの記事や情報ページを内部LOD+DBpeadiaなどにリンク
。HTML文書内に構造化データを埋め込む
。FacebookとOpenGraphProtoco (いいねボタン連動)
■RDFaからLODへ
・多くのRDFaはLODになっていない
・relを使おう
■データの共有と品質
・データ品質の考え方
。LODでリンクしているデータの品質は一様ではない(典拠もいいねも一緒)
。語彙使用の正確さやリンク関係の適切さ、データ値の一貫性
。データの更新(メンテナンス)
・問題あり?それがウェブ?
。低品質のデータは、併合したり推論を行おうとすると破綻する
。ウェブは不完全、つながることにまず意義がある
。文脈抜きでの「意味」表現はもともとできない
・データ品質の管理
。専門家によるデータ品質管理
。ツールを使った品質向上:Google Refine
。Wikiのような分散型
<感想>
不完全でも、まずつなげてしまおうというのがすごく良かった。
たどれない情報は、存在しないも同然であるし。発信された情報量が多い状況なので、少々乱暴でも人力ではなく機械的にリンクする仕組みは必要だと思う。
★特別講演2 「世界と日本におけるGov2.0の現在」
アカデミック・リソース・ガイド(株)代表取締役/プロデューサー 岡本 真 氏
<メモ>
■Gov2.0の要素-3要素での組成
1.透明性(Transparency)
2.参加(Participation)
3.協同(Collaboration)
■Gov2.0の構成-2部構成の関係
透明性→←参加・協同
透明性がある程度整備されるにつれて、参加協同が増えていく。
(情報公開が進むと、市民の参加が増える)
■海外でのGov2.0の動き
・2人のトップによる主導
。イギリス:ブラウン前首相、アメリカ:オバマ大統領
・2人のティムによる呼応
プラットフォームとしての政府 ティム・オライリー ティム・バーナーズ=リー
■日本でのGov2.0の動き
・中央省庁の動き
。経済産業省を中心とした動き(アイデアボックス)
・研究機関、研究支援施設の動き
。国立情報学研究所 CiNiiウェブAPIコンテスト
。国立国会図書館 レファレンス協同データベースAPI腕自慢
・LODの動き
。NII武田研究室を中心としたLODAC
■海外詳細動向
・The Commons
。図書館、博物館、美術館、文書館×flickr
。写真データにデータ付与
・Open311のウェブ化
。Open311とは、ちょっと困った身の回りの相談を受け付ける窓口
・公開データに基づく官民の協同
。政府から課題とデータの情報公開をするので、解決するシステムを作って
。仕様書が先でなく、製品が先への
■日本の詳細動向
・経済産業省 オープンガバメントラボ
。アイデアボックス、データボックス
・福島町議会(北海道) 議案、説明資料の事前公開
・横浜市統計GIS
。統計情報の可視化と自動計算
。Google/Yahoo!との連携 ←行政が民間のデータを使った事例
■日本でのGov2.0のこの先の課題
・リンクするデータからリンクするサービスへ
。LODの潮流
・リンクするサービス
。心理的、慣習的、制度的な壁の多さ
特定サービスへの依存回避
広告掲載サービスの忌避
入札参加資格による調達方式の伝統
・政策課題への引き上げ
。透明性の確保とアプローチ先の検討
<感想>
政府から情報公開→一般市民の参加の流れで、関与できる度合いが大きくなるのは、単純に、選挙で一票いれるだけということに比べて政治参加へのインセンティブが大きいと感じる。
さすれば、人任せでないハッピーな社会へつながるか。
★特別講演3「日本におけるLinked Date の課題とその解決への試み」
国立情報学研究所 情報学プリンシプル研究系・教授
学術コンテンツサービス研究開発センター長 武田 英明 氏
<メモ>
■情報循環
・情報は過去の情報を利用して作られる
。無からは生じない
。収集→利用、創造
・情報の価値は利用されてこそ生じる
。使われない情報には意味がない
。利用、創造→公開
・情報の共有は社会の基盤
。情報流通は社会の健全性の源
。公開→共有→収集
※Web時代の循環スケール 高速、大量、大人数(分け隔てなく)
■セマンティックWeb 人による循環から人と機械による循環へ
・これまでのWeb(HTML)は人による理解のための情報としての記述
・セマンティックWeb 人とコンピュータ双方が利用できる情報として記述
。メタデータによる記述
。オントロジーによるメタデータの構造化
■Lined Date
・RDFで公開されるデータ
・外部から参照可能
■Linked Dateにおける公的機関の重要性
・もともと共有すべき情報、社会の知識基盤
。図書館、美術館、博物館、文書館、政府
■Linked Dateの日本の課題
・共有文化の欠如
。公開に関する意識の薄さ 公開と共有の文化、公共性の違い
・Linked Dataコミュニティの未発達
。文理共同の必要性
・中心的データの欠如
。Dbpediaは Linked Dateの中心
・日本語の取り扱い
。IRIを使えば文字コードとしては原理的にはOKだが、特殊文字や各種ツールの対応が問題になる
。メタデータは日本語?英語?→目的で分けよう
■LODAC Priject
・学術リソースのためのオープン・ソーシャル・セマンティックWebの構築
。Linked Dateの基盤を作る
。実際にデータを集め利用可能にする
■LODAC-Museum(仮)http://lod.ac/
・美術館、博物館情報を集めて関係づける
。日本の美術館、博物館の現状 分散、透明性がない
■LODの発展の方向
・様々な分野のデータがつながることでデータの新しい価値
・一つの主題に関わる情報集約
・一つの場所に関わる情報集約
・様々なコミュニティからの情報集約
・集合地とのつながり
■LODの応用例
・関連資料をめぐる日本縦断ツアー
・地域とイベント情報による展覧会+αの情報
・資料に登場する歴史メニューが食べられる
・ゲームやドラマに使用された資料奇跡
<感想>
技術と社会の共同作業。実際の利用ケースまで落とし込んでこそ価値が出てくる。
LODAC-Museumという目に見える形に落とし込んだことで、色々な人が興味を持って関わると思った。
★特別講演4 「DataWikiを実現するWedataの構築と運用」
(独)産業技術総合研究所 社会知能技術研究ラボ 研究員 江渡 浩一郎 氏
<メモ>
■集合知とは何か
・集団的知性 多くの個人の協力と競争の中で集団自体に知能、精神が存在するように見える。
。従来の知の延長上にある
・群衆の知恵 普通の人の判断を積み重ねると、専門家を超えることがある
。権威主義へ反対する傾向にある
※両者の意味が混じって使われる
■オンライン議論 事例
・IBM Innovation Jam
・経産省 アイデアボックス
・文科省 熟議カケアイ
■集合知データベースの必要性
・対応情報はサイト毎に異なり、Webページ構造が変化すると対応情報も変化する。
・誰でも対応情報を追加、編集可能ににし、Wikiを参考に、集合知で解決する
■DataWiki方式
・Wikiと同様に様々なデータを集合的に追加、編集可能なデータベース
・日々変化する情報を外部に出したい、様々なサイトの情報を外部から扱いたい場合
・ユーザーが自分自身の手で任意のデータを追加、編集できる
■DataWiki方式の利点と欠点
・必要なデータをユーザー自身で追加、編集できる
・Webページの変更で動作しなくなった場合でも、ユーザーの手で修正できる
・開発者はアプリケーション開発に専念できる
・大量の対応情報を集め、維持できる
・荒らし、編集合戦など(WIKI同様の欠点)
■利用者参加を促すために
・ユーザーの参加意識を促すことが重要
・自分の使いたいWebサイトが対応していなかったら、自分自身で対応させられることを伝える
・一人一人の少しの参加が全体の利益になるように
・参加への敷居を下げる
・OpenIDによってログインを容易に
・使いやすいWebインターフェース
・APIで外部インターフェースを可能に
■Wedataの概要
・DataWiki方式を実現した集合知データベース
・利用者は独自のデータセットを定義できる
・データセット製作者のみがスキーマ変更できる
・データの追加、編集、削除は誰でも可能
・OpenIDによるログインをするためspamはない
■AutoPagerizeとは
・Wedataの活用
・Webサイトでページの自動継ぎ足しを実現するスクリプト(次へをおさなくていい)
<感想>
集合知を生かした、課題解決への取り組みは面白い。
簡単に参加できますよという事を示してあげることがすごく重要だと感じた。
メリットに対してコスト(手間)やスキルが必要なんじゃきっと参加しない。
★パネル討論「日本の戦略」の論点
東芝 木下 聡 氏
<メモ>
・リンクされていないデータを緩く結合する仕組みが必要
。Linked dateは永遠に全データの一部
・データを賢く使えそうな仕組みは十分か
。パブリックなデータを核として
。悪意、ゴミデータの排除の仕組みは
・メタデータにおける言語の問題
。知識の表現は言語と表裏一体
。日本語の問題はどうするか?
・普及に向けた社会的問題
。社会的基盤として活用する際の障害はないか
変えるべき法律はあるか
政策的な活動はいらないか
・Linked Dateをどう増やすか
。Wikiはなぜ成功したのか
。データが先かアプリが先か
。パブリック(公共)主導か、プライベート(民間)主導か
。新しいビジネスモデルが必要か
。有料か無料
富士通研究所 津田 宏 氏
<メモ>
■何かビジネスの役に立つLODの活用に向けて
・LODがないとできないアプリは?
・メタデータデッドロック
。メタデータが充実してればよいサービスが提供できる
。よいサービスが提案されれば、データ作成頑張る
・セマンティックWebを使った情報結合の結果から
。面白そうだけど、何できるの
。事例:滋賀銀行 リレーショナルバンキング
データを提供するだけでなく、アプリが重要
・情報のいきつく先は「人」
。セキィリティ、プライバシーへの配慮は避けられない
・LODを安全に利用したい(何をやっているのか外部(競合他社)にばれないように)
・情報の正確性が重要←気づいた人が簡単に修正できる仕組みが必要