实体搜索引擎

本條目屬於網路搜索引擎系列
網路搜索引擎
元搜索引擎
國際性搜索引擎(多语言)
Google
Yahoo! Search
Bing
仅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant
其他链接

實體搜尋引擎Physical search engine)或者稱為線下搜尋引擎Off-line search engine),也稱為物聯網搜尋引擎IoT search engine),實體搜索是一種對應線下實體資訊的檢索系統,也是應用全球資訊網進行搜尋的機制, 搜尋結果類似网络搜索引擎,以條列方式展示結果,亦稱為搜索結果頁 (Search engine results page,SERP) ,實體搜尋引擎以搜尋者指定的方位為中心顯示結果,將其搜索得到的資訊做距離排序,排序距離的規則由近到遠,若資訊是同一距離時,則會加入SEO與服務狀態等因素做排序,這一點不同於网络搜索引擎僅以SEO排序,其顯示的資訊的連結同樣可以連結至網頁、影片、或其他開放的服務資訊。搜尋引擎的搜索資料技術,使用自動化資訊彙整方式達成,一般做法以網路爬蟲 (web crawler)運行演算法得出資訊。實體搜尋引擎對應實體世界實現各類資訊的搜索入口,搜尋機制與互聯網搜尋引擎相似,各類線下服務只需提供Web頁面,不需要額外製作線下搜尋App (例如 UberLyftFoodpanda, ...等Apps); 實體世界的服務與資訊搜索, 不論是定點的資訊, 或是移動的資訊,經由關鍵字搜索便可達到實時搜尋的目的。

發展歷史 编辑

1990年Montreal大學學生發明了Archie英语Archie (search engine),這是追溯網路搜尋的最早發展概念,當時全球資訊網還沒有出現,他們整理了FTP站點上所有檔的目錄列表,創建了一個可對檔案名稱進行搜索的資料庫,因此Archie被稱為搜尋引擎的始祖。

1993年Matthew Gray開發了Wanderer[1],Wanderer的技術是第一個Spider Robot,並在Web上搜索索引頁面目錄的技術,而後Jonathon Fletcher創建了JumpStation系統[2],它是世界上第一個具備 抓取、索引和搜索集於一體的搜尋引擎,接著搜尋引擎的另一個重大發展為網路爬蟲(WebCrawler),1994年搜尋引擎開始導入網站全文索引概念,它支援用戶搜索任一網頁中的任一個搜索詞,而不是僅對網頁標題進行索引。

1994年,Carnegie Mellon 大學Michael Mauldin[3]博士成立Lycos,開發以頁面網址追蹤的Robot技術,Infoseek也是同時期的一個重要代表,他們是搜尋引擎史上一個重要的進步。接著, Netherlands軟體工程師 Martijin Koster, 提出Robots Exclusion Standard[4]的 R E S概念,通過 robots.txt 抓取網址頁面,網路資訊自動化搜索自此得到完整的發展架構。

1995年12月AltaVista推出自然語言搜尋的搜尋引擎,具備了基於網頁內容分析,智慧型處理的能力,第一個實現高級搜尋語法(例如:AND、OR、NOT等)。同時期還有inktomiHotBot等搜尋引擎的競爭者。

1996年Larry Page和Sergey Brin[5],為瞭解決搜尋結果的客觀排序問題,建立一個大量連結的資料庫,藉以找出每個網頁的連結會通向什麼網站, 因而決定網站以連結數量排名的「PageRank」機制。1998年10月,Google誕生,它成為了目前世界上最流行的搜尋引擎。

1999年Auto-ID公司Kevin Ashton應用物品編碼RFID技術,最早提出了「物聯網」的概念,而後在2005年國際電信聯盟(ITU)發佈的報告中,將物聯網的覆蓋範圍延伸拓展,目標在實現人類社會與物理系統的整合,物聯網與物理系統開始有了對應概念。

2004年Glasgow大學提出最早的實體搜尋引擎技術概念, 開發開源搜索引擎技術Terrier[6],利用RFID以及聯網裝置對應實體方位的做法, 實現實體物件的搜尋方法, 並期望在2014年實現實體世界的搜尋應用, 但最終此構想沒有如期完成。Snoogle[7]以及St. Joseph Engineering College[8], 也有類似的架構提出實體搜尋引擎技術。

2005年2月在Google部落格上首次公佈Google地圖,它實現了雲端資訊對應線下實體資訊的搜索的系統。Google地圖的服務資訊沒有應用網路爬蟲進行雲端資訊整合,其資訊來源為Open data,以及用戶自行上架的資料,它雖然不是典型的搜尋引擎,但其應用則開啟線下資訊搜尋的開端。Google地圖目前在全球多國開通了「街景」(Street View)服務,使用者可以通過由Google金龜車在街道上拍到的影像檢視街景。2011年10月7日,Google地圖新增了3D鳥瞰功能。

2008年Apple發展並建立AppStore服務機制,行動服務市場的開始爆發,智慧型手機以App做為核心的應用,引爆了移動「互聯網」概念,並開啟了「物聯網」時代,服務型態開始著重在用戶與實體資訊關係,早期的車隊的管理架構,應用App開始走向開放服務市場,發展至今線下普遍以App做為線下搜尋應用例如,Uber、Lyft、Foodpanda等。

2011年7月浙江大學[9]提出以URL結合定點方位, 對應實體物件的Web資訊, 實現實體搜尋引擎方法與架構, 以及2011年12月InTimeGo[10]提出Web資訊結合定點與移動方位的方法,開啟物聯網(IoT)與 Web 融合的概念,這個使用情境稱之為 Web of ThingsWoT)。Web世界的URL可以說是鏈接的基礎,每個物件都可利用特定URL來對應其特有資訊與方位,WoT 概念之所以重要,在於開始有了 Web 實體化的應用概念, 過去 Web 只是物品雲端上的資訊,WoT 讓Web資訊開始對應到真正的實體方位。2016年Google應用此概念, 發表類似iBeacon讀取近端實體資訊的方法, 命名為「The Physical Web」計畫, Google對於「The Physical Web」發展構想, 希望進而實現近端實體搜尋的機制[11]

2011年10月武漢大學首先發表實體搜索爬蟲和資訊抽取研究方法[12],開啟了自動化資訊彙整的實體搜尋引擎創新思維, 但網路爬蟲彙整的實體資訊,除了實體位置還包含各類服務的狀態資訊, 如何制定涵蓋廣泛的服務應用規範與定義, 最終為實體搜尋引擎的資訊整合能力的指標, 對此微軟公司[13]以及中國大陸的電子科技大學[14]東南大學[15]等, 也陸續提出相關的應用規範與定義。

2014年11月Amazon AlexaAmazon智慧型喇叭Echo一同發布。其概念源自於Apple的語音應用, 藉由Siri語音呼求,為實現線下服務搜尋整合入口,並達到物聯網裝置互聯的機制,Amazon Alexa提供一種與App應用服務串接的方法,名為 Alexa Skills Kit (ASK) 的開發包,它是一種開放式的串接介面,實際上是把物聯網相關業者的服務彙整在一起,利用語音呼求的方式,達成在地化的服務搜尋機制,不過這樣的服務串接方案所費不貲,Amazon推出1億美元的Alexa Fund,以鼓勵開發者參與Alexa語音技能的開發,Amazon從創新性、消費者關聯度、與 ASK 的關聯度等角度衡量開發者專案,一旦通過就會提供一筆資金回饋業者。Amazon Alexa雖然並非典型的搜索引擎,但對於線下移動服務搜尋方式,則為第一個實現線下服務搜尋整合入口的架構,其後Google、Microsoft百度阿里巴巴騰訊京東等後進者,也紛紛推出類似架構的線下服務搜尋整合入口。

2017年9月創新工場李開復首先發表了一個新的商業模式: OMOOnline-Merge-Offline)線上線下虛實融合模式[16],OMO 是O2O營銷模式的巨大演進,且預測在10年內完成線上線下一體化,汽車、商店、商場、診所和學校等現實世界的場景和行為即時資料化,自此,資料世界和實體世界將完全整合,線上線下的界限消失,將讓互聯網對實體行業的滲透率提升至100%。李開復認為,未來OMO的新商業浪潮將推動,未來發展線上線下融合的新零售、實體世界的資料化以及實體搜尋等領域,再加上AI技術的輔助,將會締造巨大的藍海商機與願景[17]。OMO驅動潮流之下, 互聯網下一個焦點將朝向新零售服務、線下服務搜尋以及線下大數據發展,也為實體搜尋入口的發展鋪陳一個全新願景。

2019年8月大千搜尋提出定點或移動位置數據的整合規範[18],發布首個自動化資訊彙整的實體搜尋引擎[19],其構想的方法源於大千搜尋創辦人黃柏堯,首先定義「互聯網」與「物聯網」服務模型之差異[20],以釐清「互聯網」與「物聯網」相互之間的混淆概念,應用其「物聯網服務模型」整合實體各類服務資訊與方位,延伸雲端搜尋引擎的技術運作機制,以Web資訊結合Location成為Location Web,實現服務資訊的OMO (Online-Merge-Offline)虛實融合效益,並藉由網路爬蟲自動彙整線下的人/車/物資訊,成就一站式的線下資訊搜尋入口。

2019年10月Gabriel Rene提出“The Spatial Web”概念[21]Spatial Web是一種場域空間虛實融合的技術,每個場域空間可以獨立建構應用,如果要構成實體世界的連續性視角,將面臨不同場域空間的銜接問題,不過基於Web3.0驅動Spatial Web開放系統, 可以為未來場景統合與銜接的發展鋪路。對於實體搜尋引擎應用發展而言,應用Location Web概念,可以解決不同應用服務領域資訊統合問題,而Spatial Web可以將Location Web的資訊呈現方式, 擴展成為對應三維空間的形相與方位。

2020年物聯網領域知名顧問公司SRI Consulting描繪之物聯網技術路線,綜合物聯網發展的型態與目標, 歸納物聯網依據時間軸發展, 可分為四個階段分別為:供應鏈輔助、垂直市場應用、無所不在的定址(Ubiquitous positioning),最後可以達到「The Physical Web」,意即讓物聯網上的每一個智慧型裝置都以URL來標示[22],呼應實體世界的每個物件都可利用特定URL來對應其特有資訊與方位,據此發展趨勢,實體搜尋引擎將更易於獲取實體資訊。

技術與服務差異 编辑

搜尋引擎之服務功能差異 编辑

實體搜尋引擎承襲了網路搜尋引擎的主要技術架構, 但為了區別搜尋引擎服務功能的世代差異, 以下將之分別稱為「互聯網」搜尋引擎與「物聯網」搜尋引擎。 「互聯網」與「物聯網」的差異在於,互聯網僅將資訊引導至線上,物聯網則是將資訊達成線下線上融合,物聯網其實就是線下線上虛實融合的發展趨勢, 這也相應於創新工場李開復先生所提的OMO (Online-Merge-Offline)服務模式 。物聯網與實體世界服務型態其實完全一致, 物聯網的發展目標, 則是在線上創造一個對應線下實體的世界, 目的在解決人類因地域的資訊限制, 可以藉由線下實體搜尋與大數據服務, 提升周遭資訊的服務效能, 藉以創造更加「直接」「即時」「便利」的生活方式。

實體搜尋引擎具備之特點 编辑

線下線上虛實融合的搜尋應用, 目前有了Google 地圖, 為何還是需要發展物聯網搜尋引擎呢? 其實這個癥結在於Google地圖並非搜尋引擎, 最終發展的潛力將不及搜尋引擎 , 如同2000年以前Yellow Page與搜尋引擎的競爭, 最終Yellow Page資料總量不敵搜尋引擎的量級而退場。搜尋引擎可以創造資料總量的優勢, 至少需具備以下三個特點:

  • 搜尋引擎資料來自不同的系統: 資料來自不同的系統, 也就是來自不同的伺服器, 如此可以跨應用跨服務整合, 也進而達成搜尋線下萬物的搜尋入口 , 屆時也不需要額外製作線下搜尋App, 例如 Uber, Foodpanda這類App, 可以直接經由物聯網搜尋引擎, 便可搜尋線下所有服務。
  • Spider Robot資訊收集機制: 創建Robot機制的目的在於, 自動匯集全球資訊 ,比起資料來源於自家建立, 或者自家會員提案, 擁有更為巨大的量級潛力。
  • 優異準確率的搜尋能力: 搜尋產出的結果關聯於Ranking演算技術, 「互聯網」與「物聯網」有其差異, 所以相互間無法直接套用, 「物聯網」需要考量服務距離, 服務狀態等因素, 加入索引與排序的演算機制, 需要重新優化之後, 才能實現滿意的搜尋結果。

而Google 地圖搜尋方式, 依據標題與分類的關鍵字等因素得出結果, 搜尋演算尚屬直覺簡單, 估計仍在發展階段, 然而最關鍵的因素在於, Google 地圖沒有符合前兩個特點的任一項 , 如同Yellow Page搜尋機制, 最終將成為物聯網時代的過渡性搜尋應用。

Web發展的必要性 编辑

綜觀現階段線下實體搜尋方式,普遍以App做為線下搜尋應用 (例如,Uber、Foodpanda等) ,事實上App應用架構難以實現跨應用跨服務的整合入口。行動裝置發展初期,因為硬體效能不足的因素,App相比於Web擁有較佳的效能表現,所以PC或行動裝置發展初期, 都是優先發展App應用, 回顧PC的發展史,一開始便先發展App應用, 然後慢慢過渡到Web應用,例如過往在PC玩遊戲, 或查閱字典, 過往都需要安裝App,現在的PC已甚少安裝App的面向來看,行動裝置應不難推測將歷經相同的發展過程。目前主流App設計採用的是資料串接方式,實際上這是一種封閉架構,難以如同開放性的Web具備跨應用跨服務的資訊整合特性,加之用戶端實際上安裝App數目有限,大部分Apps在用戶端沒有市場,根據Adjust近年App應用的統計數據得知,前十排名的App便佔據八成五以上流量,並且高達九成以上的僵屍App [23],這已形成非常嚴重的軟體資源浪費,App應用架構若沒有相應方案改善, 不僅不利於發展資訊共用的任何服務,也不利於發展跨應用的線下服務整合入口,故驅使W3C (World Wide Web Consortium)開始著眼定義物聯網 (Internet of Things)前瞻的應用規範,以Web 或Web of Things [24]WoT英语WoT)方式推動線下服務應用。

参考資料 编辑

  1. ^ 1993-06, Matthew Gray Develops the World Wide Web Wanderer.. [2021-02-22]. (原始内容存档于2020-08-07). 
  2. ^ 2013-09-03, Jonathon Fletcher: forgotten father of the search engine. [2021-02-22]. (原始内容存档于2021-02-28). 
  3. ^ 2021-02-21, Lycos founder Mauldin returns to company after 17 years. [2021-02-22]. (原始内容存档于2018-03-03). 
  4. ^ 2013-12-15, What is the Robots Exclusion Standard?. [2021-02-22]. (原始内容存档于2020-10-01). 
  5. ^ 2019-06, Larry Page and Sergey Brin
  6. ^ 2012-06-14, Search Engine Queries Physical World In Real Time. [2021-03-06]. (原始内容存档于2021-01-19). 
  7. ^ 2004-12, Snoogle: A Search Engine for the Physical World
  8. ^ 2017-06, Search Buddy: A Search Engine for Physical Objects. [2021-03-06]. (原始内容存档于2019-10-02). 
  9. ^ 2011-07, What-you-retrieve-is-what-you-see: a preliminary cyber-physical search engine (PDF). [2021-03-23]. (原始内容存档 (PDF)于2020-01-25). 
  10. ^ 2011-12-21, 物件搜尋服務引擎及移動資訊管理系統架構 (PDF). [2021-03-23]. (原始内容存档 (PDF)于2021-01-09). 
  11. ^ 2016-02-19, With The Physical Web, You Become The Search Engine. [2021-03-23]. (原始内容存档于2021-01-27). 
  12. ^ 2011-10, 實體搜索爬蟲和資訊抽取研究方法[失效連結]
  13. ^ 2012-12, 基於實體的搜索和解析
  14. ^ 2014-10, 基於Web的實體資訊提取和搜索研究[失效連結]
  15. ^ 2015-01, 一個面向語義 Web的實體探索系統
  16. ^ 2017-12-12, 李開復暢談OMO時代的出行
  17. ^ 2017-11-30, BAT之後下一個超級公司會從OMO領域中產生
  18. ^ 2019-12-09, 線下服務應用與HTML規範發展
  19. ^ 2019-11-20, 線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務. [2021-02-22]. (原始内容存档于2021-01-08). 
  20. ^ 2020-04-21, 解析物聯網的真實商機與發展方向. [2021-04-10]. (原始内容存档于2021-01-09). 
  21. ^ 2020-10-02, An Introduction to The Spatial Web. [2021-04-12]. (原始内容存档于2021-07-05). 
  22. ^ 2020-08-13, APPENDIX F: THE INTERNET OF THINGS (BACKGROUND). [2021-04-10]. (原始内容存档于2021-04-10). 
  23. ^ 2016-09-05, Statista: 90% Of All iOS Apps Are Zombies. [2021-02-22]. (原始内容存档于2021-01-09). 
  24. ^ 2021-02, WEB OF THINGS AT W3C. [2021-02-22]. (原始内容存档于2021-03-09).